Manipulação de dados em stata forex
Estou atualmente usando uma amostra de 10 de um conjunto de dados muito grande (10 vars, mais de 300 m de linhas), que equivale a mais de 200 GB de dados quando armazenado no formato. dta para o conjunto de dados completo. A Stata é capaz de lidar com operações como egen, colapso, fusão, etc. em uma quantidade razoável de tempo para a amostra 10 ao usar o Stata-MP em um servidor UNIX com 50G de RAM e múltiplos núcleos. No entanto, agora quero avançar para analisar toda a amostra. Mesmo que eu use uma máquina que tenha RAM suficiente para armazenar o conjunto de dados, simplesmente gerar uma variável leva idades. (Eu acho que talvez as operações em segundo plano estejam fazendo com que o Stata funcione em mem virtual). O problema também é muito favorável à paralelização, ou seja, as linhas no conjunto de dados são independentes um do outro, então eu posso pensar com facilidade sobre o conjunto de dados grande como 100 conjuntos de dados menores. Alguém tem alguma sugestão sobre como processar analisar esses dados ou pode me dar feedback sobre algumas sugestões que atualmente eu uso principalmente StataSASMATLAB, então talvez existam outras abordagens que eu simplesmente não soube. Aqui estão algumas das minhas ideias atuais: Divida o conjunto de dados em conjuntos de dados menores e utilize o processamento paralelo informal em Stata. Eu posso executar minha análise de processamento de limpeza em cada partição e depois mesclar os resultados depois sem ter a loja todas as partes intermediárias. Use o SQL para armazenar os dados e também executar a manipulação de dados, como a agregação sobre determinados valores. Uma preocupação aqui é que algumas tarefas que a Stata pode lidar com bastante facilidade, como a comparação de valores ao longo do tempo, não funcionarão tão bem no SQL. Além disso, eu já estou em execução em problemas de desempenho ao executar algumas consultas em SQL em uma amostra de 30 dos dados. Mas talvez eu não otimizei por indexação correta, etc. Além disso, Shard-Query parece que poderia ajudar com isso, mas ainda não tenho pesquisado demais. R também parece promissor, mas não tenho certeza se resolveria o problema de trabalhar com essa enorme quantidade de dados. Como você conhece a Stata, há uma FAQ bem documentada sobre grandes conjuntos de dados no Stata Dealing com conjuntos de dados grandes. Você pode achar isso útil. Eu iria limpar através de colunas, dividindo-os, executando quaisquer rotinas de limpeza específicas e juntando-se mais tarde. Dependendo dos recursos da sua máquina, você deve poder manter as colunas individuais em vários arquivos temporários usando tempfile. O cuidado de selecionar apenas as variáveis ou colunas mais relevantes para sua análise deve reduzir bastante o tamanho do seu conjunto. Respondeu 22 de novembro 13 às 7:10 Não deveria o link que você menciona apontar para esta página. Ndash radek 22 de novembro às 11:25 absolutamente certo, estúpido, copiar bagunça de macarrão lá ndash D3L 23 de novembro às 12:29 Obrigado D3L. O problema aqui é que estou executando algum código de manipulação de dados que requer interação entre colunas. A divisão das linhas é uma solução possível, mas é bastante complicado para a tarefa que estou executando. Ndash user3018549 26 de novembro 13 em 15: 40Stata: Análise de dados e software estatístico 1. Leitura e entrada de dados Como faço para me conectar a um banco de dados usando um plug-in Stata Como faço para exportar tabelas do Stata Por que recebo linhas de dados faltantes quando eu? Use infile Como posso converter outros arquivos de pacotes para arquivos de dados do formato Stata Como configuro um nome de fonte de dados ODBC para Stata no Windows Como configuro um nome de fonte de dados ODBC para Stata no Mac ou LinuxUnix O Stata está lendo minhas variáveis Como seqüência de caracteres em vez de numérica. O que devo fazer Como faço para converter variáveis de data em datas decorridas de Stata quando os números funcionam juntos, como ldquo4151999rdquo Como faço para obter informações do Excel para Stata Como uso infiltrado para ler em dados de formato fixo Pode infiltrar-se em um conjunto de dados hierárquico 2. Combinando conjuntos de dados Como você processa conjuntos de dados muito grandes no Stata 3. Uso da memória Quão grande será meu conjunto de dados 4. Manipulação de dados 4.1 Criação de variáveis Como posso fazer um amostragem de clusters. Não indivíduos Como posso identificar sistematicamente as primeiras e as últimas ocorrências em dados de painel. Como lidar com um relatório de valores de tempo repetidos no painel. Como posso criar variáveis contendo resumos de porcentagem Como posso gerar uma variável que contém a última das várias datas Como faço para dividir uma variável de string em partes O que é verdadeiro e falso em Stata Como faço para calcular medidas como por cento melhoradas menos por cento deterioradas Como fazer Eu crio variáveis que resumem para cada propriedade individual dos outros membros de um grupo. Como faço para criar identificadores individuais numerados de 1 para cima? Como eu crio uma variável de gravação, se algum membro de um grupo (ou todos os membros de um grupo) possui alguma característica? Eu crio variáveis falsas 4.2 Atalhos Como faço para executar operações elemento a elemento em matrizes Como posso listar. solta . E manter um conjunto de variáveis consecutivas sem digitar os nomes individualmente. Posso aplicar o comando de valores de rótulo a mais de uma variável, ao mesmo tempo que eu quero anexar os mesmos rótulos de valor a várias variáveis. 4.3 Resultados divergentes Quantos dígitos significativos existem em um flutuador Por que a função mod (x, y) às vezes dá resultados desconcertantes Por que mod (0.3, 0.1) não é igual a 0 Por que o canrsquot eu comparo dois valores que eu sei são iguais Porque É xgt1000 verdadeiro quando x contém valores em falta Por que o meu arquivo do do ou o arquivo ado produz resultados diferentes sempre que o executo 4.4 Manipulação do conjunto de dados Como eu converto meus códigos ICD-9 de um tipo de seqüência para um tipo numérico Como faço para verificar Uma variável para uma variedade de códigos de diagnóstico ou procedimento Como rotulamos meus códigos de diagnóstico ou procedimento com suas descrições Como faço para calcular o máximo ou o mínimo visto até agora em uma sequência O que são expressões regulares e como posso usá-las em Stata Como fazer? Eu removo zeros à esquerda ou à esquerda de variáveis de string Como faço para percorrer os grupos de uma variável em ordem de sua primeira ocorrência no conjunto de dados Como posso soltar magias de valores perdidos no início e no final dos dados do painel Existe uma maneira de dizer Stata para tentar tudo Valores de uma variável particular em uma instrução foreach sem especificá-los Eu quero calcular uma variável contendo estatísticas de resumo de grupo ponderado. Mas eu não quero colapsar os dados e egen não suporta pesos. Como posso fazer isso? Como faço para lidar com respostas múltiplas? Como posso colapsar meu conjunto de dados e manter os mesmos rótulos de variáveis? Como identifico corridas de observações consecutivas em dados de painel? Como faço para selecionar um subconjunto de observações usando um critério complicado Como posso? Salve uma ou mais partes de um grande conjunto de dados. Como você define de forma eficiente as características do grupo em seus dados, a fim de criar subconjuntos. Como faço para executar várias operações nos registros de dados, se uma condição for encontrada eu estou tendo problemas com o comando de remodelação. Você pode dar uma orientação adicional? Como faço para produzir um conjunto de dados com base em todos os possíveis pares de identificadores dentro de cada grupo? Por que o comando destring no Stata inclui uma opção de codificação? Como posso criar um conjunto de dados (matriz) de meios (outras estatísticas) das variáveis de O conjunto de dados atual Como implemento ARRAYs semelhantes a SAS no Stata 4.5 Substituindo valores ou observações Como posso substituir valores faltantes com valores anteriores ou seguintes não transmissíveis ou dentro de seqüências Como posso substituir uma observação de uma variável com uma observação diferente para outra variável 5 . Relatórios de dados Como faço para calcular o número de valores distintos vistos até agora? Como faço para contar o número de seqüências distintas em um conjunto de variáveis? Como faço para calcular o número de observações distintas? Como tabular freqüências cumulativas? Como faço para listar as observações? Um grupo que difere em uma variável Existe uma maneira de colocar zeros avançados na saída Como posso produzir uma tabulação de uma variável de string que está listada em lógica, em vez disso Do que ordem alfabética Existe alguma maneira direta de salvar em uma nova variável as freqüências obtidas aplicando o comando tabular Como identificar vizinhos de pontos ou áreas em uma grade retangular em Stata Como eu identifico anos bissextos em Stata Por que estou recebendo um Mensagem de erro que não há espaço em disco insuficiente Como posso colocar a data e a hora atuais em meus arquivos de log Como acumulam os resultados dos comandos imediatos Por que o comando reclama que não há observações 7. Perguntas frequentes sobre a liberação antes do Stata 14 Por que fazer Recebo o erro ldquowrong number of valuesrdquo quando eu uso insheet para ler dados do Excel. Posso usar o ODBC para escrever em um arquivo do Excel existente. Todas as manhãs eu tenho que definir meu tamanho de memória para, digamos, 20m. O padrão, 1m, não é suficiente para os meus dados. Existe uma maneira de mudar a configuração padrão Por que recebo a mensagem de erro? Não há espaço para adicionar mais observações rdquo Como posso usar um conjunto de dados maior que a RAM disponível Como posso aplicar o valor original e as etiquetas de variáveis depois de usar o Reagir o comando Por que a minha fusão produz um conjunto de dados com muitas observações Existe uma maneira de dizer ao Stata que tente todos os valores de uma variável particular em uma instrução for, sem especificá-las? Como eu identifico observações duplicadas em meus dados? Como posso converter outros pacotes? Arquivos para arquivos de dados do formato Stata O que eu faço se o comando que eu preciso não pode ser usado com como eu crio uma variável que contenha uma seqüência repetitiva de números. O que é o novo comando de remodelação? Por que remodelar, dê um erro muito variável? Por que recebo uma mensagem de que não há espaço no meu disco rígido
Comments
Post a Comment