Introdução à Análise de Dados com R
Transcrição
Introdução à Análise de Dados com R
1 Introdução à Análise de Dados com R Carga horária total: 20h. Professor responsável Rodrigo Rodrigues-Silveira Lateinamerika-Institut, Universidade Livre de Berlim Instituto de Iberoamérica, Universidade de Salamanca [email protected] Objetivos O curso tem como objetivo oferecer uma introdução aos estudantes de ciências sociais nas técnicas básicas de análise de dados empregando o pacote estatístico R. Pretende dar uma visão geral do que são dados, bases de dados, quais as principais técnicas de análise empregadas nas ciências sociais e como implantá-las no ambiente R. Além disso, serão explorados os enormes recursos gráficos disponíveis – uma das grandes vantagens deste pacote estatístico – e os modos de formatar e organizar os dados para sua posterior apresentação em uma publicação acadêmica. Nesse sentido, este é, a um só tempo, um curso introdutório de análise de dados e do pacote R. Sua ambição consiste em fornecer uma primeira aproximação dos estudantes aos métodos mais essenciais de análise de dados ao mesmo tempo em que tomam contato com um dos pacotes estatísticos mais completos. Objetivos específicos Como objetivos específicos, busca-se familiarizar os alunos com relação a: 1. o ambiente R e seus diversos recursos de análise; 2. os conceitos fundamentais para realizar uma análise de dados: base de dados, casos, observações, variáveis, tipos de informação, fontes de informação; 3. a preparação e organização dos dados para posterior análise (como obter informação e construir uma base de dados); 4. a exploração de dados – formas de distribuição de dados, medidas de tendência central, dispersão, associação; 5. a exploração de dados por meio de gráficos – completa as medidas estatísticas utilizando recursos gráficos uni e multivariados (histogramas, boxplots, scatterplots, etc.) 6. a realização de testes de hipóteses, diferença entre médias e análise de variância; 7. a introdução à regressão linear simples e multivariada. 2 Programa O programa do curso está dividido em cinco temas. O primeiro realiza uma introdução ao ambiente de trabalho R e descreve algumas estratégias de busca de dados e construção de uma base de dados a ser utilizada nas análises posteriores. O segundo sublinha como realizar análises exploratórias de dados com uma ou mais variáveis no R. Em particular, discutir-se-ão as medidas estatísticas mais comuns como as de tendência central (média, mediana, moda), dispersão (desvio médio, variância, desvio padrão, intervalo, intervalo interquartil) e associação (covariância e correlação). Terceiro, descreve-se como efetuar a exploração de dados e a apresentação dos resultados por meio de diferentes gráficos. A quarta parte introduz os princípios básicos do teste de hipóteses e descreve como realizar os testes de diferença entre médias e análises de variância. Finalmente, o quinto tema trata do método de regressão linear. Métodos empregados O curso consistirá em 5 (cinco) aulas expositivas de quatro horas cada uma, divididas em parte expositiva e exercícios em classe. Ademais, cada seção possui um conjunto de exercícios a ser realizados pelos alunos em casa como atividade complementar às exposições em aula. Nesse sentido, os exercícios serão compostos por tarefas diretamente vinculadas a cada um dos temas mencionados. Sua função é estabelecer um roteiro sistemático para o aprendizado dos procedimentos de análise de dados utilizando o R como plataforma. Material O pacote estatístico R será utilizado como base para o aprendizado de técnicas de manipulação e análise de dados. Sua distribuição gratuita, multiplataforma (Windows, MacOS, Linux), a enorme oferta de distintas técnicas estatísticas, constantemente atualizadas por especialistas, e o crescente número de usuários – tanto estatísticos como acadêmicos das ciências sociais – conferem vantagens claras ao R como instrumento básico de análise de dados para usuários interessados em acompanhar os avances mais recentes em termos de métodos. Por outro lado, serão utilizados dados reais comumente empregados pelos cientistas sociais para realizar suas pesquisas. Em particular, este curso concentra-se em três tipos: censos, registros administrativos e surveys. Tema 1 – O ambiente R e a construção de uma base de dados 3 O primeiro tema está dividido em duas partes. A primeira centra-se na apresentação do ambiente R no que se refere a como instalá-lo, suas principais partes componentes, a linguagem de programação e como conseguir ajuda on-line. A segunda descreve o que são dados, seus diversos tipos, os diferentes níveis de mensuração (nominal, ordinal, intervalo e contínuo), como construir uma base de dados e as três fontes de informação secundária empregadas pelos estudos quantitativos nas ciências sociais (censos, registros administrativos e surveys). Referências Kabacoff, Robert. 2011. R in Action: Data analysis and graphics with R. Shelter Island: Manning. Caps.: 1 – “Introduction to R” (pp.3-20); 2 – “Creating a dataset” (pp.21-44). Karp, Natasha. 2010. R Commander: an Introduction. Sanger Institute. Disponível em: http://cran.r-project.org/doc/contrib/Karp-Rcommander-intro.pdf. Nieuwenhuis, Rense. 2011. Applied R for the quantitative social scientist. Disponível em: http://www.rensenieuwenhuis.nl/documents/Applied%20R.pdf. Cap. 1 (pp.11-24). Paradis, Emmanuel. 2002. R para principiantes. Disponível em: http://cran.rproject.org/doc/contrib/rdebuts_es.pdf. (pp. 4-28). Robinson, Andrew. 2010. IcebreakeR. Depto. de Matemática e Estatística. Univ. Melbourne. Disponível em: http://cran.r-project.org/doc/contrib/Robinsonicebreaker.pdf. (pp. 4-42). Sáez Castillo, José A. 2010. Métodos Estadísticos con R y R Commander. Depto. de Estadística e Investigación Operativa. Univ. de Jaén. Disponível em: http://cran.rproject.org/doc/contrib/Saez-Castillo-RRCmdrv21.pdf. (pp. 10-50). Short, Tom. 2004. R Reference Card. EPRI PEAC. Disponível em: http://cran.rproject.org/doc/contrib/Short-refcard.pdf. Tema 2 – Análise exploratória de dados O segundo tema descreve as estatísticas básicas empregadas em quase a totalidade das análises de dados nas ciências sociais. Em particular, discute-se que significa a descrição dos dados, por que é útil examinar a forma de sua distribuição (se é normal ou assume algum outro formato), e como o fato de “explorar” os dados pode ser 4 um procedimento bastante útil para gerar modelos de análise e novas hipóteses de pesquisa. De modo específico, este tema versará sobre as estatísticas descritivas (média, moda, mediana, quartis, percentis, kurtosis, skewness), as tabelas de frequência e tabulação cruzada e os distintos tipos de correlação. Referências Dalgaard, Peter. 2008. Introductory Statistics with R. New York: Springer. Caps.: 3 – “Probability and distribution” (pp. 55-66); 4 – “Descriptive statistics and graphs” (pp.67-94). Friendly, Michael, 2007. Working with categorical data with R and the vcd and vcdExtra packages. Disponível em: http://cran.rproject.org/web/packages/vcdExtra/vignettes/vcd-tutorial.pdf. Hinton, Perry. 2004. Statistics Explained. London: Routledge. Caps.: 1 – “Descriptive statistics” (pp. 5-24); 2 – “Standard scores” (pp. 25-34). Kabacoff, Robert. 2011. R in Action: Data analysis and graphics with R. Shelter Island: Manning. Cap. 7 – “Basic statistics” (pp.141-170). Tema 3 – Gráficos com R Um dos recursos mais destacados do R é a quantidade e variedade de recursos gráficos disponíveis ao usuário. Esta riqueza permite o acesso a um poderoso manancial de ferramentas para a exploração visual dos dados – que incluem desde gráficos tradicionais e simples para uma só variável, como os gráficos de barra, pizza, linha – até instrumentos complexos para a análise multivariada, como os diagramas de dispersão (scatterplots), correlogramas, ou diagramas de probabilidades (este último para as análises de dados categóricos). Além disso, outro recurso interessante a ser destacado neste tema é a geração de séries de gráficos por subgrupos de casos. Referências Correa, Juan C., González, Nelfi. 2002. Gráficos estadísticos con R. Universidad http://cran.rNacional de Colombia. Disponível em: project.org/doc/contrib/grafi3.pdf. Kabacoff, Robert. 2011. R in Action: Data analysis and graphics with R. Shelter Island: Manning. Caps.: 6 – “Basic graphs” (pp.119-140); 11 – “Intermediate graphs” (pp.263-290); 16 – “Advanced graphs” (pp. 373-399). 5 Nieuwenhuis, Rense. 2011. Applied R for the quantitative social scientist. Disponível em: http://www.rensenieuwenhuis.nl/documents/Applied%20R.pdf. Cap. 3 (pp.51-66). Tema 4 – Teste de hipóteses e Análise de diferenças entre médias Pessoas residentes em zonas urbanas possuem uma expectativa de vida mais alta que aquelas que vivem no campo? Indivíduos com estudos universitários possuem renda mais alta que aqueles com ensino médio? O quarto tema concentra-se em ensinar como responder a tais perguntas a partir de critérios estatísticos ou probabilísticos. Nesse sentido, será definido o que se entende por teste de hipóteses, níveis de significâncias e intervalos de confiança. De modo concreto, serão empregados três procedimentos: o teste de diferença entre médias, diferença entre amostras e a análise de variância (ANOVA). Referências Dalgaard, Peter. 2008. Introductory Statistics with R. New York: Springer. Cap. 5 – “One- and two-sample tests” (pp. 95-107). Hinton, Perry. 2004. Statistics Explained. London: Routledge. Caps.: 4, 5, 6, 7, 8, y 9 (pp. 35-110). Kabacoff, Robert. 2011. R in Action: Data analysis and graphics with R. Shelter Island: Manning. Caps.: 7 – “Basic statistics” (pp.141-170); 9 – “Analysis of variance” (pp.219-245). Tema 5 – Regressão linear O quinto e último tema do curso trata do método de análise de regressão linear. O objetivo consiste em explicar: em que consiste a regressão linear, seus principais pressupostos, como definir um modelo de regressão e quais testes devem ser realizados depois da estimação do modelo para determinar sua validade e consistência. Pretende-se que esta seja somente uma pequena introdução aos métodos de análise multivariada e que permita estabelecer as bases para o desenvolvimento posterior dos estudantes em métodos quantitativos mais sofisticados. 6 Referências Dalgaard, Peter. 2008. Introductory Statistics with R. New York: Springer. Caps.: 6 – “Regression and correlation” (pp. 109-126); 11 – “Multiple regression” (pp. 185194). Hinton, Perry. 2004. Statistics Explained. London: Routledge. Caps.: 20 – “Linear correlation and regression” (pp. 261-282); 21 – “Multiple correlation and regression” (pp. 283-294). Kabacoff, Robert. 2011. R in Action: Data analysis and graphics with R. Shelter Island: Manning. Cap. 8 – “Regression” (pp.173-218). Recursos adicionais Quick-R O melhor blog de R disponível na internet com uma ampla oferta de recursos e informação tanto para iniciantes como para aqueles que já possuem conhecimentos intermediários de R. http://www.statmethods.net R Webpage Constitui uma fonte de muitíssima informação estatística e sobre as atualizações mais recentes no programa, além de uma lista completa dos recursos e funções estatísticas disponíveis. É a verdadeira “biblioteca de Alexandria” do R, onde podem ser encontrados diversos manuais e outras informações de relevância. http://www.r-project.org/ Repositório - CRAN Contém a maior parte dos pacotes estatísticos disponíveis para o R, além das chamadas “task views”, que são páginas dedicadas a temas específicos, como: “Estatística para as ciências sociais”, “Análise espacial”, “Estatísticas oficiais e análise de survey”, “Econometria” e “Análise de cluster”. http://cran.r-project.org/ Para a task view dedicada à estatística nas ciências sociais: 7 http://cran.r-project.org/web/views/SocialSciences.html Página pessoal de Gary King Gary King é considerado um dos principais teóricos da metodologia quantitativa nas ciências sociais. Seu livro Designing Social Enquiry (com Robert Keohane e Sidney Verba) constitui um dos manuais de metodologia mais influentes até hoje. Nos últimos anos, este autor dedicou-se a desenvolver uma série de programas e pacotes para o R que incluem a inferência ecológica, imputação de casos perdidos, contrafácticos, a análise de eventos raros e o uso do R pelos cientistas sociais. Em particular, destacamse os pacotes R denominados Zelig e Amelia II. Na página, além dos programas e sua documentação, também pode ser encontrada uma série de publicações de King e seus assistentes de pesquisa com aplicações ilustrativas de cada um dos métodos mencionados. http://gking.harvard.edu/software Manuais on-line Existe uma larga gama de manuais distribuídos gratuitamente na página de documentação do R que cobrem desde a introdução ao R até aspectos específicos como métodos multivariados, criação de pacotes e a importação de dados no R. Alguns desses manuais são utilizados extensamente neste curso. Para acessar estas informações (e ao material disponível em português), ver: http://cran.r-project.org/manuals.html http://cran.r-project.org/other-docs.html Gráficos O projeto “R Graphical Manual” possui uma lista extensíssima de exemplos de gráficos para o R. Está dividida em várias categorias (entre elas uma específicas para as ciências sociais) com códigos de exemplos que ajudam a reproduzi-los com dados próprios. Até agora, o site conta com 36.428 gráficos. http://rgm2.lab.nig.ac.jp/RGM2/images.php?show=all O projeto “R Graph Gallery” possui uma lista bastante extensa de gráficos e os códigos em R necessários para realiza-los. É um recurso muito interessante para usuários que desejam tirar o máximo de proveito das capacidades gráficas do R. http://addictedtor.free.fr/graphiques/