Introdução à Análise de Dados com R

Transcrição

Introdução à Análise de Dados com R
1
Introdução à Análise de Dados com R
Carga horária total: 20h.
Professor responsável
Rodrigo Rodrigues-Silveira
Lateinamerika-Institut, Universidade Livre de Berlim
Instituto de Iberoamérica, Universidade de Salamanca
[email protected]
Objetivos
O curso tem como objetivo oferecer uma introdução aos estudantes de ciências
sociais nas técnicas básicas de análise de dados empregando o pacote estatístico R.
Pretende dar uma visão geral do que são dados, bases de dados, quais as principais
técnicas de análise empregadas nas ciências sociais e como implantá-las no ambiente R.
Além disso, serão explorados os enormes recursos gráficos disponíveis – uma das
grandes vantagens deste pacote estatístico – e os modos de formatar e organizar os
dados para sua posterior apresentação em uma publicação acadêmica. Nesse sentido,
este é, a um só tempo, um curso introdutório de análise de dados e do pacote R. Sua
ambição consiste em fornecer uma primeira aproximação dos estudantes aos métodos
mais essenciais de análise de dados ao mesmo tempo em que tomam contato com um
dos pacotes estatísticos mais completos.
Objetivos específicos
Como objetivos específicos, busca-se familiarizar os alunos com relação a:
1. o ambiente R e seus diversos recursos de análise;
2. os conceitos fundamentais para realizar uma análise de dados: base de dados,
casos, observações, variáveis, tipos de informação, fontes de informação;
3. a preparação e organização dos dados para posterior análise (como obter
informação e construir uma base de dados);
4. a exploração de dados – formas de distribuição de dados, medidas de tendência
central, dispersão, associação;
5. a exploração de dados por meio de gráficos – completa as medidas estatísticas
utilizando recursos gráficos uni e multivariados (histogramas, boxplots,
scatterplots, etc.)
6. a realização de testes de hipóteses, diferença entre médias e análise de variância;
7. a introdução à regressão linear simples e multivariada.
2
Programa
O programa do curso está dividido em cinco temas. O primeiro realiza uma
introdução ao ambiente de trabalho R e descreve algumas estratégias de busca de dados
e construção de uma base de dados a ser utilizada nas análises posteriores. O segundo
sublinha como realizar análises exploratórias de dados com uma ou mais variáveis no R.
Em particular, discutir-se-ão as medidas estatísticas mais comuns como as de tendência
central (média, mediana, moda), dispersão (desvio médio, variância, desvio padrão,
intervalo, intervalo interquartil) e associação (covariância e correlação). Terceiro,
descreve-se como efetuar a exploração de dados e a apresentação dos resultados por
meio de diferentes gráficos. A quarta parte introduz os princípios básicos do teste de
hipóteses e descreve como realizar os testes de diferença entre médias e análises de
variância. Finalmente, o quinto tema trata do método de regressão linear.
Métodos empregados
O curso consistirá em 5 (cinco) aulas expositivas de quatro horas cada uma,
divididas em parte expositiva e exercícios em classe. Ademais, cada seção possui um
conjunto de exercícios a ser realizados pelos alunos em casa como atividade
complementar às exposições em aula. Nesse sentido, os exercícios serão compostos por
tarefas diretamente vinculadas a cada um dos temas mencionados. Sua função é
estabelecer um roteiro sistemático para o aprendizado dos procedimentos de análise de
dados utilizando o R como plataforma.
Material
O pacote estatístico R será utilizado como base para o aprendizado de técnicas
de manipulação e análise de dados. Sua distribuição gratuita, multiplataforma
(Windows, MacOS, Linux), a enorme oferta de distintas técnicas estatísticas,
constantemente atualizadas por especialistas, e o crescente número de usuários – tanto
estatísticos como acadêmicos das ciências sociais – conferem vantagens claras ao R
como instrumento básico de análise de dados para usuários interessados em acompanhar
os avances mais recentes em termos de métodos. Por outro lado, serão utilizados dados
reais comumente empregados pelos cientistas sociais para realizar suas pesquisas. Em
particular, este curso concentra-se em três tipos: censos, registros administrativos e
surveys.
Tema 1 – O ambiente R e a construção de uma base de dados
3
O primeiro tema está dividido em duas partes. A primeira centra-se na
apresentação do ambiente R no que se refere a como instalá-lo, suas principais partes
componentes, a linguagem de programação e como conseguir ajuda on-line. A segunda
descreve o que são dados, seus diversos tipos, os diferentes níveis de mensuração
(nominal, ordinal, intervalo e contínuo), como construir uma base de dados e as três
fontes de informação secundária empregadas pelos estudos quantitativos nas ciências
sociais (censos, registros administrativos e surveys).
Referências
Kabacoff, Robert. 2011. R in Action: Data analysis and graphics with R. Shelter Island:
Manning. Caps.: 1 – “Introduction to R” (pp.3-20); 2 – “Creating a dataset”
(pp.21-44).
Karp, Natasha. 2010. R Commander: an Introduction. Sanger Institute. Disponível em:
http://cran.r-project.org/doc/contrib/Karp-Rcommander-intro.pdf.
Nieuwenhuis, Rense. 2011. Applied R for the quantitative social scientist. Disponível
em: http://www.rensenieuwenhuis.nl/documents/Applied%20R.pdf. Cap. 1
(pp.11-24).
Paradis, Emmanuel. 2002. R para principiantes. Disponível em: http://cran.rproject.org/doc/contrib/rdebuts_es.pdf. (pp. 4-28).
Robinson, Andrew. 2010. IcebreakeR. Depto. de Matemática e Estatística. Univ.
Melbourne. Disponível em: http://cran.r-project.org/doc/contrib/Robinsonicebreaker.pdf. (pp. 4-42).
Sáez Castillo, José A. 2010. Métodos Estadísticos con R y R Commander. Depto. de
Estadística e Investigación Operativa. Univ. de Jaén. Disponível em: http://cran.rproject.org/doc/contrib/Saez-Castillo-RRCmdrv21.pdf. (pp. 10-50).
Short, Tom. 2004. R Reference Card. EPRI PEAC. Disponível em: http://cran.rproject.org/doc/contrib/Short-refcard.pdf.
Tema 2 – Análise exploratória de dados
O segundo tema descreve as estatísticas básicas empregadas em quase a
totalidade das análises de dados nas ciências sociais. Em particular, discute-se que
significa a descrição dos dados, por que é útil examinar a forma de sua distribuição (se é
normal ou assume algum outro formato), e como o fato de “explorar” os dados pode ser
4
um procedimento bastante útil para gerar modelos de análise e novas hipóteses de
pesquisa. De modo específico, este tema versará sobre as estatísticas descritivas (média,
moda, mediana, quartis, percentis, kurtosis, skewness), as tabelas de frequência e
tabulação cruzada e os distintos tipos de correlação.
Referências
Dalgaard, Peter. 2008. Introductory Statistics with R. New York: Springer. Caps.: 3 –
“Probability and distribution” (pp. 55-66); 4 – “Descriptive statistics and graphs”
(pp.67-94).
Friendly, Michael, 2007. Working with categorical data with R and the vcd and
vcdExtra
packages.
Disponível
em:
http://cran.rproject.org/web/packages/vcdExtra/vignettes/vcd-tutorial.pdf.
Hinton, Perry. 2004. Statistics Explained. London: Routledge. Caps.: 1 – “Descriptive
statistics” (pp. 5-24); 2 – “Standard scores” (pp. 25-34).
Kabacoff, Robert. 2011. R in Action: Data analysis and graphics with R. Shelter Island:
Manning. Cap. 7 – “Basic statistics” (pp.141-170).
Tema 3 – Gráficos com R
Um dos recursos mais destacados do R é a quantidade e variedade de recursos
gráficos disponíveis ao usuário. Esta riqueza permite o acesso a um poderoso manancial
de ferramentas para a exploração visual dos dados – que incluem desde gráficos
tradicionais e simples para uma só variável, como os gráficos de barra, pizza, linha – até
instrumentos complexos para a análise multivariada, como os diagramas de dispersão
(scatterplots), correlogramas, ou diagramas de probabilidades (este último para as
análises de dados categóricos). Além disso, outro recurso interessante a ser destacado
neste tema é a geração de séries de gráficos por subgrupos de casos.
Referências
Correa, Juan C., González, Nelfi. 2002. Gráficos estadísticos con R. Universidad
http://cran.rNacional
de
Colombia.
Disponível
em:
project.org/doc/contrib/grafi3.pdf.
Kabacoff, Robert. 2011. R in Action: Data analysis and graphics with R. Shelter Island:
Manning. Caps.: 6 – “Basic graphs” (pp.119-140); 11 – “Intermediate graphs”
(pp.263-290); 16 – “Advanced graphs” (pp. 373-399).
5
Nieuwenhuis, Rense. 2011. Applied R for the quantitative social scientist. Disponível
em: http://www.rensenieuwenhuis.nl/documents/Applied%20R.pdf. Cap. 3
(pp.51-66).
Tema 4 – Teste de hipóteses e Análise de diferenças entre médias
Pessoas residentes em zonas urbanas possuem uma expectativa de vida mais alta
que aquelas que vivem no campo? Indivíduos com estudos universitários possuem renda
mais alta que aqueles com ensino médio? O quarto tema concentra-se em ensinar como
responder a tais perguntas a partir de critérios estatísticos ou probabilísticos. Nesse
sentido, será definido o que se entende por teste de hipóteses, níveis de significâncias e
intervalos de confiança. De modo concreto, serão empregados três procedimentos: o
teste de diferença entre médias, diferença entre amostras e a análise de variância
(ANOVA).
Referências
Dalgaard, Peter. 2008. Introductory Statistics with R. New York: Springer. Cap. 5 –
“One- and two-sample tests” (pp. 95-107).
Hinton, Perry. 2004. Statistics Explained. London: Routledge. Caps.: 4, 5, 6, 7, 8, y 9
(pp. 35-110).
Kabacoff, Robert. 2011. R in Action: Data analysis and graphics with R. Shelter Island:
Manning. Caps.: 7 – “Basic statistics” (pp.141-170); 9 – “Analysis of variance”
(pp.219-245).
Tema 5 – Regressão linear
O quinto e último tema do curso trata do método de análise de regressão linear.
O objetivo consiste em explicar: em que consiste a regressão linear, seus principais
pressupostos, como definir um modelo de regressão e quais testes devem ser realizados
depois da estimação do modelo para determinar sua validade e consistência. Pretende-se
que esta seja somente uma pequena introdução aos métodos de análise multivariada e
que permita estabelecer as bases para o desenvolvimento posterior dos estudantes em
métodos quantitativos mais sofisticados.
6
Referências
Dalgaard, Peter. 2008. Introductory Statistics with R. New York: Springer. Caps.: 6 –
“Regression and correlation” (pp. 109-126); 11 – “Multiple regression” (pp. 185194).
Hinton, Perry. 2004. Statistics Explained. London: Routledge. Caps.: 20 – “Linear
correlation and regression” (pp. 261-282); 21 – “Multiple correlation and
regression” (pp. 283-294).
Kabacoff, Robert. 2011. R in Action: Data analysis and graphics with R. Shelter Island:
Manning. Cap. 8 – “Regression” (pp.173-218).
Recursos adicionais
Quick-R
O melhor blog de R disponível na internet com uma ampla oferta de recursos e
informação tanto para iniciantes como para aqueles que já possuem conhecimentos
intermediários de R.
http://www.statmethods.net
R Webpage
Constitui uma fonte de muitíssima informação estatística e sobre as atualizações
mais recentes no programa, além de uma lista completa dos recursos e funções
estatísticas disponíveis. É a verdadeira “biblioteca de Alexandria” do R, onde podem ser
encontrados diversos manuais e outras informações de relevância.
http://www.r-project.org/
Repositório - CRAN
Contém a maior parte dos pacotes estatísticos disponíveis para o R, além das
chamadas “task views”, que são páginas dedicadas a temas específicos, como:
“Estatística para as ciências sociais”, “Análise espacial”, “Estatísticas oficiais e análise
de survey”, “Econometria” e “Análise de cluster”.
http://cran.r-project.org/
Para a task view dedicada à estatística nas ciências sociais:
7
http://cran.r-project.org/web/views/SocialSciences.html
Página pessoal de Gary King
Gary King é considerado um dos principais teóricos da metodologia quantitativa
nas ciências sociais. Seu livro Designing Social Enquiry (com Robert Keohane e Sidney
Verba) constitui um dos manuais de metodologia mais influentes até hoje. Nos últimos
anos, este autor dedicou-se a desenvolver uma série de programas e pacotes para o R
que incluem a inferência ecológica, imputação de casos perdidos, contrafácticos, a
análise de eventos raros e o uso do R pelos cientistas sociais. Em particular, destacamse os pacotes R denominados Zelig e Amelia II. Na página, além dos programas e sua
documentação, também pode ser encontrada uma série de publicações de King e seus
assistentes de pesquisa com aplicações ilustrativas de cada um dos métodos
mencionados.
http://gking.harvard.edu/software
Manuais on-line
Existe uma larga gama de manuais distribuídos gratuitamente na página de
documentação do R que cobrem desde a introdução ao R até aspectos específicos como
métodos multivariados, criação de pacotes e a importação de dados no R. Alguns desses
manuais são utilizados extensamente neste curso. Para acessar estas informações (e ao
material disponível em português), ver:
http://cran.r-project.org/manuals.html
http://cran.r-project.org/other-docs.html
Gráficos
O projeto “R Graphical Manual” possui uma lista extensíssima de exemplos de
gráficos para o R. Está dividida em várias categorias (entre elas uma específicas para as
ciências sociais) com códigos de exemplos que ajudam a reproduzi-los com dados
próprios. Até agora, o site conta com 36.428 gráficos.
http://rgm2.lab.nig.ac.jp/RGM2/images.php?show=all
O projeto “R Graph Gallery” possui uma lista bastante extensa de gráficos e os
códigos em R necessários para realiza-los. É um recurso muito interessante para
usuários que desejam tirar o máximo de proveito das capacidades gráficas do R.
http://addictedtor.free.fr/graphiques/