análise de dados para ciências sociais

Transcrição

6
ª
MARIA HELENA PESTANA é professora do ISCTE desde 1982. É
doutorada em Métodos Quantitativos de Gestão, na área de Pesquisa de Mercados. É investigadora em Estatística, Econometria, e
Análise de Dados aplicados nos domínios de Demografia, Economia, Finanças, Gerontologia, Gestão, Psicologia, Saúde, Sociologia,
e Turismo. É autora de livros e de vários artigos científicos em publicações nacionais e estrangeiras.
EDIÇÃO
A introdução da syntax do IBM-SPSS permite, para qualquer distribuição e dimensão da amostra, calcular todas as probabilidades associadas, identificar os acontecimentos mais prováveis, determinar
os erros e a potência do teste, bem como
recorrer tanto às distribuições exatas como
às aproximadas.
Importância particular é dada à participação ativa do leitor, tornando o livro
estimulante e útil para todos os que a ele
recorram.
A publicação desta obra teve o apoio:
• Gini, Bayes, CV, MAD
• Médias: ponderada/aparada/
/geométrica/harmónica
• Outliers/influência/resíduos
• Índices
• Contrastes/tendência
• Variáveis artificiais
• Cluster
• ANOVA/MANOVA/ANCOVA
• Medidas Repetidas
• Fatorial
• Missings/padrões/substituição
• OR, RR, sensibilidade,
prevalência
• Curva ROC
• MRLS, MRLM, 2SLS, WLS,
Logística
• Path analysis
• Discriminante
• Amostras independentes/
/emparelhadas
• T, F, Normal, Qui-Quadrado
• MDS/MCA/ANACOR
• Decisão/sig/potência
• Syntax/Estimação/EMV
• Testes paramétricos/
/não paramétricos
• Graphs
ANÁLISE DE DADOS
PARA CIÊNCIAS SOCIAIS
A Complementaridade do SPSS
JOÃO NUNES GAGEIRO, licenciou-se em Organização e Gestão
de Empresas no ISCTE e concluiu o curso «Hotel and Hospitality
Management», da Universidade de Cornell em Ithaca (NY), nos
EUA. É investigador em Turismo e Análise de Dados aplicados nos
domínios de Economia, Finanças, Gerontologia, Gestão, Psicologia,
Saúde e Sociologia. É autor de livros e de vários artigos científicos
em publicações nacionais e estrangeiras.
Este livro, fruto da experiência académica
e profissional dos autores, foi agora, nesta
6ª edição, enriquecido com esquemas,
resumos e 157 aplicações práticas, que
inovam nas associações que estabelecem entre os diferentes capítulos, simplificando e consolidando os temas neles
tratados, tornando-o acessível a todos
os leitores, mesmo aqueles com poucas
bases de matemática, estatística e informática.
MARIA HELENA PESTANA
JOÃO NUNES GAGEIRO
ANÁLISE DE DADOS
PARA
CIÊNCIAS SOCIAIS
6
ª
EDIÇÃO
A obra
de referência
da Análise
de Dados em
Portugal
Revista,
Atualizada
e Aumentada
Ficheiros SPSS para download
www.silabo.pt
ISBN 978-972-618-775-2
9 789726 187752
26
EDIÇÕES SÍLABO
Análise de Dados
para
Ciências Sociais
A Complementariedade do SPSS
JOÃO NUNES GAGEIRO
6ª EDIÇÃO
EDIÇÕES SÍLABO
É expressamente proibido reproduzir, no todo ou em parte, sob qualquer
forma ou meio, NOMEADAMENTE FOTOCÓPIA, esta obra. As transgressões
serão passíveis das penalizações previstas na legislação em vigor.
Visite a Sílabo na rede
www.silabo.pt
Editor: Manuel Robalo
FICHA TÉCNICA:
Título: Análise de Dados para Ciências Sociais – A Complementariedade do SPSS
Autores: Maria Helena Pestana, João Nunes Gageiro
© Edições Sílabo, Lda.
Capa: Pedro Mota
1ª Edição – Lisboa, outubro de 1998
6ª Edição – Lisboa, outubro de 2014
Impressão e acabamentos: Cafilesa – Soluções Gráficas, Lda.
Depósito Legal: 382311/14
ISBN: 978-972-618-775-2
EDIÇÕES SÍLABO, LDA.
R. Cidade de Manchester, 2
1170-100 Lisboa
Tel.: 218130345
Fax: 218166719
e-mail: [email protected]
www.silabo.pt
Índice
17
Prefácio
Introdução
1. Iniciação ao IBM-SPSS
22
1.1. Ficheiro de dados
22
1.2. Definição de variáveis e casos
22
1.3. Análise estatística
27
1.4. Gráficos
28
1.5. Ajudas
29
1.6. Junção de informação de dois ficheiros
30
1.6.1. Junção de variáveis
1.6.2. Junção de casos
30
33
1.7. Edição de Informação
34
1.8. Definição e organização de dados
36
1.9. Transformação de dados
38
1.9.1. Criação de novas variáveis
1.9.2. Agregação de categorias
1.9.3. Inversão da ordem das categorias
1.9.4. Transformação de uma variável métrica em qualitativa
1.9.5. Conversão de uma variável string em numérica
1.9.6. Contagem de casos
1.9.7. Substituição de respostas omissas
1.10. Utilidades
39
40
42
42
43
44
44
44
2. Exercícios – Enunciados
45
3. Exercícios – Resolução
46
Capítulo 1
Estatística descritiva e indutiva
1. Introdução
1.1. Escalas de medida e tratamento estatístico
53
53
2. Estatística descritiva versus indutiva
57
3. Análise das respostas omissas
58
3.1. Exclude cases listwise
59
3.2. Exclude cases pairwise
60
3.3. Replace with mean
61
3.4. Análise univariada das respostas omissas
62
3.5. Padrão das respostas omissas
65
3.6. Aleatoriedade das respostas omissas
67
3.7. Não aleatoriedade das respostas omissas
68
4. Variáveis nominais
69
4.1. Quadro de distribuição de frequências
69
4.2. Moda
70
4.3. Gráficos de barras e circular
70
5. Variáveis ordinais
75
5.1. Quantis
75
5.2. Quadro de distribuição de frequências
76
5.3. Introdução de dados
77
5.4. Moda e conclusão
79
6. Variáveis métricas
81
6.1. Quadro de distribuição de frequências, moda e quantis
81
6.2. Outliers, Amplitude total e inter-quartil
83
6.3. Histograma, diagrama de caule e folhas e caixa de bigodes
85
6.4. Média e suas propriedades
90
6.5. Variância, desvio padrão, desvio absoluto médio e desigualdade de Tchebycheff 95
6.6. Erro padrão e intervalo de confiança para a média
97
6.7. Média aparada
99
6.8. Simetria e achatamento
103
6.9. Média ponderada, geométrica e harmónica
108
6.10. Coeficiente de variação e MAD
111
6.11. Distribuição normal e testes à normal
116
6.12. Transformações e estandardização
120
6.13. Categorização pelo método dos grupos extremos revisto
131
6.14. Criação de índices pela uniformização de escalas
134
7. Medida concentração: índice de Gini
139
141
152
10. Fundamentos para a inferência
239
10.1. Testes paramétricos e não paramétricos
239
10.2. Estimadores e distribuições amostrais
240
10.2.1. Distribuições do Qui-Quadrado, t de Student e F de Snedecor
242
10.3. Estimação: pontual, por intervalos e ensaio de hipóteses
244
10.4. Regra de decisão
248
10.5. Aplicações
249
10.5.1. Desigualdade de Chebychev
10.5.2. Distribuição uniforme
10.5.2. Distribuição normal
10.5.4. Distribuição do Qui-Quadrado
10.5.5. Distribuição t de Student
10.5.6. Distribuição F de Snedecor
250
250
251
256
258
260
Capítulo 2
Contingência, associação e correlação
1. Introdução
2. Tabelas de contingência e teorema de Bayes
269
270
1.1. Construção de tabelas
270
1.2. Probabilidade conjunta, marginal e condicionada
271
1.3. Teorema de Bayes
273
3. Análise das tabelas de contingência
3.1. Testes de independência do Qui-Quadrado
3.1.1. Teste do Qui-Quadrado de Pearson
3.1.2. Teste do rácio da verosimilhança
3.1.3. Teste do Qui-Quadrado da correção de continuidade de Yates
3.1.4. Teste do Qui-Quadrado de Fisher
3.1.5. Teste Linear-by-Linear Association
3.1.6. Teste de McNemar
276
277
278
286
292
292
299
300
3.2. Odds e odds racio
3.2.1. Odds
3.2.2. Odds rácio
3.2.3. Propriedades
3.2.4. Intervalo de confiança para o odds rácio
3.3. Risco relativo, rácio de prevalência, diferença de proporções
e intervalos de confiança
3.3.1. Risco relativo e rácio de prevalência
3.3.2. Intervalo de confiança para RR ou RP
3.3.3. Teste de homogeneidade e intervalo de confiança
3.3.4. Discrepância entre o odds rácio e o RP
301
301
301
302
303
303
303
304
304
306
3.4. Relação entre o odds rácio e RR ou RP
306
3.5. Associações marginais e condicionadas
307
3.5.1. Totais das k subtabelas são semelhantes
3.5.2. Totais das k subtabelas são diferentes
3.6. Concordância: Kappa de Cohen
3.6.1. Vulnerabilidade do Kappa de Coehen
309
315
319
321
3.7. Outras medidas de associação para variáveis nominais
323
3.7.1. Phi, V de Cramer, coeficiente de contingência
323
324
324
3.7.2. Lambda, Goodman e Kruskal’s tau e coeficiente de incerteza
3.7.3. Síntese
3.8. Outras medidas de associação para variáveis ordinais
3.8.1. Gamma, Kendall’s tau b, Kendall’s tau c, Somer’s d
3.8.2. Síntese
3.9. Sensibilidade, especificidade, valor preditivo, prevalência,
rácio da verosimilhança
3.9.1. Síntese
3.10. Curva ROC
3.10.1. Síntese
3.11. Correlações simples e parciais: variáveis estandardizadas Z,
Ró de Spearman e R de Pearson
3.11.1. Síntese
3.12. Eta e correlações biserial e point biserial
3.12.1. Síntese
330
330
332
335
337
340
342
345
348
361
362
367
381
6. Fundamentos das tabelas de contingência
461
Capítulo 3
Anacor, MCA e MDS
1. Introdução
467
2. Anacor
468
3. MCA
471
4. MDS
473
478
482
Capítulo 4
Análise das componentes principais e análise fatorial
1. Introdução
516
2. Análise das Componentes Principais (ACP)
518
3. Análise Fatorial (AF)
519
3.1. Existência de correlação e a adequação aos dados
520
3.2. Número de fatores a reter
521
3.3. Percentagem de variância explicada pelos fatores retidos
522
3.4. Percentagem de variância explicada por cada fator retido
522
3.5. Variáveis pertencentes a cada fator
523
3.6. Variáveis a reter
524
3.7. Indicadores da qualidade do modelo: GFI, AGFI e RMSR
525
3.7.1. Goodness of Fit Index (GFI):
3.7.2. AGFI
3.7.3. A Root Mean Square Residual (RMSR) é dada por:
526
527
527
3.8. Representação gráfica e interpretação dos fatores retidos
528
3.9. Exploração dos dados, outliers e respostas omissas
529
4. Análise fatorial em escalas
530
5. Análise da Consistência Interna
531
5.1. Alpha de Cronbach
531
5.2. Coeficiente de Bipartição
532
5.3. Modelos Paralelo e Estritamente Paralelo
532
5.4. Guttman
533
5.5. Coeficiente de Correlação Intra Classes
533
534
538
Capítulo 5
Análise de clusters
1. Análise de Clusters
575
578
579
Capítulo 6
Análise discriminante
1. Análise discriminante
604
1.1. Pressupostos
604
1.2. Seleção das variáveis explicativas
606
1.3. Número de funções discriminantes
608
1.4. Variáveis explicadas por cada função discriminante retida
609
1.5. Classificar casos e validar os resultados
610
1.6. Analisar as respostas omissas
611
611
612
Capítulo 7
Regressão
1. Modelos de regressão
643
2. Modelo de Regressão Linear Simples − MRLS
644
2.1. Pressupostos
645
2.2. Exploração dos dados
647
2.3. Estimação
650
2.4. Previsão pontual e por intervalos
651
2.5. Medidas absolutas e relativas da qualidade do ajustamento
656
2.6. Teste t de Student
659
2.7. Teste F de Snedecor
661
2.8. Verificação das Hipóteses do MRLS
2.8.1. Linearidade e transformações
2.8.2. Normalidade
2.8.3. Homocedasticidade
2.8.4. Autocorrelação
2.9. Observações outliers e influentes
2.9.1. Outliers
2.9.2. Observações influentes
662
663
668
669
673
676
676
679
3. Escolha entre funções polinomiais
682
4. Relações não lineares
688
4.1. Função potência: elasticidade constante
688
4.2. Função logarítmica
694
4.3. Função exponencial: crescimento constante
696
4.4. Função inversa ou hiperbólica
702
4.5. Função exponencial inversa
709
5. Permanência de estrutura-MRLS
714
6. Variáveis artificiais ou dummies
721
6.1. Determinação do número de variáveis artificiais
721
6.2. Codificação das variáveis artificiais
722
6.2.1. Categoria de referência com o código zero
6.2.2. Contrastes
722
722
6.3. Interações
723
7. Multicolinearidade
737
7.1. Origens da multicolinearidade
738
7.2. Efeitos da elevada multicolinearidade
738
7.3. Oscilações nas estimativas dos coeficientes
739
7.4. Medidas de multicolinearidade
740
7.5. Sugestões para suprir a elevada multicolinearidade
742
7.6. Interpretação dos coeficientes da reta estimada no MRLM
743
8. Coeficiente de determinação ajustado Ra2
743
9. Covariância, R de Pearson, Ró de Spearman, correlações parciais
e semiparciais
745
9.1. Covariância
745
9.2. R de Pearson
747
9.3. Ró de Spearman
748
9.4. Correlações parciais e semiparciais
749
10. Interpretação do teste F da Anova
751
11. Interpretação dos testes t e Fchange
752
12. Métodos de entrada de variáveis na regressão
754
12.1. Regressão múltipla standard (Method Enter):
755
12.2. Regressão hierárquica ou sequencial
755
12.3. Stepwise
756
13. Validação cruzada
757
13.1. R ao quadrado ajustado de Stein
757
13.2. Partição dos dados
758
14. Modelo de Regressão Linear Múltipla – MRLM
772
14.1. MRLM sem violação dos pressupostos
773
14.1.1. Exploração dos dados
14.1.2. Estimação e previsão
14.1.3. Hipóteses do MRLM
14.1.4. Observações Outliers e Influentes
776
778
786
790
14.2. 2SLS
794
14.3. WLS
798
14.3.1. Exploração da heterocedasticidade
14.3.2. Encontrar a fonte principal da heterocedasticidade
14.3.3. Escolha da potência ótima
14.3.5. Verificação da correção da heterocedasticidade
15. Permanência de estrutura – MRLM
801
803
804
807
808
15.1. MRLM com uma observação adicional
809
15.2. MRLM com m < k observações adicionais: teste de Gregory Chow
812
16. Path analysis
816
826
830
Capítulo 8
Testes t e intervalos de confiança para médias
1. Introdução
867
2. Teste t de Student, intervalos de confiança para uma média
e cálculo do nível de significância
869
3. Testes t de Student e intervalos de confiança para a diferença de médias
em amostras independentes. Cálculo do nível de significância
877
3.1. Teste t de Student e intervalos de confiança para a mesma variável métrica
877
3.2. Testes t de Student simultâneos vs. regressão logística binária
889
4. Teste t e intervalos de confiança em amostras emparelhadas
4.1. Vantagem das amostras emparelhadas vs. amostras independentes
898
899
903
905
Capítulo 9
Testes não paramétricos
1. Introdução
923
2. Testes não paramétricos para amostras independentes
924
2.1. Teste da Binomial
2.1.1. Região crítica unilateral
2.1.2. Região crítica bilateral
924
924
927
2.2. Teste de aderência do Qui-Quadrado
929
2.3. Teste de ajustamento de Kolmogorov-Smirnov
933
2.4. Teste de Wilcoxon para uma mediana
938
2.5. Teste de Mann-Whitney
941
2.5.1. Com empates
2.5.2. Sem empates
943
948
2.6. Teste de Kruskal-Wallis
952
2.7. Teste de independência de Kolmogorov-Smirnov
959
3. Testes não paramétricos para amostras emparelhadas
964
3.1. Teste de McNemar
3.1.1. Diagonal secundária (b + c) > 20
3.1.2. Diagonal secundária (b + c) ≤ 20
964
966
969
3.2. Teste Q de Cochran
971
3.3. Teste do sinal
977
3.4. Teste de Wilcoxon
981
3.5. Teste de Friedman
985
990
991
Capítulo 10
Anova, Ancova e Manova
1. Introdução
1007
2. One-Way Anova
1008
2.1. Pressupostos
1009
2.2. Análise de variância
1010
2.2.1. Dedução dos testes F
2.3. Identificação das diferenças entre os grupos
2.3.1. Tendência
2.3.2. Testes a posteriori ou Post-hoc
2.3.3. Testes a priori ou contrastes planeados
2.3.4. One-Way Anova em escalas de avaliação
3. Anova fatorial
3.1. Anova a dois ou mais fatores
3.1.1. Decomposição do teste F
3.1.2. Dimensões semelhantes versus diferentes
3.1.3. Vantagem da Anova versus One-Way Anova
1012
1015
1015
1025
1028
1039
1046
1047
1048
1050
1051
3.2. Testes a posteriori ou Post-hoc
1052
3.3. Testes a priori ou contrastes planeados
1052
3.3.1. Efeitos principais
3.3.2. Efeitos interativos
3.3.4. Comparação de dispersões
3.3.5. Comparação de médias
3.3.6. Qualidade do modelo
3.3.7. Testes a priori ou constrastes planeados
3.3.8. Testes a posteriori ou Post-hoc
4. Ancova
1053
1054
1057
1062
1063
1064
1065
1072
1074
4.1. Pressupostos da Ancova
1074
4.2. Modelo estimado
1075
4.2.1. Normalidade e homocedasticidade
4.2.2. Associação linear
4.2.3. Médias da concomitante por categoria do fator
4.2.4. Homogeneidade dos declives
4.2.5. Resultados do modelo estimado
4.2.6. Heterogeneidade dos declives
1078
1081
1083
1084
1085
1094
5. Manova
1098
5.1. Pressupostos da Manova
1099
5.2. Testes multivariados
1100
5.2.2. Testes multivariados
5.2.3. Um fator e quatro endógenas: avaliação dos pressupostos
5.2.4. Paralelismo dos perfis
5.2.5. Níveis dos perfis
5.2.6. Achatamento dos perfis
1104
1106
1109
1112
1114
1114
1118
1125
Capítulo 11
Medidas repetidas
1. Análise de variância de medidas repetidas: hipóteses
1184
2. Pressupostos
1186
3. Efeitos e consistência interna
1187
3.1. Exploração dos dados
1189
3.1.1. Normalidade
3.1.2. Covariâncias
3.1.3. Esfericidade
3.1.4. Consistência interna
1192
1192
1193
1193
3.2. Comparação de médias
1195
3.3. Testes Post-hoc: comparação dos efeitos interativos
1198
3.4. Testes Post-hoc: Comparação dos efeitos principais
1200
3.5. Testes a priori
1204
1206
1209
Bibliografia
1233
Prefácio
Apesar do pioneirismo encetado em 1998 com a 1ª edição deste livro em língua
portuguesa, esta sexta edição não se fica pela reedição das anteriores, apresentando
uma versão inovadora e aumentada, cujas principais alterações são a seguir indicadas.
De forma a facilitar a consulta do livro, introduziu-se um esquema global que identifica os os capítulos.
Cada capítulo inicia-se com o respetivo esquema, complementado com os aspetos
relevantes, terminando com novos exercícios propostos e resolvidos, para além dos que
acompanham a explicação teórica.
Estes novos exercícios permitem não só uma consolidação da matéria exposta,
como simplificam a complexidade da estatística, devido às associações que estabelecem com outros capítulos.
Substituíram-se as tabelas das distribuições teóricas, pelas obtidas de forma eficiente e expedita pelo IBM-SPSS, aplicáveis a qualquer dimensão da amostra ou a
qualquer probabilidade, permitindo o cálculo dos níveis de significância, do erro tipo II e
da função potência associadas a cada decisão.
A introdução ao IBM-SPSS foi substancialmente actualizada de forma a torná-la
mais amigável para um iniciado, apresentando várias situações a que a ele se pode
recorrer, com explicação passo a passo, evidenciando-se o seu vasto manancial de
recursos.
O Capítulo 1 inclui agora o índice de Gini e as médias harmónicas e geométricas,
bem como a análise das respostas omissas. Adicionaram-se os fundamentos para a
inferência, distinguindo os testes paramétricos dos não paramétricos, definindo-se a
desigualdade de Chebychev, os estimadores, as distribuições amostrais e as estimações: pontual, por intervalos e ensaio de hipóteses.
O Capítulo 2 inclui agora o teorema de Bayes e a curva ROC. O Capítulo 3 engloba
também o MDS. No capítulo da regressão foram adicionados a permanência de estrutura, os modelos 2SLS e WLS.
Sem sacrificar o rigor que procurámos imprimir à abordagem das diversas técnicas,
a metodologia usada, resultante de uma experiência académica e profissional de alguns
anos nesta área, centrou-se na exposição tão fácil quanto possível das matérias e na
sua ilustração com recurso a exemplos práticos de modo a tornar acessível o texto a
uma vasta gama de leitores, incluindo aqueles com menos bases de matemática.
Todos os capítulos foram objeto de aprofundamento, transformando-o no manual
mais completo e de fácil manuseamento em língua portuguesa, indispensável à análise
estatística dos dados.
Ainda que este livro seja da inteira responsabilidade dos autores, o seu conteúdo
resultou em larga medida da leitura de obras de autores nacionais e estrangeiros, bem
como das inúmeras discussões tidas ao longo do tempo com muitas das pessoas com
que habitualmente trabalhamos. O seu contributo em muito melhorou o nosso entendimento dos múltiplos aspetos relacionados com o tema.
Queremos a todos agradecer. Em primeiro lugar às Edições Sílabo, que acreditaram
e tiveram o otimismo necessário para tornar possível este livro. Ao Dr. João Pequito e
Dra. Sandra Barão da PSE, que contribuíram para a atualização e apoio ao suporte
informático.
Também não hesitamos em agradecer aos nossos alunos, colegas e leitores que
nos estimulam com as suas críticas e sugestões sempre oportunas, que contribuíram
para o aperfeiçoamento dos temas aqui tratados.
Uma palavra de apreço ao incansável amigo e consultor Dr. António Alexandre
Sequeira, cuja competência e disponibilidade em muito tem contribuído para o bom funcionamento dos nossos computadores.
Finalmente uma saudação à nossa família pelo apoio e compreensão manifestado
nas ausências devido às muitas horas de trabalho dedicadas à feitura do livro e em
especial à nossa fonte inspiradora, o Manuel Pestana Gageiro.
De novo se deixa o endereço e-mail: [email protected] com a finalidade
da continuação do proveitoso diálogo entre os leitores e os autores.
Pode descarregar os ficheiros das bases de dados do IBM-SPSS referenciadas ao
longo do texto, na página do livro em www.silabo.pt.
Os autores
Criar/transformar/introduzir
Introdução ao IBM-SPSS
Juntar/validar/importar/salvar
Variáveis nominais
Estatística
descritiva/inferencial
Cap. 1
Estudo
univariado
Variáveis
qualitativas
Variáveis ordinais
Variáveis quantitativas/métricas
Testes do qui-quadrado
Relação entre duas ou mais variáveis
quantitativas (sem efeitos interativos)
Tabelas de contingência
Cap. 2
(T. Bayes)
Cap. 2
Medidas de associação
Curva ROC
Tipologias
Semelhança/diferença entre duas
ou mais variáveis quantitaitivas
Redução do n.º de variáveis quantitativas
Gráficas
ANACOR
MCA
MDS
Análise Fatorial
Criação de índices
Cap. 3
Cap. 4
Criação de grupos homogéneos de casos em função de variáveis quantitativas
Cap. 5
Análise de clusters
Diferença entre dois ou mais grupos em função de variáveis quantitativas
Cap. 6
Análise discriminante
Variáveis quantitativas em função de outras variáveis quantitativas
Cap. 7
Modelos
de regressão linear
Amostras
independentes
Cap. 10
Análise
de variância
Amostras
emparelhados
Cap. 11
Análise de variância
de medidas repetidas
Cap. 8
Testes t
Cap. 9
Testes não
paramétricos
Uma ou mais variáveis quantitativas em função
de 1 ou mais variáveis quantitativas
Amostras
independentes
Comparação de uma ou mais médias
Amostras
emparelhados
Distribuições
Comparação de
Amostras
independentes
Proporções
Médias de dois ou mais grupos
Amostras
emparelhados
Introdução
Ficheiro de dados
Definição de variáveis e casos
Visionamento
Número do questionário
Transformação
Criar variáveis
Agregar categorias
Inverter a ordem
Contar casos
Substituir respostas omissas
Junção
Casos
Variáveis
Validação
Organização
Sort cases
Split file
Ajudas
Utilidades
A estatística é um instrumento matemático necessário para recolher, organizar,
apresentar, analisar e interpretar dados.
Neste capítulo de iniciação ao IBM-SPSS, explica-se nomeadamente o acesso a um
ficheiro de dados, a introdução dos dados e das variáveis, a junção de ficheiros, a definição e organização de dados, a edição de informação, a transformação das variáveis, a
inversão das escalas, a reconversão de escalas numéricas em categóricas, a recodificação de dados, a contagem de casos, a substituição de respostas omissas aleatórias e
a utilização de gráficos na exploração de dados.
22
ANÁLISE DE DADOS PARA CIÊNCIAS SOCIAIS
1. Iniciação ao IBM-SPSS
O IBM-SPSS é um programa informático amigável e poderoso de apoio à estatística
e vai servir de suporte às aplicações práticas apresentadas neste livro.
1.1. Ficheiro de dados
Para trabalhar com os ficheiros do IBM-SPSS que constam do livro, deve aceder
previamente ao link da Editora Sílabo da seguinte maneira:
www.silabo.pt/ Edições Sílabo Catálogo Estatística
Após localizar este livro, sobrepõe-se-lhe o cursor e com dois cliques surge a informação:
Descarregar aqui os ficheiros Abrir
Entra-se em aqui para descarregar os ficheiros, onde se abrem e copiam para uma
diretoria do computador do leitor.
Os ficheiros com os dados identificam-se pelo nome que lhes é atribuído seguido da
extensão (.sav) e são exibidos no Data Editor.
1.2. Definição de variáveis e casos
Para se aceder a qualquer ficheiro deve previamente entrar-se na pasta que o contém, cuja denominação corresponde ao respetivo capítulo neste livro.
Para obter o ficheiro Portugal.sav, escolhe-se no ambiente de trabalho do Windows
as seguintes instruções que contêm a negrito as escolhas do leitor e que por sua vez
originam a janela abaixo:
Start  Programs  IBM SPSS Statistics  File  Open Data
Capítulo-Introdução  File Name  Portugal.sav  Open
INTRODUÇÃO
23
File é o ficheiro que permite criar bases de dados, aceder aos dados já criados,
exportá-los, salvá-los, imprimir ficheiros, conhecer os ficheiros recentemente utilizados
tanto de dados como de resultados (outputs), sair da base de dados.
Para guardar a base de dados faz-se: File  Save as  File Name  Portugal  Save
Para sair da base de dados faz-se: File  Exit
Sempre que se pretende voltar a aceder a este ficheiro do IBM-SPSS deve fazer-se:
File  Open Data File  Name  Portugal.sav  Open
O Data Editor desdobra-se no Data View, onde se inserem os dados, e no Variable
View onde se definem as variáveis.
O Variable View dispõe de linhas destinadas a definir ou a alterar as características
das variáveis, e inclui as seguintes informações, aqui concretizadas para o ficheiro Portugal.sav:
O nome da variável (Name), deverá iniciar-se por uma letra. Por exemplo, número,
mês, país.
O tratamento estatístico depende da natureza da variável indicada em Measure, que
pode ser nominal, ordinal ou quantitativa (Scale).
O tipo de variável (Type), pode ser numeric, comma, dot, scientific notation, date,
dollar, custom currency e string. Por facilidade de tratamento estatístico, as variáveis
introduzem-se na base de dados através de números, assumindo o Type numeric. No
caso das variáveis qualitativas nominais ou ordinais, esses números correspondem às
suas categorias e no caso das quantitativas ou métricas correspondem aos seus valores.
24
Se as variáveis fossem introduzidas por carateres alfabéticos, por exemplo, para a
variável Hotéis introduzidos como uma, duas, três, quatro e cinco estrelas, cujo Type é
string, teriam de ser transformadas em códigos numéricos, passando a variável transformada a designar-se por HotéisR, conforme no ficheiro Portugal_string.sav:
Transform  Automatic  Recode  Variable  Hotéis  New Name
HotéisR  Recode  Starting from Lowest value  OK
O tipo de variável inclui ainda a definição da sua largura (Width) e do número de
casas decimais (Decimal Places). Por exemplo, a variável mês está codificada como
numéricas, com valores 1 (janeiro), 2 (fevereiro),..., 12 (dezembro).
Escolhe-se o valor 1 para largura, quando exista apenas um dígito para representar
a variável, e o valor 0 para representar zero casas decimais, por serem inexistentes.
A etiqueta ou rótulo da variável (Label), que serve simplesmente para melhor explicar o nome da variável, pode ir até 256 carateres identificativos do nome das variáveis.
Por exemplo, Label residência habitual dos turistas como explicativo do nome região.
Os códigos utilizados (Values), são de grande utilidade quando se opera com variáveis qualitativas, onde os números apenas definem as categorias da variável.
O Value Labels divide-se em dois itens: Value, onde se insere o código das categorias e Value Label, onde se insere o seu significado. Por exemplo, dado que 1 significa
janeiro, inscreve-se no Value o valor 1 e no Value Label a palavra janeiro, seguida de ADD.
As respostas omissas ou não respostas (Missing), servem para identificar a informação em falta, mas também podem ser utilizadas para excluir valores ou categorias da
análise estatística.
O utilizador pode definir como Missing Values as três modalidades seguintes: a primeira
até três valores individuais; a segunda um intervalo de valores; a terceira um valor individual
e um intervalo de valores. O intervalo de valores só se aplica a variáveis numéricas.
Admitindo que há omissões na identificação do mês e que se quer proceder à análise de todo o ano com exceção de dezembro, cujo código é 12, então introduz-se no
Discrete missing values os números 99, indicador de omissões na resposta para mês, e
12 para excluir da análise dezembro, premindo-se OK.
Para identificar as não respostas, nas variáveis de Type Numeric, usam-se números
que não pertençam à base de dados. Já nas variáveis Type String os campos vazios
não são automaticamente considerados missings, pelo que têm de ser preenchidos,
habitualmente por NR (não resposta) no Data View e introduzido NR, na coluna Missing
do Variable View.
Retomando o ficheiro Portugal_string.sav, verificam-se omissões na categoria dos
hotéis correspondentes a Nº 35 e Nº 40, que foram substituídas por NR como se mostra:
INTRODUÇÃO
25
Aquando da recodificação automática da variável alfabética Hotéis em numérica
HotéisR, o programa assume automaticamente o código 6 para NR, visto ser aquele que
sucede à última categoria de 5 estrelas:
O formato da coluna (Columns) controla simultaneamente a largura da coluna
(Width) que aparece no Data Editor bem como o alinhamento dos valores (Text alignment). Se a largura definida for insuficiente, aparecem asteriscos em vez dos números.
A disposição dos dados pode alinhar-se (Align) à esquerda, à direita ou ao centro.
Após a definição das variáveis, no Data View introduzem-se os dados, onde aqui se
apresentam apenas dois questionários de entre 286 respondidos. Cada linha do ficheiro
corresponde um caso, pelo que os dados referentes ao mesmo caso se inscrevem
nessa linha.
Cada coluna do Data View corresponde a uma variável, sendo os dados referentes à
mesma variável inscritos nessa coluna.
Neste ficheiro as variáveis são: Número do questionário (Nº), país de residência
(País), ano da estada (Anos), categoria do hotel (Hotéis), número de dormidas (Dormidas), número de hóspedes (Hóspedes), região donde proveem (região).
26
O número do questionário, obtido pelo comando seguinte, deve ser sempre incluído
na análise, pois quando ocorrem erros de introdução ou codificação de dados, ou
quando existe omissão de respostas, ou ainda quando há observações aberrantes, a
utilização desta variável permite identificar de imediato os respetivos respondentes:
Transform  Compute Variable  Target Variable: Nº  Function group: All 
 Functions and Special Variables:  $casenum
 Numeric Expression 
 $casenum  OK
INTRODUÇÃO
27
Sobrepondo o cursor sobre cada uma das variáveis em coluna, visiona-se a descrição da sua identificação, aqui feita para a variável Hotéis.
O Menu principal permite passar do Data View para o Variable View ou vice-versa,
sobrepondo o cursor no canto inferior esquerdo do ecrã, ou alterar permite ainda os
carateres da fonte, ou modificar a apresentação da barra de ferramentas.
O visionamento no Data View dos dados em termos dos labels (códigos) ou dos value
labels (etiquetas) obtém-se através de: View  Value Labels
O comando Window permite aceder à base de dados, aos Outputs, à Syntax, ou
minimizar/maximizar as janelas onde se opera.
1.3. Análise estatística
O comando Analyze tem por finalidade selecionar os procedimentos estatísticos a
usar na análise de dados, como por exemplo, tabelas de frequências, exploração e
descrição dos dados, testes paramétricos e não paramétricos, medidas de associação e
de correlação, modelos de regressão linear, não linear, logística, curva ROC, previsão,
sucessões cronológicas, análise de sobrevivência, análise fatorial, cluster, discriminante,
pirâmides etárias.
Admitindo que se pretende uma tabela de frequências dos hotéis, procede-se da
seguinte maneira:
Analyze  Descriptive Statistics  Frequencies  Variable(s)  Hotéis 
 Display frequency tables  OK
Sobrepondo o cursor para cada variável, pode-se alterar a disposição pretendida
como se mostra na janela superior para a variável Hospedes.
A variável Hotéis que estava na janela esquerda, passa através da seta para o lado
direito seguido de OK, que origina o painel de resultados (Output1) o qual se subdivide
em duas janelas: a do lado esquerdo que resume o conteúdo dos resultados, enquanto
que a do lado direito mostra a informação estatística pedida.
28
Querendo obter a listagem dos casos recorre-se ao comando:
Analyze  Reports  Case Summaries
1.4. Gráficos
Os gráficos complementam a análise exploratória dos dados através de figuras e
devem adequar-se à informação que pretendem representar, de forma a clarificar a sua
compreensão, tendo em conta o publico a que é dirigido.
São exemplos de gráficos os: de barras e circulares, para representar percentagens
e contagem de casos; os de linhas para representar médias; o diagrama de dispersão
(scatter) para comparar duas variáveis métricas; o histograma para representar variáveis métricas contínuas; a caixa de bigodes para comparar de forma robusta duas distribuições em termos de quartis; o gráfico de erro, para representar simultaneamente uma
medida de localização (média) com uma medida de dispersão (desvio padrão, erro
padrão ou intervalo de confiança para a média), o gráfico de sequência para analisar o
comportamento das variáveis ao longo do tempo.
Os gráficos são explicados com mais pormenor ao longo do livro e podem obter-se
diretamente através do menu principal clicando em Graphs, o qual alerta para a correta
especificação da natureza das variáveis contidas na coluna Measures do Variable View,
seguido de Chart Builder.
Exemplificando, caso se pretenda visualizar a percentagem das categorias de hotéis
por anos, após selecionar o gráfico de barras arrasta-se com o cursor para o Chart preview, onde no canto superior direito em Cluster se introduz Hotéis, na ordenada Percentage e na abcissa Anos, finalizando com OK. O gráfico finalizado surge na janela dos
Outputs.
Habitualmente para comparar contagens os gráficos de barras são de mais fácil perceção das diferenças do que os circulares.
INTRODUÇÃO
29
1.5. Ajudas
O menu Help tem como função esclarecer dúvidas do leitor e aparece em todas as
caixas de diálogo do programa bem como no Menu principal que se mostram subdivididas num painel de duas janelas, onde escolhendo um assunto do lado esquerdo aparece a sua explicação do lado direito.
O Topics exibe um painel sobre os tópicos e sua explicação; o Tutorial contém uma
ajuda por assunto; a Command Syntax Reference mostra as instruções de construção dos
resultados, a Programmability permite o acesso a outras linguagens informáticas ligadas
ao IBM-SPSS; o Case Studies apresenta casos práticos de procedimentos estatísticos
seguidos de algumas interpretações; o Algorithms apresenta as fórmulas subjacentes
aos modelos; o Statistics Coach encaminha para o gráfico ou para o procedimento estatístico análogo ao que o leitor pretende fazer, marcado a sombreado na janela seguinte.
30
1.6. Junção de informação de dois ficheiros
O IBM-SPSS permite juntar informação contida em ficheiros de texto ou em bases
de dados, referentes a novas variáveis ou a novos casos quer sejam provenientes de
ficheiros do IBM-SPSS ou de outros programas informáticos.
1.6.1. Junção de variáveis
Admitindo que se pretende adicionar ao ficheiro Portugal.sav informação sobre novas
variáveis contidas na folha de cálculo Excel Portugal.xls, procede-se em três etapas:
1ª Etapa – Acede-se ao ficheiro para onde se pretende importar a informação, neste
caso Portugal.sav, através da instrução:
File  Open Data  PortugalR.sav
2ª Etapa – Entra-se no ficheiro Excel que contém a informação a exportar, que se converte num ficheiro.sav.
Para tal, em Files of type escolhe-se Excel conforme assinalado a sombreado:
INTRODUÇÃO
31
Escolhe-se o ficheiro aqui com o mesmo nome com extensão.xls, que se introduz na
janela em branco File Name, originando:
Premindo Open abre-se a janela onde está selecionada a leitura do nome das variáveis que constam da primeira linha dos dados da folha do Excel pretendida, seguida de
OK que conclui a importação para um novo ficheiro designado Untitled1.sav.
Este ficheiro foi renomeado através do comando com o nome inscrito a negrito:
File  Save as  File Name  Portugal_estada.sav  Save
3ª Etapa – Juntam-se os dois ficheiros com extensão .sav.
Para diferenciar o ficheiro Portugal.sav inicial aquele que resultará da adição da
informação, faz-se uma cópia denominada PortugalR.sav.
Após se ter assegurado que ambos os ficheiros estão ordenados da mesma forma,
aqui por ordem crescente do número de identificação (Nº) que vai servir de variável
chave para a junção dos dois ficheiros com extensões .sav, entra-se no ficheiro copiado
PortugalR.sav seguido dos comandos:
Data  Merge Files  Add Variables
Abre-se a seguinte caixa de diálogo onde se sobrepõe o cursor sobre o ficheiro que
se pretende exportar, tornando-o sombreado.
32
Premindo Continue acede-se à caixa de diálogo, onde as variáveis com o mesmo
nome em ambos os ficheiros são identificadas com (+) que por serem as mesmas não
são importadas. Tal justifica a janela da esquerda Excluded Variables.
O ficheiro ativo PortugalR.sav contém agora as variáveis iniciais acrescidas da
variável Estada e constam da janela da direita no New Ative Dataset:
O IBM-SPSS emite o aviso sobre a necessidade de ambos os ficheiros terem a
mesma ordenação de emparelhamento através da variável chave Nº:
Como ambos os ficheiros com extensão .sav estão ordenados com a mesma ordem
crescente, prime-se OK. Surge o ficheiro PortugalR.sav agora acrescido da variável
Estada, como se mostra um excerto:
6
ª
MARIA HELENA PESTANA é professora do ISCTE desde 1982. É
doutorada em Métodos Quantitativos de Gestão, na área de Pesquisa de Mercados. É investigadora em Estatística, Econometria, e
Análise de Dados aplicados nos domínios de Demografia, Economia, Finanças, Gerontologia, Gestão, Psicologia, Saúde, Sociologia,
e Turismo. É autora de livros e de vários artigos científicos em publicações nacionais e estrangeiras.
EDIÇÃO
A introdução da syntax do IBM-SPSS permite, para qualquer distribuição e dimensão da amostra, calcular todas as probabilidades associadas, identificar os acontecimentos mais prováveis, determinar
os erros e a potência do teste, bem como
recorrer tanto às distribuições exatas como
às aproximadas.
Importância particular é dada à participação ativa do leitor, tornando o livro
estimulante e útil para todos os que a ele
recorram.
A publicação desta obra teve o apoio:
• Gini, Bayes, CV, MAD
• Médias: ponderada/aparada/
/geométrica/harmónica
• Outliers/influência/resíduos
• Índices
• Contrastes/tendência
• Variáveis artificiais
• Cluster
• ANOVA/MANOVA/ANCOVA
• Medidas Repetidas
• Fatorial
• Missings/padrões/substituição
• OR, RR, sensibilidade,
prevalência
• Curva ROC
• MRLS, MRLM, 2SLS, WLS,
Logística
• Path analysis
• Discriminante
• Amostras independentes/
/emparelhadas
• T, F, Normal, Qui-Quadrado
• MDS/MCA/ANACOR
• Decisão/sig/potência
• Syntax/Estimação/EMV
• Testes paramétricos/
/não paramétricos
• Graphs
ANÁLISE DE DADOS
PARA CIÊNCIAS SOCIAIS
JOÃO NUNES GAGEIRO, licenciou-se em Organização e Gestão
de Empresas no ISCTE e concluiu o curso «Hotel and Hospitality
Management», da Universidade de Cornell em Ithaca (NY), nos
EUA. É investigador em Turismo e Análise de Dados aplicados nos
domínios de Economia, Finanças, Gerontologia, Gestão, Psicologia,
Saúde e Sociologia. É autor de livros e de vários artigos científicos
em publicações nacionais e estrangeiras.
Este livro, fruto da experiência académica
e profissional dos autores, foi agora, nesta
6ª edição, enriquecido com esquemas,
resumos e 157 aplicações práticas, que
inovam nas associações que estabelecem entre os diferentes capítulos, simplificando e consolidando os temas neles
tratados, tornando-o acessível a todos
os leitores, mesmo aqueles com poucas
bases de matemática, estatística e informática.
JOÃO NUNES GAGEIRO
ANÁLISE DE DADOS
PARA
CIÊNCIAS SOCIAIS
6
ª
EDIÇÃO
A obra
de referência
da Análise
de Dados em
Portugal
Revista,
Atualizada
e Aumentada
Ficheiros SPSS para download
www.silabo.pt
ISBN 978-972-618-775-2
9 789726 187752
26
EDIÇÕES SÍLABO

análise de dados para ciências sociais

Transcrição

Documentos relacionados

Aplicações informáticas

SAV Robust 4858

CE 2 Introdução ao SPSS

Cd de canto do Pintassilgo

Attorneys` Title Guaranty Fund, Inc.

Como meter legendas Definitivas num filme?

Aula 3 - WordPress.com

n.º 4

Guião do Aluno 1) Construção de pirâmides etárias

Manual ComServer Win

Corner Ad Corner Ad :

Brochura - GstarCAD

File

nsrlsvr-bd

Sistema de Ficheiros - 2012

Laboratórios de Informática

Junção de Pastas - KDiff3

Relatório Preliminar

Nero Burning ROM

Royal Angus Poa 2013