Estatística Não Paramétrica

Transcrição

Estatística Não Paramétrica
Universidade dos Açores
Departamento de Matemática
Estatística
Não Paramétrica
Testes de Hipóteses e Medidas de Associação
Discente: Filipe Gago da Câmara
Docente: Dr. Osvaldo Silva
Ponta Delgada, 29 de Junho de 2001
Índice
ÍNDICE
Teste de Hipóteses ......................................................................................................................1
Introdução...................................................................................................................................3
Capitulo 1: Caso de uma amostra ...............................................................................................6
1.1 Teste da Binomial.............................................................................................................6
2
1.2 Teste do Qui-Quadrado ( χ ) para uma amostra............................................................10
1.3 Teste de Kolmogorov-Smirnov ......................................................................................12
1.4. Teste de Iterações de Uma Amostra ..............................................................................17
Capítulo 2: Caso de duas amostras relacionadas ......................................................................23
2.1 Teste dos Sinais ..............................................................................................................23
2.2 Teste de McNemar .........................................................................................................25
2.3 Teste de Wilcoxon ..........................................................................................................28
Capitulo 3: Caso de duas amostras independentes ...................................................................32
3.1 Teste de Iterações de Wald-Wolfowitz ..........................................................................32
3.2 Teste U de Mann-Whitney .............................................................................................37
3.3 Teste de Moses para reacções extremas .........................................................................41
3.4 Teste da Qui-Quadrado ( χ 2 ) para duas amostras independentes ..................................44
Capítulo 4: Caso de k amostras relacionadas ...........................................................................50
4.1 Teste Q de Cochran .......................................................................................................50
4.2 Teste de Friedman ..........................................................................................................54
Capítulo 5: Caso de k amostras independentes ........................................................................57
5.1 Teste de Kruskal-Wallis .................................................................................................57
Capitulo 6: Medidas de Correlação ..........................................................................................60
6.1 Coeficiente de Correlação por postos de Kendall: τ .....................................................60
6.2 Coeficiente de Correlação por postos de Spearman: rS .................................................64
6.3 Coeficiente de Concordância de Kendall: W ................................................................66
Conclusão .................................................................................................................................70
Bibliografia...............................................................................................................................75
Anexos ......................................................................................................................................75
Anexo 0 ................................................................................................................................76
Anexo I: Caso de uma amostra.............................................................................................77
Anexo II: Caso duas amostras relacionadas .........................................................................81
Anexo III: Caso de duas amostras independentes ................................................................85
Anexos IV: Caso de k amostras relacionadas.......................................................................91
Anexo V: Caso de k amostras independentes.......................................................................94
Anexo VI: Medidas de Correlação. ......................................................................................95
Tabelas......................................................................................................................................75
Tabela A ...............................................................................................................................76
Tabela B................................................................................................................................77
Tabela C................................................................................................................................78
Tabela D ...............................................................................................................................79
Tabela E................................................................................................................................81
Tabela F ................................................................................................................................82
Tabela G ...............................................................................................................................84
Tabela J.................................................................................................................................85
Tabela K ...............................................................................................................................88
Tabela N ...............................................................................................................................89
Tabela O ...............................................................................................................................91
Tabela P ................................................................................................................................93
Tabela Q ...............................................................................................................................94
Tabela R................................................................................................................................95
Teste de Hipóteses
TESTE DE HIPÓTESES
Em muitas situações, queremos tomar uma decisão de forma a minimizar os riscos
envolventes.
No campo da estatística, formulamos hipóteses acerca de uma dada amostra, estas
hipóteses são submetidas a determinados testes. A hipótese a ser testada designamos por
Hipótese Nula ( H 0 ), a Hipótese Alternativa ( H 1 ) é a conclusão a que chegamos quando a
hipótese nula é rejeitada.
Quando formulamos uma decisão sobre H 0 podem ocorrer dois erros distintos. O
primeiro, designado por erro tipo I, consiste em rejeitar a hipótese nula quando ela é
verdadeira. O segundo, designado por erro tipo II, consiste em aceitar H 0 quando ela é falsa.
A estes erros estão associados uma probabilidade, isto é,
P(rej.H 0 | H 0 verd.) = α
P(ac.H 0 | H 0 falsa) = β
Quando queremos reduzir a probabilidade de ambos os tipos de erro, devemos aumentar
a dimensão da amostra.
À probabilidade α damos o nome de nível de significância.
Como o valor α entra no processo de determinação de aceitação ou rejeição de H 0 , a
condição de objectividade da prova exige que o nível de significância seja fixado antes da
recolha de dados. Os valores mais comuns para α são de 0,05 e 0,01 de acordo com a
importância prática dos resultados.
Quanto mais pequena é a probabilidade β mais potente é o teste, ou seja, o teste óptimo
da hipótese H 0 vs. H 1 é aquele que para uma probabilidade de ocorrer o erro tipo I, torne
mínima a probabilidade de ocorrer o erro tipo II.
Após ter escolhido as hipóteses e o nível de significância devemos determinar qual a
distribuição amostral. Esta é uma distribuição teórica que, se puséssemos considerar todos
os eventos possível, dava-nos as probabilidades, sob H 0 , associadas aos valores numéricos
possíveis da estatística.
1
Teste de Hipóteses
Neste momento temos que escolher o teste estatístico apropriado, tendo em conta os
seus pressupostos.
Definida as hipóteses, o nível de significância, o teste estatístico, falta-nos saber como
rejeitar/aceitar H 0 .
Região de rejeição é uma região da distribuição amostral, na qual consiste num
conjunto de valores tão extremos que, quando H 0 é verdadeira, a probabilidade α do valor
observado da amostra estar entre eles é muito pequena. A probabilidade associada a qualquer
valor na região de rejeição é afectada pela natureza da hipótese alternativa. Se H 1 indica o
sentido da diferença, utiliza-se um teste unilateral, caso contrário, utiliza-se um teste
bilateral.
A seguinte figura ilustra-nos como as duas regiões diferem entre si, mas não altera o
tamanho.
Figura 1: Dois tipos de testes
Teste bilateral
P=0.025
Teste unilateral
P=0.025
P=0.05
A área de cor azul é a região de rejeição para um α = 0.05
Para uma decisão final, basta ver se o valor resultante de um teste estatístico está na
região de rejeição ou não.
Uma abordagem alternativa para o teste de hipóteses é sugerida pelo cálculo da
probabilidade associada. ( p ) a uma dada observação. O valor p é a probabilidade de H 0 ser
verdadeira. Se p toma um valor menor ou igual a α , então rejeitamos a hipótese nula, caso
contrário, se p toma um valor superior a α , então aceitamos H 0 . O valor p (ou
probabiliade de significância) dá-nos também uma ideia do poder do teste estatístico.
Quanto maior for a probabilidade p mais forte é o teste e com mais facilidade se aceita a
hipótese nula.
2
Introdução
INTRODUÇÃO
Nos primórdios da estatística, desde que o Homem se organiza em sociedade, ela
aparece como processo organizado de contagem, seja ela de pessoas, cereais, frutas, etc..
Estes processos de contagem eram, posteriormente, apresentados à sociedade através de
tabelas e gráficos.
A palavra estatística aparece sempre ligada a coisas do Estado (status), mas só no séc.
XVII a estatística é tida como uma disciplina autónoma destinada a descrever factos ligados
ao estado. A estatística era associada ao processo político, como base para o planeamento do
Estado.
Esse processo de contagem do todo, denominado Censo, não é um procedimento dos
tempos passados. Na verdade ela constitui uma importante área da Estatística.
Relativamente à totalidade dos dados, há uma outra linha de trabalho que é conhecida
como Estatística Descritiva, que procura expressar as informações mais relevantes contidas
num conjunto de dados através do cálculo de valores. Cada um destes valores resume de uma
forma específica o conjunto de dados.
Mais recentemente, surgiu outro campo da estatística que designa-se por Estatística
Indutiva ou Inferência Estatística
Esta estatística preocupa-se em estimar o verdadeiro valor desconhecido do(s)
parâmetro(s) de uma população e testar hipóteses com respeito ao valor dos parâmetros
estimados, ou à natureza da distribuição da população.
Aqui é que surge uma separação, ou sabemos à partida qual a distribuição da população
(Estatística Paramétrica), ou não sabemos qual a sua distribuição (Estatística Não
Paramétrica).
Focaremos o nosso estudo sobre a Estatística Não Paramétrica. Os primeiros métodos
da estatística não paramétrica, embora com pouco uso até aos anos 40, foram referidos por
John Arbuthnot em 1710. Estes começaram a ter maior impacto só a partir de 1942 com
Wolfowitz. A partir daí o interesse aumentou de uma forma rápida.
Hoje a estatística não paramétrica é considerada como um dos campos mais importantes
da estatística. As técnicas que advêm desta categoria são usadas com grande frequência nas
ciências físicas, biológicas e sociais ou até mesmo na comunicação. Outros autores, também
dão importância a outros campos, tais como, na análise de dados da qualidade da água
3
Introdução
(Helsel), em aplicações na medicina (Brown and Hayden) ou mesmo na psicologia
(Buckalew).
Enumeremos, algumas vantagens para os métodos conhecidos:
1. Como os métodos da estatística não paramétrica depende do mínimo de suposições,
a possibilidade de o método não ser adequado é menor.
2. Para alguns métodos a avaliação pode ser rápida e fácil, especialmente se o cálculo
for manual. Deste modo, usando-os pode poupar tempo. É considerado importante,
se não tivermos tempo ou se não temos meios técnicos para o cálculo rápido.
3. Os métodos estatísticos são fáceis de perceber, mesmo tendo o mínimo de
preparação matemática e estatística.
4. Muito dos testes não paramétrica trabalham só com a ordem dos dados.
5. Poderão trabalhar com amostras de pequenas dimensões.
É claro que os métodos de estatística não paramétrica também trazem desvantagens. As
mais importantes são as seguintes:
1. Os testes não paramétricos, por vezes, são usados quando os testes paramétricos são
mais apropriados, porque estes testes são mais simples e rápidos, deste modo, pode
haver perda de informação.
2. Ainda que os procedimentos não paramétricos têm a reputação de requerer só
cálculos simples, a aritmética em muitas instâncias pode ser tendenciosa e
trabalhosa, especialmente quando as amostras são grandes.
3. Os métodos paramétricos são mais potentes para uma mesma dimensão e um
mesmo α do que os métodos da estatística não paramétrica.
Situação onde podemos usar os métodos da estatística não paramétrica
Os métodos não paramétricos são apropriados quando:
1. As hipóteses a testar não envolve parâmetros da população.
2. Se conhece a ordem dos dados.
3. Os pressupostos necessários para o uso válidos dos métodos paramétricos não são
conhecidos. Em muitos casos o planeamento de um projecto de pesquisa pode
4
Introdução
sugerir um certo processo paramétrico, mas quando iremos aplicar este processo
poderá violar de uma forma determinante os pressuposto. Neste caso, um método
não paramétrico seria a única alternativa.
Quando queremos implementar um método devemos ter em conta o nível de medida das
variáveis a analisar, estas estão divididas em diferentes grupos:
1. Escala Nominal: neste nível situam-se todas as observações que são categorias e
não têm uma ordem natural, por exemplo, o sexo dos alunos de uma dada turma.
Para que tenha uma ordem, pode ser atribuído um valor numérico, no entanto, os
números não tem um verdadeiro e único significado (Ex.: masculino=1, feminino=2
ou feminino=1, masculino=2);
2. Escala Ordinal: as observações são categorias que têm uma ordem natural. Estas
observações podem não ser numéricas. Por exemplo, as classificações dos testes
podem ser mau, não satisfaz, satisfaz, bom ou muito bom.
3. Escala Intervalar: tem todas as características da ordinal com a vantagem de
conhecer as distâncias entre dois números quaisquer da escala. Estes valores estão
limitados entre dois valores. (Ex. As notas das frequências de uma dada turma, os
valores estão entre zero e vinte).
4. Escala de Razões: além das características de uma escala intervalar, tem um
verdadeiro ponto zero como origem. Não existe limites. Nesta escala, a razão de
dois pontos quaisquer é independente da unidade de mensuração, por exemplo, se
determinarmos os pesos de dois objectos diferentes não somente em libras, mas
também em gramas, observamos que a razão dos dois pesos em libras é idêntica à
razão dos dois pesos em gramas.
Os vários métodos para testar as hipóteses serão apresentados de forma a focar as
diferenças entre as várias fontes de informação disponíveis, tais como, as tabelas e os dois
Software especializados: o Mathematica® e o SPSS®. A introdução dos dados, no caso do
SPSS®, e a programação das funções, no caso do Mathematica®, estarão em anexo, bem com
as tabelas aqui utilizadas.
5
Capítulo 1: Caso de uma amostra
CAPITULO 1: CASO DE UMA AMOSTRA
Os testes estatísticos inerentes ao caso de uma amostra servem para comprovar uma
hipótese que exige a extracção de uma amostra. É usualmente usado para teste de aderência,
isto é, se determinada amostra provém de uma determinada população com uma distribuição
específica.
As provas de uma amostra verificam se há diferenças significativas na locação
(tendência central) entre a amostra e a população, se há diferenças significativas entre
frequências observadas e as frequências que poderíamos esperar com base em determinado
princípio, se há diferenças significativas entre as proporções observadas e as proporções
esperadas e se é razoável admitir que a amostra seja uma amostra aleatória de alguma
população conhecida.
1.1 Teste da Binomial
Antes de falar no teste da Binomial, falemos um pouco da distribuição Binomial. Esta
distribuição é comum ser usada para a contagem de eventos de um modelo observado. É
baseado no pressuposto de que a contagem podem ser representada como um resultado de
uma sequência de resultados independentes de Bernoulli (por exemplo: o lançamento de uma
moeda). Se a probabilidade de observar um resultado R é P para cada n ensaios, então a
probabilidade que R será observado num ensaio x exacto é
⎛N⎞
p x = ⎜⎜ ⎟⎟ P x (1 − P) N − x
⎝ x⎠
(1.1.1)
A distribuição definida por: P[ X = x] = p x ( x = 1,K, N ) é chamada distribuição
binomial com parâmetros n e p. O nome aparece, pelo facto de que a expansão binomial de
( p + 1 − p) n é P0 + P1 + K + Pn .
O Teste da Binomial aplica-se a amostras que provém de uma população, onde o
número de casos observados podem ser representados por uma variável aleatória que tenha
distribuição binomial. As amostras consistem em dois classes (ex: cara ou coroa; sucesso ou
insucesso), deste modo este teste é aplicado a amostra de escala nominal.
6
Capítulo 1: Caso de uma amostra
Cada uma das classes tem a sua proporção de casos esperados, tomaremos, assim, P
para a proporção de uma das classes, e Q = 1 - P para a outra classe.
P é fixo para uma determinada população, mas, devido aos efeitos aleatórios, não
podemos esperar que determinada amostra tenha exactamente a mesma proporção.
A hipótese a ser testada é se o valor da população é P .
A probabilidade de obter x objectos numa das categorias e N − x noutra categoria é
dada pela fórmula 1.1.1..
No entanto, não queremos saber qual a probabilidade exacta dos valores observadas,
mas sim qual a probabilidade de obter os valores observados ou valores mais extremos. Então
para o método aplicamos a seguinte distribuição amostral:
x
∑C
i =0
N
i
P i Q N -i
(1.1.2)
Método:
1. Determinar o número de casos observados N (dimensão da amostra);
2. Determinar as frequências em cada uma das classes;
3. Conforme a dimensão da amostra, elas são classificadas em pequenas amostras
( N ≤ 25) ) e grandes amostras ( N > 25 ):
3.1. Para pequenas amostra e P = Q = 12 , a tabela D dá as probabilidades unilaterais,
sob H 0 , de vários tão pequenos quanto um x observado. Emprega-se uma prova
unilateral quando se conhece em antemão qual das classes tem menor frequência,
caso contrário basta, para uma prova bilateral, duplicar os valores da tabela D.
3.2. Se P = Q , determina-se a probabilidade, sob H 0 , de ocorrência do valor
observado x , utilizando a fórmula 1.1.2.
3.3. Para grandes amostras, pode-se demonstrar que quando N cresce a distribuição
binomial tende para a distribuição Normal. Será mais rápida se P estiver próximo
de
1
2
. Os parâmetros a usar serão a média µ x=NP e o desvio padrão σ x= NPQ ,
deste modo, z tem distribuição aproximadamente normal com média 0 e
variância 1, sendo:
z=
x-µ x
x-NP
=
σx
NPQ
(1.1.3)
7
Capítulo 1: Caso de uma amostra
Devido à natureza da variável x ser discreta e a distribuição normal ser contínua,
deve-se incorporar um factor de correcção. Assim sendo z fica
z=
( x ± 0.5)-NP
(1.1.4)
NPQ
onde x + 0.5 é utilizado quando x < NP e x – 0.5 quando x > NP.
Então para grandes amostras e P próximo de
1
2
, testamos a hipóteses aplicando a
fórmula 1.1.4. A tabela A dá a probabilidade, sob H 0 , associada à ocorrência de
valores tão grandes quanto um valor de z observado, dado por aquela fórmula. A
tabela dá os valores unilaterais de p, sendo necessário para prova bilateral,
duplicá-los.
Se o valor p associado ao valor observado x, não superar α , então rejeita-se H 0 .
Exemplo 1.1.1:
Suponhamos que numa dada família nasceram 12 filhos, 7 do sexo feminino e 5 do sexo
masculino. Os pais querem saber se a probabilidade de nascer feminino ou masculino é igual.
Resolução:
Hipóteses:
H 0 : p1 = p 2 Não há diferenças na probabilidade de nascer menino ( p1 ) ou
menina ( p 2 ) .
H 1 : p1 ≠ p 2 Há diferença na probabilidade.
Escolhe-se o teste binomial porque os dados estão dicotomizados em duas classes
discretas. O nascimento é um processo aleatório, assim, P = Q = 12 .
Seja α = 0,01 e N número de filhos = 12
8
Capítulo 1: Caso de uma amostra
A distribuição amostral é dada pela fórmula:
x
5
i =0
i =0
∑ CiN P i Q N -i = ∑ Ci12 P i Q N -i = 0,387
Sabemos que o cálculo anterior deu a probabilidade unilateral, para a bilateral basta
duplicar o valor, sendo assim, p = 2 × 0,387 = 0,774 . A região de rejeição consiste em todos
os valores de x tão pequenos que a probabilidade, sob a hipótese nula, associada à sua
ocorrência não seja superior a 0,01.
Como a probabilidade p = 0,774 associado a x ≤ 5 é maior que α = 0,01 , conclui-se
que não existe diferenças nas probabilidades de nascer menino ou menina.
O SPSS®, além do valor p, dá-nos um quadro resumo da amostra:
Output 1.1.1:
Este software pode fazer o teste com maior rapidez, muito embora, se a dimensão da
amostra for muito grande, a introdução dos dados poderá ser demorada. Para colmatar esta
situação podemos recorrer ao Mathematica®, pois, basta dar o número de casos de um das
classes como ilustra o seguinte exemplo:
Exemplo 1.1.2:
Suponhamos agora que queremos saber se a probabilidade de nascer masculino ou
feminino num dado país é igual. Considerando uma amostra de 1500 nascimentos e que
nasceram 725 crianças do sexo masculino, para testar a hipótese, basta:
npmBinomial p-value = 0.5725
One- Sided PValue - > 0.102896822008
Two- Sided PValue - > 0.205793644017
9
Capítulo 1: Caso de uma amostra
Como o “p-value” é maior que α = 0.01 , então aceitamos a hipótese de que não existe
diferenças entre o número de nascimentos do sexo masculino e feminino.
1.2 Teste do Qui-Quadrado ( χ 2 ) para uma amostra
É adequado aplicar este teste quando temos os dados da amostra dividida em duas ou
mais categoria. O propósito deste método é ver se existem diferenças significativas entre o
números de indivíduos, de objectos ou de respostas, em determinada classe, e o respectivo
número esperado baseado na hipótese nula. Isto é, a técnica χ 2 testa se as frequências
observadas estão suficientemente próximas das esperadas para justificar sua ocorrência sob a
hipótese nula.
Método:
O método envolve os seguintes passos:
1. Enquadrar as frequências observadas nas k categorias. A soma das frequências deve
ser N, número de observações independentes;
2. Por meio de H 0 , determinar as frequências esperadas para uma das k células;
3. Calcular o valor de χ 2 por meio da seguinte fórmula:
k
(Oi − Ei )2
i =1
Ei
2
χ calc
. = ∑
(1.2.1)
Oi = número de casos observados na categoria i
E i = número de casos esperados na categoria i sob H 0
k = número de categorias na classificação;
4. Determinar o grau de liberdade ( gl = k − 1 );
5. Com base na tabela C, determinar a probabilidade associada à ocorrência, sob H 0 ,
de um valor tão grande quanto o valor observado de χ 2 para o valor de gl
considerado. Se o valor de p, assim obtido, for igual a, ou menor do que, α , rejeitase a hipótese nula.
10
Capítulo 1: Caso de uma amostra
Nota: quando k > 2, se mais de 20 por cento dos E i ’s são inferiores a cinco, combinase de maneira razoável, categorias adjacentes. Reduzindo, assim o número de classes e
aumentando o números de alguns dos E i ’s. Quando k = 2. Pode-se empregar a prova χ 2
para uma amostra só se cada frequência esperada é no mínimo, igual a 5 (Cochran, 1954).
Exemplo 1.2.1:
Dada a seguinte tabela:
Tabela 1.2.1:
Cor
Vermelho
Branco
Preto
Azul
Cinzento
Número de automóveis
29
25
19
15
17
Queremos saber se há preferência em determinada cor, isto é, há razões para dizer que
há preferência em determinada cor? Com um nível de significância α = 0,05 .
Resolução:
Formulamos as hipóteses:
H 0 : PVermelho = PBranco = PPreto = PAzul = PCinzento =
1
5
H 1 : H 0 é falsa.
Calculamos o número total de frequências e o valor esperado:
N = N Vermelho = N Branco = N Preto = N Azul = N Cinzento = 29 + 25 + 19 + 15 + 17 = 105
Ei =
N 105
=
= 21
k
5
Calculamos χ 2 :
χ2 =
(29 − 21)2 + (25 − 21)2 + (19 − 21)2 + (15 − 21)2 + (17 − 21)2
21
21
21
21
21
≈ 6,48
11
Capítulo 1: Caso de uma amostra
A tabela C indica que χ 2 ≥ 6,48 para gl = 4 tem a probabilidade de ocorrência
entre p = 0,1 e p = 0,2 . Como p > α então não podemos rejeitar H 0 . Concluindo que a
proporção de casos em cada categoria é igual, para um nível de 0,05.
Através deste exemplo, verifica-se que não podemos ir buscar o valor exacto de p na
tabela, deste modo, seria mais preciso se utilizarmos outros meios de cálculo mais eficazes,
assim, o SPSS® seria a melhor escolha, como ilustra o seguinte output:
Output 1.2.1:
Poderíamos utilizar o Mathematica®, através da função QuiQuadrada1Amostra[],
dando como parâmetro a amostra:
QuiQuadrada1Amostra 29,25,19,17,15
PValue: 0.166297
como é observado, o Mathematica® calcula com maior precisão o valor da probabilidade
associada.
1.3 Teste de Kolmogorov-Smirnov
O Teste de Kolmogorov-Smirnov de uma amostra é baseado na diferença entre a função
de distribuição cumulativa F0 ( x ) e a função de distribuição empírica da amostra S n (x) . A
função de distribuição empírica da amostra define-se como a proporção das observações da
amostra que são menores ou iguais a x para todos os valores reais x . S n (x ) dispõe dum
estimador pontual consistente para a verdadeira distribuição FX (x ) . Mais, através do teorema
12
Capítulo 1: Caso de uma amostra
de Glivenko-Cantelli1 , podemos afirmar que S n (x) aproxima-se da distribuição teórica.
Portanto, para um n grande, o desvio entre as duas distribuições, S n ( x) − FX ( x) , fica cada
vez mais pequenos para todos os valores de x . Assim ficamos com o seguinte resultado:
Dn = sup S n ( x) − FX ( x)
(1.3.1)
x
À estatística D n chamamos estatística de Kolmogorov-Smirnov de uma amostra. É
particularmente útil para a Estatística Não Paramétrica, porque a probabilidade de D n não
depende de FX (x) desde que FX seja contínua. Deste modo, Dn pode ser chamada estatística
sem distribuição.
O desvio à direita e à esquerda definida por
Dn+ = sup[S n ( x) − FX ( x)]
Dn− = sup[FX ( x) − S n ( x)]
x
(1.3.2)
x
são chamados estatísticas de Kolmogorov-Smirnov unilaterais. Estas medidas também não
têm distribuição.
Para que possamos utilizar a estatística de Kolmogorov para inferência, a distribuição
da amostra deve ser conhecida. Sabendo que as distribuições de Dn são independentes de FX ,
podemos assumir, sem perda de generalidade, que FX é a distribuição uniforme com
parâmetros (0,1). Assim obtemos o seguinte teorema:
Teorema 1.3.1:
Para Dn = sup S n ( x) − FX ( x) onde FX (x ) é uma função distribuição
x
cumulativa contínua qualquer, temos:
1
Teorema de Glivenko-Cantelli: S n ( x ) converge uniformemente para FX (x ) com a probabilidade 1; que é
P ⎡⎢lim sup S n ( x) − FX ( x) = 0⎤⎥ = 1
⎣ n →∞ − ∞ < x < ∞
⎦
13
Capítulo 1: Caso de uma amostra
⎧0
⎪
⎪
1
⎛
⎞ ⎪ 1 / 2 n + v 3 / 2 n + v ( 2 n −1) / 2 n + v
+ v ⎟ = ⎨∫
P⎜ Dn <
f (u1 , u 2 , K , u n )du n K du1
∫ K∫
2n
⎝
⎠ ⎪ 1 / 2 n −v 3 / 2 n −v ( 2 n −1) / 2 n −v
⎪
⎪1
⎩
se v ≤ 0
2n − 1
2n
2n − 1
se v ≥
2n
se 0 < v <
⎧n! 0 < u1 < K < u n < 1
onde f (u1 , u 2 ,K, u n ) = ⎨
⎩0 caso contrário
Método:
Este método pretende testar se uma determinada amostra foi extraída de uma população
com uma determinada distribuição teórica.
Quando se escolhe este teste é preciso ter em conta que a variável seja pelo menos
ordinal.
Seja F0 ( X ) uma distribuição de frequências acumuladas, teórica, sob H 0 .
Seja S N ( X ) a distribuição de frequências acumuladas de uma amostra aleatória de N
observações. Quando X é qualquer valor possível, S N ( X ) =
k
, onde k é o número de
N
observações não superiores a X.
Pela hipótese Nula, de que a amostra tenha sido extraída de uma população com a
distribuição teórica específica, espera-se que as diferenças entre S N ( X ) e F0 ( X ) sejam
pequenas e estejam dentro dos limites dos erros aleatórios. O teste de Kolmogorov-Smirnov
focaliza a maior dessas diferenças. Ao valor de F0 ( X ) − S N ( X ) é chamado de desvio
máximo, D:
D = máx F0 ( X ) − S N ( X )
(1.3.3)
A Distribuição amostral de D, sob H 0 , é conhecida. A tabela E dá certos valores
críticos dessa distribuição amostral. Note-se que a significância de um dado valor D depende
de N.
14
Capítulo 1: Caso de uma amostra
Exemplo 1.3.1:
Suponha-se que um pesquisador esteja interessado na confirmação experimental da
observação sociológica, de que os negros Americanos aparentam demonstrar uma hierarquia
de preferência em relação à tonalidade de pele. Para comprovar quão sistemáticas são essas
preferências, o pesquisador fictício tira uma fotografia de cada um dentro de 10 indivíduos
negros. O fotógrafo revela essas fotografias, obtendo cinco cópias de cada uma, de tal forma
que cada cópia difira ligeiramente das outras em tonalidade, podendo, pois, ser classificadas
em cinco tipos, desde a mais clara até à mais escura. À fotografia mais escura é atribuído o
posto 1, e para a mais clara é atribuída o posto 5. Pede-se então a cada indivíduo que escolha
uma de entre as cinco cópias de sua própria foto. Se os indivíduos forem indiferentes em
relação à tonalidade da cor da pele, a escolha deverá recair igualmente sobre os cinco postos
(com excepção, é óbvio, de diferenças aleatórias).
Se, por outro lado, a cor tiver importância, tal como supomos, então os diversos
indivíduos deverão consistentemente manifestar preferência por um dos postos extremos. Os
resultados estão na seguinte tabela:
Tabela 1.3.1:
Posto da foto
1
2
3
4
5
N.º de indivíduos
0
1
0
5
4
Resolução:
Formulamos as hipóteses:
H 0 : f 1 = f 2 = f 3 = f 4 = f 5 (Não há diferenças no número esperado de escolhas para
cada um dos cinco postos, isto é, a amostra provém de uma população com uma distribuição
uniforme.)
H 1 : H 0 é falsa ( f 1 , f 2 , f 3 , f 4 , f 5 não são iguais).
Com a ajuda de uma tabela, calculamos a diferença entre a distribuição de frequências
acumuladas teórica e a da amostra:
15
Capítulo 1: Caso de uma amostra
Tabela 1.3.2:
f1
f2
f3
f4
f5
0
1
0
5
4
F0 ( X )
1
5
1
5
1
5
1
5
1
5
S0 ( X )
0
1
10
1
10
6
10
10
10
F0 ( X ) − S N ( X )
1
5
3
10
5
10
2
10
0
N.º de indivíduos que
escolhem a cor
De seguida, calculamos o máximo entre estas diferenças:
D = máx{F0 ( X ) − S N ( X ) } =
5
= 0,5
10
Consultamos a tabela E que nos dá a probabilidade p associada de ocorrência (bilateral)
de D ≥ 0,5 com N = 10 : p ≤ 0,01 .
Utilizando um nível de significância α = 0,01 , podemos concluir que H 0 é falsa, sendo
assim, os indivíduos demonstram preferência na tonalidade.
Como é observado, a tabela dá-nos intervalos de p , não sendo possível obter o seu valor
exacto. Poderíamos escolher um α = 0,03 e se, após o cálculo de D, a probabilidade
associada estiver entre 0,01 e 0,05, não era possível dar uma resposta.
No SPSS® podemos obter o valor exacto de p:
Output 1.3.1:
16
Capítulo 1: Caso de uma amostra
1.4. Teste de Iterações de Uma Amostra
Dado uma sequência de dois ou mais tipos de símbolos, uma iteração é definida como
uma sucessão de um ou mais símbolos idênticos em que são seguidos e precedidos por outro
símbolo diferente ou nenhum símbolo.
Pistas para uma sequência não aleatória são dadas através da existência de algum
padrão. O número de iterações e o comprimento, em que estão interrelacionados, devem
reflectir a existência de algum tipo de padrão.
Uma alternativa para saber se é ou não aleatória é baseada no número total de iterações.
Quer a situação de um número pequeno quer a situação de um número grande de iterações,
sugere que a sequência de símbolos estão dispostos de forma ordenada (não aleatória), isto é,
a hipótese nula é rejeitada se o número de iterações é muito grande ou muito pequeno.
Este teste utiliza-se quando os valores estão numa escala nominal ou ordinal, em que a
amostra é dicotómica.
Dada uma sequência de n elementos de dois tipos, n1 do primeiro tipo e n 2 do segundo
tipo, onde n1 + n 2 = n . Se r1 é o número de iterações do tipo 1 e r2 do tipo 2, então, o
número total de iterações na sequência é R = r1 + r2 . Para fazer um teste para a aleatoriedade,
precisamos da distribuição de probabilidade de R quando a hipótese nula é verdadeira.
A distribuição de R será encontrada quando conhecermos a distribuição de r1 e r2 ,
bastando somar as duas distribuições. Sabendo que sobre a hipótese nula todos os arranjos de
n1 + n 2 objectos é equiprovável, a probabilidade de R1 = r1 e R2 = r2 é o número de arranjos
distintos de n1 + n 2 objectos dividido pelo total de arranjos distintos, que é n! / n1! n 2 ! . Para a
quantidade do numerador, o lema seguinte pode ser usado.
Lema 1.4.1:
O número de formas distintas para distribuir n objectos iguais por
⎛ n − 1⎞
⎟⎟, n ≥ r.
r distintas células sem células vazias é ⎜⎜
⎝ r − 1⎠
De modo a obter uma sequência com r1 iterações de objectos do tipo 1, os n1 objectos
⎛ n −1⎞
iguais deve ser postas dentro de r1 células, em que pode ser feito em ⎜⎜ 1 ⎟⎟ diferentes
⎝ r1 −1 ⎠
17
Capítulo 1: Caso de uma amostra
maneiras. Aplica-se do mesmo modo para obter r2 iterações com outros n 2 objectos. O
número total de arranjos distintos começando com uma iteração do tipo 1 é o produto
⎛ n1 − 1⎞⎛ n2 − 1⎞
⎜⎜
⎟⎟⎜⎜
⎟⎟ . Analogamente, para uma sequência começando com uma iteração do tipo 2.
⎝ r1 − 1 ⎠⎝ r2 − 1 ⎠
O conjunto de objectos do tipo 1 e do tipo 2 deve ser alternado, e consequentemente poderá
acontecer o seguinte: r1 = r2 ± 1 ou r1 = r2 . Se r1 = r2 + 1 , a sequência deve começar com uma
iteração do tipo 1; Se r1 = r2 − 1 então deve ser o tipo 2 a começar. Caso r1 = r2 a sequência
pode começar com o do tipo 1 ou 2., portanto, o número de arranjos distintos deve ser
duplicado. Assim foi provado os seguintes resultados.
Teorema 1.4.1: Seja R1 e R 2 os respectivos números de iterações de n1 objectos do
tipo 1 e n 2 objectos do tipo 2 numa amostra aleatória de dimensão n = n1 + n 2 . A distribuição
da probabilidade conjunta de R1 e R 2 é
f R1 , R2 ( r1 ,r2 )
⎛ n − 1⎞⎛ n − 1⎞
c⎜⎜ 1 ⎟⎟⎜⎜ 2 ⎟⎟
r − 1 ⎠⎝ r2 − 1 ⎠
= ⎝ 1
⎛ n1 + n2 ⎞
⎜⎜
⎟⎟
⎝ n1 ⎠
r1 = 1,2,K , n1
r2 = 1,2,K , n2
r1 = r2
ou
(1.4.1)
r1 = r2 ± 1
onde c = 2 se r1 = r2 e c = 1 se r1 = r2 ± 1 .
Corolário 1.4.1: A distribuição da probabilidade marginal de R1 é
f R1 ( r1 )
⎛ n1 − 1⎞⎛ n2 + 1⎞
⎜⎜
⎟⎜
⎟
r1 − 1 ⎟⎠⎜⎝ r1 ⎟⎠
⎝
=
⎛ n1 + n2 ⎞
⎟⎟
⎜⎜
⎝ n1 ⎠
r1 = 1,2,K, n1
(1.4.2)
Similar para R 2 trocando posições de n1 com n 2 e vice-versa.
Teorema 1.4.2:
A distribuição de probabilidade de R , número total de iterações e
n = n1 + n 2 objectos, n1 do tipo 1 e n 2 do tipo 2, numa amostra aleatória é
18
Capítulo 1: Caso de uma amostra
⎧ ⎛ n1 − 1 ⎞⎛ n 2 − 1 ⎞
⎟⎟⎜⎜
⎟⎟
⎪ 2⎜⎜
−
−
/
2
1
/
2
1
r
r
⎝
⎠
⎝
⎠
⎪
se r é impar
⎪
⎛ n1 + n 2 ⎞
⎜⎜
⎟⎟
⎪
⎝ n1 ⎠
⎪
⎪
f R (r ) = ⎨
⎪ ⎛ n − 1 ⎞⎛ n − 1 ⎞ ⎛ n − 1 ⎞⎛ n − 1 ⎞
⎪ ⎜⎜ 1
⎟⎟⎜⎜ 2
⎟⎟
⎟⎟⎜⎜ 2
⎟⎟ + ⎜⎜ 1
par
−
−
−
(
1
)
/
2
(
3
)
/
2
(
3
)
/
2
r
r
r
⎪⎝
⎠⎝ (r − 1) / 2 ⎠ se r é
⎠⎝
⎠ ⎝
⎪
⎛ n1 + n 2 ⎞
⎪
⎜⎜
⎟⎟
⎪⎩
⎝ n1 ⎠
(1.4.3)
para r = 2,3, K , n1 + n 2
Método:
1. Dispor as n1 e n2 observações na sua ordem de ocorrência;
2. Contar o número r de iterações;
3. Determinar a probabilidade, sob H 0 , associada a um valor tão extremo quanto o
valor observado de r. Se tal probabilidade é igual, ou inferior, a α , rejeitar H 0 . A
técnica para a determinação do valor de p depende do tamanho dos grupos n1 e n2 :
3.1. Se n1 e n2 são ambos não superiores a 20, recorrer à tabela F. A tabela FI dá o
valor de r que é tão pequeno que a sua probabilidade associada, sob H 0 é
p = 0,025 ; a tabela FII dá o valor de r que é tão grande que a sua probabilidade
associada é p = 0,025 . Para uma prova bilateral consideramos os dois valores, ao
nível p = 0,05 . Para uma prova unilateral consideramos a tabela correspondente
aos valores previstos também a um nível p = 0,05 .
3.2. Se n1 ou n2 for superior a 20 então determinar uma aproximação à Normal através
da seguinte fórmula:
z=
r − µr
σr
=
⎞
⎛ 2n n
r − ⎜⎜ 1 2 + 1⎟⎟
⎠
⎝ n1 + n2
2n1n2 (2n1n2 − n1 − n2 )
(1.4.1)
(n1 + n2 )2 (n1 + n2 − 1)
19
Capítulo 1: Caso de uma amostra
calculado o valor de z, recorrer à tabela A.
Exemplo 1.4.1:
Apresentamos uma tabela onde é dado o total de pagamentos feitos pelas equipas da
Liga Nacional de baseball dos EUA:
Tabela 1.4.1: Pagamentos em milhões de dólares.
Equipa
Pagamento
Equipa
Pagamento
Atlanta
47.93
Montreal
15.41
Chicago Cubs
31.45
New York Mets
23.46
Cincinnati
40.72
Philadelphia
29.72
Colorado
38.19
Pittsburgh
21.25
Florida
30.08
San Diego
27.25
Houston
26.89
San Francisco
34.79
Los Angeles
34.65
St. Louis
38.92
A mediana deste conjunto de números é de 30,765.
Convertemos os valores indicados na tabela para zeros e uns, o zero corresponde a um
valor menor que a mediana e o um corresponde a um valor maior que a mediana.
Obtemos a seguinte sequência:
1,1,1,1,0,0,1,0,0,0,0,0,1,1
Queremos saber se os valores estão numa sequência aleatória. Com um nível de
significância α = 0,05 .
Resolução:
Formulamos as hipóteses:
H 0 : os zeros e uns ocorrem em ordem aleatória
H 1 : H 0 é falsa.
O número de iterações é r = 5 ; n1 = 7 e n 2 = 7
Calculamos os extremos para o r com a ajuda da Tabela F que nos dá o seguinte
resultado:
Região de Aceitação
Região de Rejeição
Região de Rejeição
20
3
5
13
Capítulo 1: Caso de uma amostra
Como r pertence ao intervalo de aceitação, podemos aceitar H 0 , deste modo,
concluímos que, com um nível de significância α = 0,05 , os pagamentos ocorrem de forma
aleatória.
Podemos verificar que estas tabelas não nos dão o valor de p, apenas um intervalo de
rejeição. Quer no Mathematica®, quer no SPSS® podemos calcular de uma forma exacta o
valor da probabilidade associada.
Vejamos então no SPSS:
Output 1.4.1:
Como podemos observar a probabilidade associada é de p = 0,164 , assim chegamos ao
mesmo resultado, isto é, aceitamos a hipótese nula.
No Mathematica® usamos dois procedimentos, um para converter para zeros e uns
outro para o cálculo da probabilidade:
Guardamos os valores numa variável do tipo lista:
Pagamentos = 47.93, 31.45, 40.72, 38.19, 30.08, 26.89, 34.65, 15.41,
23.46, 29.72, 21.25, 27.25, 34.79, 38.92
convertemos para zeros e uns:
ZeroUns = convertToZerosAndOnes pagamentos
1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1
21
Capítulo 1: Caso de uma amostra
e calculamos a probabilidade associada:
npmRunsTest ZeroUns
Number of Runs - > 5
Two- Sided PValue - > 0.155012
Concluímos, do mesmo modo, que não há razão para rejeitar a hipótese nula.
Como conclusão para este teste, podemos afirmar que, com a ajuda do computador, não
é necessário fazer uma aproximação à normal, visto que, não tem a limitação das tabelas.
22
Capítulo 2: Caso de duas amostras relacionadas
CAPÍTULO 2: CASO DE DUAS
AMOSTRAS RELACIONADAS
Empregam-se os testes para duas amostras relacionadas quando queremos determinar,
para uma mesma situação, se duas abordagens, tratamentos ou métodos são diferentes ou se
um é melhor que o outro.
2.1 Teste dos Sinais
É
dado
uma
amostra
aleatória
de
pares
ordenados
da
forma
{( y11 , y12 ), ( y 21 , y 22 ),..., ( y n1 , y n 2 )} , cada par é substituído por um sinal mais ou menos depende
se o primeiro valor é maior ou menor.
Método:
1. Emparelhar n pares;
2. Determinar o sinal da diferença entre os dois membros de cada par;
3. Determinar N = número das diferenças com sinal;
4. O método para determinar a probabilidade associada à ocorrência, sob H 0 , de um
valor tão extremo quanto o valor observado de z depende do tamanho de N:
i. Se N ≤ 25 , a tabela D dá a probabilidade unilateral p associada a uma
valor tão pequeno quanto o valor esperado x = número de sinais com menor
frequência. Duplica-se o valor da probabilidade quando se trata de um teste
bilateral.
ii. Se N > 25 , calcular o valor de z mediante o emprego da fórmula:
z=
( x ± 0,5) − 12 N
1
2
N
(2.1.1)
Utiliza-se x + 0,5 quando x < 12 N , caso contrário, x − 0,5 .
A tabela A dá os valores unilaterais de p , para um teste bilateral duplicar o
valor de p .
Se o valor da probabilidade obtida no teste não for superior a α , rejeitar H 0 .
23
Capítulo 2: Caso de duas amostras relacionadas
Exemplo 2.1.1:
Um professor da disciplina de alemão pretende avaliar o impacto de uma viagem, com a
duração de uma semana à Alemanha, sobre o vocabulário dos estudantes. O professor acredita
que uma semana na Alemanha resultará num acréscimo significativo das palavras do
vocabulário dos seus alunos, antes e depois de regressarem da viagem, tendo obtido os
seguintes resultados:
Tabela 2.1.1:
Antes 98
Depois 121
76
85
60
58
46
58
86
91
33
32
94 122
106 145
75
83
65
78
80
80
111
122
62
75
Resolução:
Formulamos as hipóteses:
H 0 : Não há diferenças, isto é, o número de sinais “+” é o mesmo de sinais “-”.
H 1 : H 0 é falsa.
Iremos usar o teste dos sinais, escolhendo um α = 0,05 .
Após a análise dos pares ordenados verificamos a seguinte sequência de sinais:
+ + - + + - + + + + + +i
N = 12 (neste caso houve um empate) e x = 2
Como N ≤ 25 , recorremos à tabela D, e verificamos que para uma prova unilateral o
valor de p é de 0,019, mas como a prova é bilateral p = 0,038
Sendo assim, rejeitamos a hipótese nula, dado lugar à hipótese alternativa, concluindo
que seria recomendável os alunos irem à Alemanha.
Para o caso de grandes amostras a contagem de sinais seriam demorados e susceptível a
erros e teríamos que utilizar uma aproximação, seria prudente a utilização de um computador.
Vamos ver como seria no computador este exemplo:
Após a introdução dos dados no SPSS®, teríamos os seguintes resultados:
24
Capítulo 2: Caso de duas amostras relacionadas
Output 2.1.1:
Como pode-se verificar, além de podermos visualizar o valor da probabilidade de um
modo mais exacto, podemos ver também o número total de sinais que ocorrem.
Outro modo seria utilizando o Mathematica®, na função a utilizar damos como
parâmetros: o número de sinais positivos e o número de sinais negativos, excluindo os
empates em ambos os casos:
npmSignTestFrequencies 2, 10
Title: Sign Test
Test Statistic: Number of Pluses is 2
Distribution BinomialDistribution
2 - sided p- value - > 0.0385742
Podemos verificar que o valor de p é dado com maior número de casas decimais.
2.2 Teste de McNemar
O teste desenvolvido por McNemar é usado para analisar frequências (proporções) de
duas amostras relacionadas, isto é, tem como objectivo avaliar a eficiência de situações
“antes” e “depois”, em que cada o indivíduo é utilizado como o seu próprio controlo. Utilizase a mensuração em escala nominal para avaliar alterações da situação “após” em relação à
situação “antes”.
Método:
1. Enquadrar as frequências observadas numa tabela de quatro células na forma
seguinte:
25
Capítulo 2: Caso de duas amostras relacionadas
Tabela 2.2.1:
Depois
Antes
+
-
-
+
A
C
B
D
As células A e D são consideradas células de mudança, enquanto que as células B e C
são células que não muda de estado. O total de indivíduos que acusam mudança
é
m = A+ D;
2. Considerando p1 a probabilidade de “Antes Æ Negativo; Depois Æ Positivo” e p 2 a
probabilidade de “Antes Æ Positivo; Depois Æ Negativo” e p1 = p 2 , calcular as
frequências esperadas nas células A e D: E = 12 ( A + D ) .
Se as frequências esperadas são inferiores a 5 , empregar a prova binomial em
substituição á de McNemar, neste caso, N = A + D e x = min {A, D};
3. Caso não se verifique que as frequências são inferiores a 5, calcular o valor de X 2
com o emprego da seguinte fórmula:
( A − D − 1)
2
X =
2
A+ D
(2.2.1)
com gl = 1
4. Mediante referência à tabela C, determinar o probabilidade, sob H 0 , associada a um
valor tão grande quanto o valor observado de X 2 . Se se tratar de uma prova
unilateral, basta dividir por dois o valor tabelado. Caso o valor de p, exibido pela
tabela, não supera α , rejeitar H 0 em favor da hipótese alternativa.
Exemplo 2.2.1:
Dada a seguinte tabela de resultados:
Tabela 2.2.1:
M arca B
Marca A
Sucesso
Insucesso
Sucesso
Insucesso
19
4
11
16
26
Capítulo 2: Caso de duas amostras relacionadas
Queremos saber qual a melhor marca de medicamentos com um nível de significância
de α = 0,05 .
Resolução:
McNemar demonstrou que A ou D não contribui para a determinação das diferenças
entre a marca A e a marca B, Mas sim através das restantes células (B e C). Se verificarmos
que B > C, podemos concluir que a Marca A é melhor que a marca B, caso contrário, se B < C
então a marca B é melhor. Com base neste raciocínio, formulamos as nossas hipóteses:
H 0 : Não existe diferenças entre a marca A e a Marca B ( p marcaA = p marcaB = 12 )
H 1 : H 0 é falsa.
(19 − 16 − 1)
2
X =
2
19 + 16
= 0,1142857143 com gl = 1
Através da tabela C, calculamos uma aproximação do valor de X 12−α (1) :
X 12−α (1) = X 02.95 (1) = 0,0039
Como X 2 > X 02.95 (1) então rejeitamos a hipótese nula, dando lugar à hipótese
alternativa, isto é, existe diferenças entre a marca A e a marca B, sendo a marca A melhor que
a marca B.
Com a ajuda do computador, não é preciso recorrer à tabela, podendo calcular o valor
preciso da probabilidade associada:
Output 2.2.1:
27
Capítulo 2: Caso de duas amostras relacionadas
No Mathematica®, a função a utilizar será a mesma da binomial dando como
parâmetros: o número total dos valores das células onde há mudança de comportamento entre
as marcas, a probabilidade (neste caso é 0,5) e o menor valor entre as células de mudança:
npmBinomial PValue 0.5, 4
One- Sided PValue - > 0.0592346
Two- Sided PValue - > 0.118469
Com o Mathematica® chegamos à mesma conclusão do método pelas tabelas, com a
vantagem de ser com maior precisão.
2.3 Teste de Wilcoxon
O teste de Wilcoxon é mais poderoso que o teste dos sinais, pois, além de considerar o
sentido da diferença também tem em conta o seu valor e o posto em que se insere.
Método:
1. Para cada par, determinar a diferença ( d i ), com sinal, entre os dois valores;
2. Atribuir postos a esses d i ’s independentemente de sinal. No caso de d’s empatados,
atribuir a média dos postos empatados;
3. Atribuir a cada posto o sinal + ou o sinal – do d que ele representa;
4. Determinar T que é igual à menor das somas de postos de mesmo sinal;
5. Determinar N que é igual ao total de d’s com sinal;
6. O processo para determinação da significância do valor observado de T vai depender
de N:
Se N ≤ 25 , a tabela G dá os valores críticos de T para diversos tamanhos de N. Se o valor
observado de T não supera o valor indicado na tabela, para um dado nível de significância e
um particular N, H 0 pode ser rejeitada;
Se N > 25 , calcular o valor de z pela seguinte fórmula:
z=
N ( N + 1)
4
N ( N + 1)(2N + 1
24
T−
(2.3.1)
28
Capítulo 2: Caso de duas amostras relacionadas
Determinar a sua probabilidade associada, sob H 0 , mediante referência à Tabela A.
Para uma prova bilateral, duplicar o valor de p dado.
Se o p assim obtido não for superior a α , rejeitar H 0 .
Exemplo 2.3.1:
Na tabela seguinte apresentamos uma sequência de valores que correspondem ao
número de pessoas que trabalham à mais de 25 anos em diferentes profissões divididos pelo
sexo:
Tabela 2.3.1:
Feminino 47618 15110 6555 8556 2972 324 19448 1790 5163 12495 7594 1128
3724
614
Masculino 56523 16708 8883 7825 1002 442 11161 1661 6346 3153 4760 10946 10593 2356
Pretendemos determinar se existem grandes diferenças entre os sexos nas diferentes
ocupações.
Resolução:
Formulamos as hipóteses:
H 0 : Não há diferenças entre o sexo masculino e o feminino nas diferentes ocupações.
H 1 : Há diferenças entre os sexos.
Iremos usar o teste de Wilcoxon, escolhendo um α = 0,05 .
Dispomos os dados numa tabela para calcular as diferenças e os postos:
29
Capítulo 2: Caso de duas amostras relacionadas
Tabela 2.3.2:
Ai
Bi
d i = Ai − Bi
Postos
47618
56523
-8905
12
15110
16708
-1598
5
6555
8883
-2328
8
8556
7825
731
3
2972
1002
1970
7
324
442
-118
1
19448
11161
8287
11
1790
1661
129
2
5163
6346
-1183
4
12495
3153
9342
13
7594
4760
2834
9
1128
10946
-9818
14
3724
10593
-6869
10
614
2356
-1742
6
T+ = 3 + 7 + 11 + 2 + 13 + 9 = 45
T− = 12 + 5 + 8 + 1 + 4 + 14 + 10 + 6 = 60
T = min{T+ , T− } = 45
Como N < 25 (N = 14) então estamos perante a um caso de pequenas amostras, neste
caso basta ver qual o valor tabelado de T descrito na tabela G:
Para um N = 14 e α = 0,05 (prova bilateral) temos Ttabelado = 21
Como T > Ttabelado então aceitamos a hipótese, isto é, não existe diferenças entre os
sexos nas diferentes ocupações.
No SPSS®, basta introduzir os dados em duas series de variáveis, ficando com o
seguinte resultado:
30
Capítulo 2: Caso de duas amostras relacionadas
Output 2.3.1:
Podemos observar que o SPSS faz um teste assimptotico. Não nos dá o valor de T mas
sim o valor da probabilidade associada. Neste caso p = 0,638 , então podemos concluir que
não existe diferenças entre os sexos.
31
Capítulo 3: Caso de duas amostras independentes
CAPITULO 3: CASO DE DUAS
AMOSTRAS INDEPENDENTES
Como os testes do capítulo 2, os testes, de seguida, apresentados, servem, de um modo
geral, para determinar se as diferenças nas amostras constituem evidência convincente de uma
diferença nos processos, ou tratamentos, aplicados a elas. A principal diferença é de que as
amostras são independentes e como tal, podem ter dimensões diferentes.
3.1 Teste de Iterações de Wald-Wolfowitz
Seja duas amostras independentes X 1 , X 2 , K , X m e Y1 , Y2 , K , Yn combinadas numa
única sequência ordenada da menor à maior, não deixando de identificar a sua amostra.
Assumindo que as suas distribuições são contínuas, uma única ordem é sempre possível,
visto que teoricamente não existem empates. Por exemplo, com m = 4 e n = 5 , a sequência
poderia ser X Y Y X X Y Y em que é indicado que o menor elemento pertence à amostra X, o
segundo menor da amostra Y, etc., e o valor maior pertence à amostra Y. Sobre a hipótese nula
de que as distribuições são idênticas
H
0
: F Y ( x ) = F x ( x ) para todo o x
esperamos que X e Y estejam bem misturadas na sequência obtida. Visto que, a dimensão
m + n = N constitui uma amostra de dimensão N de uma população comum.
Com a iteração, definida em 1.4, como uma sequência de letras idênticas precedida e
seguida por uma letra diferente ou nenhuma letra, o número total de iterações de uma amostra
ordenada é um indicativo do grau de mistura. Um padrão de arranjos com muito poucas
iterações sugere que os N valores da sequência não provém de uma única amostra, mas sim de
duas amostras de duas populações diferentes. Por exemplo, se todos os elemento de X são
menores que os elementos de Y, na sequência formada deveria ter só duas iterações. Esta
configuração particular pode indicar que não só as populações não são equivalentes, como
também podem indicar que X’s são estocasticamente menores que os Y’s. Contudo, a ordem
inversa também só contém duas iterações, e, portanto, um teste baseado só no número total de
iterações não pode distinguir estes casos.
Em primeiro lugar, o teste de iterações é apropriado quando a hipótese alternativa é
bilateral
32
Capítulo 3: Caso de duas amostras independentes
H 1 : FY ( x ) ≠ Fx ( x ) para alguns x
Definimos uma variável R aleatória como o número total de iterações numa ordem de m
X e n Y valores aleatórios.
Desde que poucas iterações tendem a duvidar da hipótese nula quando a alternativa é
H 1 , O teste de iterações de Wald-Wolfowitz (1940) para um nível de significância α
geralmente tem a região de rejeição R ≤ cα onde cα é escolhido para ser o maior inteiro que
satisfaz P ( R ≤ cα ) ≤ α quando H 0 é verdadeira.
Desde que as observações X e Y são dois tipos de objectos arranjados numa sequência
completamente aleatória, se H 0 é verdadeira, a distribuição da probabilidade nula de R é
igual é distribuição 1.4.2 do corolário 1.4.1 para o teste de iterações de uma amostra, bastando
mudar n1 e n 2 para m e n respectivamente, assumindo que os X’s são os objecto do tipo 1 e
os Y’s são os objectos do tipo 2.
Este teste tem a particular vantagem de permitir comprovar qualquer tipo de diferença.
Para que possamos aplicar a prova de Wald-Wolfowitz supõe-se que a variável em
estudo tenha distribuição básica contínua, e exige mensuração no mínimo ao nível de escala
ordinal.
Método:
Suponhamos que n1 = n e n 2 = m , os passos a seguir são:
i. Dispor os n1 + n 2 valores numa única sequência ordenada;
ii. Determinar r = número de iterações;
iii. O método para determinação da significância do valor observado de r
depende do tamanho de n1 e n 2 :
iv. Se n1 , n 2 ≤ 20 , a tabela FI dá os valores críticos de r para um nível de
significância 0,05. Caso o valor observado de r não superar o valor tabelado
para os valores dados de n1 e n 2 , então podemos rejeitar H 0 ao nível de
significância α = 0,05 ;
v. Se um dos valores de n1 e n 2 superar 20, podemos utilizar a seguinte
aproximação à Normal:
33
Capítulo 3: Caso de duas amostras independentes
z=
⎞
⎛ 2n n
r − ⎜⎜ 1 2 + 1⎟⎟ − 0.5
⎠
⎝ 2n1 n2
2n1 n2 (2n1 n2 − n1 − n2 )
(n1 + n2 ) 2 (n1 + n2 − 1)
(3.1.1)
Após a determinação do valor de z, determina-se a probabilidade associada
p através da tabela A. Se o valor p não for maior que α então devemos rejeitar
a hipótese nula;
Caso ocorram empates.
Teoricamente, não deveria ocorrer empates nos valores de uma prova de iterações,
porque as populações, das quais se extraíram as amostras, deveriam ter distribuições
contínuas. Na aplicação do método, por falta de precisão ou de sensibilidade das
mensurações pode eventualmente ocorrer empates nos diferentes grupos. Portanto,
por vezes, pode originar valores diferentes para r . Assim para abranger todos os
casos, deve-se repetir o método para todas as ordens diferentes.
Caso chegue a diferentes decisões sobre a hipótese nula, então, este método é
inaplicável.
Exemplo 3.1.1:
Num estudo destinado a comprovar a teoria da equipotencialidade, Ghiselli comparou o
número de tentativas de aprendizagem (numa tarefa de discriminação de brilho) de 21 ratos
normais com o número de tentativas de reaprendizagem de 8 ratos. Queremos saber se os dois
grupos de animais diferem nas suas taxas de aprendizagem (reaprendizagem).
A seguinte tabela dá-nos as tentativas de aprendizagem (reaprendizagem) feitas pelos
ratos do grupo A e do grupo B:
Tabela 3.1.1:
Ratos A
20 55 29 24 75 56 31 45
Ratos B
23 8 24 15 8
6 15 15 21 23 16 15 24 15 21 15 18 14 22 15 14
34
Capítulo 3: Caso de duas amostras independentes
Resolução:
Formulamos as hipóteses:
H 0 : Não há diferenças entre os ratos normais e os ratos em período pós-operatório com
lesões corticais, no que diz respeito à aprendizagem (ou reaprendizagem) numa
tarefa de discriminação de brilho.
H 1 : Os dois grupos de ratos diferem em relação à taxa de aprendizagem
(reaprendizagem).
A prova a escolher é a prova de Wald-Wolfowitz, pois é uma prova global para a
diferença entre duas amostras. O nível de significância a escolher será α = 0,01 .
Dispomos por ordem crescente e contamos o número de iterações:
Tabela 3.1.2:
Valores 6 8 8 14 14 15 15 15 15 15 15 15 16 18 20
Grupo
B B B B B B B
Iterações
B
B B B
B
B B A
1
2
Tabela 3.1.2 (continuação):
Valores 21 21 22 23 23 24 24 24 29 31 45 55 56 75
Grupo
Iterações
B
B
B B B B
3
A
B
4
5
A
A A A A A
6
Neste caso o número de iterações é r1 = 6 , mas, note-se que há empates entre os dois
grupos, neste caso, teremos que repetir a contagem:
Tabela 3.1.3:
Valores 6 8 8 14 14 15 15 15 15 15 15 15 16 18 20
Grupo
Iterações
B B B B B B B
B
1
B B B
B
B B A
2
35
Capítulo 3: Caso de duas amostras independentes
Tabela 3.1.3 (continuação):
Valores 21 21 22 23 23 24 24 24 29 31 45 55 56 75
Grupo
B
B
B B B B
Iterações
B
A
A
A A A A A
3
4
Assim, ficamos com r2 = 4 .
Dado que n1 = 8 e n 2 = 21 > 20 , então não podemos recorrer à tabela F. Para que
possamos calcular a probabilidade associada teremos que fazer uma aproximação à Normal
com o auxilio da fórmula (3.2.1):
Para r1 = 4 :
z1 =
⎛ (2)(8)(21) ⎞
4−⎜
+ 1⎟ − 0,5
⎝ 8 + 21
⎠
(2)(8)(21)[(2)(8)(21) − 8 − 21]
(8 + 21) 2 (8 + 21 − 1)
= 3,864
Para r2 = 6 :
z2 =
⎛ (2)(8)(21) ⎞
6−⎜
+ 1⎟ − 0,5
⎝ 8 + 21
⎠
(2)(8)(21)[(2)(8)(21) − 8 − 21]
(8 + 21) 2 (8 + 21 − 1)
= 2,908
Recorrendo à Tabela A, calcula-se o valor da probabilidade associada:
Para um z1 ≥ 3,864 , verificamos que
Para um z 2 ≥ 2,908 , verificamos que a
a probabilidade é
probabilidade é
p1 = 0
p 2 = 0,0014
Ambas as probabilidades p1 e p 2 , são inferiores a α = 0,01 . Deste modo, concluímos
que os dois grupos de animais diferem significativamente nas suas taxas de aprendizagem
(reaprendizagem).
Caso, alguma das probabilidades fossem superior do que o nível de significância este
método não teria efeito.
Vejamos como o SPSS® apresentava o resultado:
36
Capítulo 3: Caso de duas amostras independentes
Output 3.1.1:
Como podemos constatar, o SPSS® indica-nos o número mínimo e máximo de
iterações, calculando para cada um a probabilidade associada. A conclusão a tirar seria a
mesma pelo método tradicional.
Como vantagem para o SPSS®, é o modo rápido como se calcula as probabilidades,
visto que, no método tradicional, em caso de empates, temos que repetir a ordenação e o
cálculo de p , podendo provocar maior número de erros.
3.2 Teste U de Mann-Whitney
Como no teste de iterações de Wald-Wolfowitz, o teste de U de Mann-Whitney (1947) é
baseado na ideia de que um padrão particular, exibido quando X e Y variáveis aleatórias estão
numa única fila postos em ordem crescente, fornece informação sobre a relação entre as suas
populações. Contudo, em vez de basear-se pelo número total de iterações, o critério do teste
de Mann-Whitney é baseado na magnitude de Y’s em relação com os X’s, digamos que é a
posição dos Y’s numa sequência ordenada.
O objectivo deste teste é comprovar se dois grupos independentes foram ou não
extraídos duma população com a mesma mediana. Para isso, as amostras devem ser
independentes e aleatórias: uma extraída duma população com mediana não conhecida M 1 e
outra extraída de outra população com mediana desconhecida M 2 . O nível de mensuração
tem que ser pelo menos ordinal e as duas populações devem ter uma distribuição contínua.
A hipótese a comprovar é ver se as populações têm a mesma mediana, sendo a
alternativa, as medianas serem diferentes ou uma maior do que a outra.
37
Capítulo 3: Caso de duas amostras independentes
Método:
1. Determinar os valores n1 (=número de casos do menor grupo) e n 2 ;
2. Dispor em conjunto os valores dos dois grupos, ordenando-os de forma ascendente;
3. Atribuir postos aos valores, em caso de empate, fazer a média dos postos
correspondentes;
4. Para determinar U basta recorrer à fórmula seguinte:
U = min(U 1 ;U 2 )
Sendo: U 1 = n1 n2 +
(3.2.1)
n1 ( n1 + 1)
− R1 e U 2 = n1 n 2 − U 1
2
com R1 = soma dos postos atribuídos à amostra 1;
5. O método para determinar a significância do valor de depende de n 2 :
i. Se n 2 ≤ 8 , a tabela J dá a probabilidade exacta associada a um valor tão
pequeno quanto o valor de U. Para uma prova bilateral basta duplicar o valor
obtido na tabela, Caso o valor de U não constar na tabela, deve ser
interpretado como U ' = n1 n 2 − U ;
ii. Se 9 ≤ n 2 ≤ 20 , é utilizada a tabela K, que dá os valores críticos de U para
níveis de significância de 0,001, 0,01, 0,025, 0,05 para um teste unilateral,
duplicando estes valores para uma prova bilateral. Caso o valor observado de
U é maior do que n1 n 2 /2, deve ser interpretado como U’ descrito na alínea
anterior;
iii. Se n 2 > 20 , a probabilidade deve ser calculada através de uma aproximação
à distribuição Normal, através do valor de z que é nos dado pela fórmula:
z=
n1 n2
2
n1 n2 (n1 + n2 + 1)
12
U−
(3.2.2)
Caso ocorram empates, em grandes amostras, expressão utilizada será:
38
Capítulo 3: Caso de duas amostras independentes
z=
n1 n 2
2
3
⎞
n1 n 2 ⎛ N − N
⎜⎜
− ∑ T ⎟⎟
N ( N − 1) ⎝ 12
⎠
onde: N = n1 + n 2 e T =
U−
(3.2.3)
t3 − t
sendo t o número de observações empatadas para uma dada
12
posição.
Se o valor observado de U tem probabilidade associada não superior a α , rejeitar a
hipótese nula.
Exemplo 3.2.1:
Na disciplina de Estatística Aplicada, onde se encontra inscritos alunos do curso de
Matemática (ensino de) e Matemática/Informática, registaram-se as seguintes classificações
numa das frequências:
Tabela 3.2.1:
Mat. (ensino de) 10.5 16.5
11
9.8 17.1 1.5 14.8 9.9 9.8 10.3 8.7
Mat./Informática 11.4 12.9 10.1 7.9
8.8 12.8
O que se pode concluir acerca das médias das ordens das classificações.
Resolução:
Formulamos as hipóteses:
H 0 : Não há diferenças entre as médias das ordens das notas dos alunos de Matemática
(ensino de) e de Matemática Informática
H 1 : Há diferenças entre as médias das ordens (teste bilateral).
Após a contagem do número de casos em ambas as amostras temos:
39
Capítulo 3: Caso de duas amostras independentes
n1 = 6 e n 2 = 11
Calculemos U:
Tabela 3.2.2:
1,5 7,9 8,7 8,8 9,8 9,8 9,9 10,1 10,3 10,5 11 11,4 12,8 12,9 14,8 16,5 17,1
E
I
E
I
1
2
3
4
U 1 = 6 × 11 +
E
E
5,5 5,5
E
I
E
E
E
I
I
I
E
E
E
7
8
9
10
11
12
13
14
15
16
17
6 × (6 + 1)
− (2 + 4 + 8 + 12 + 13 + 14) = 34
2
U 2 = 6 × 11 − 34 = 32
U = min( 34;32 ) = 32
Como 9 ≤ n 2 ≤ 20 recorremos à tabela J:
Para n1 = 6 , n 2 = 11 e α = 0.05 (bilateral),
temos: U tabelado = 13 .
Como U tabelado < U calculado , podemos concluir que as duas amostras provêem de
populações com a mesma média.
Vejamos como podemos resolver este exemplo no SPSS®:
Após a introdução dos valores, dá-nos o seguinte resultado:
Output 3.2.1:
40
Capítulo 3: Caso de duas amostras independentes
É claro que existe clara vantagens em utilizar o SPSS®. Pois, dá um quadro resume que
contém o valor exacto da probabilidade, a probabilidade assimptótica e também o valor de U.
Tendo como principal vantagem o pouco tempo gasto para o emprego deste teste.
No Mathematica® coma ajuda da função npmMannWhitneyTest[list1,list2], fica:
MatEnsino = 10.5, 16.5, 11, 9.8, 17.1, 1.5, 14.8, 9.9, 9.8, 10.3, 8.7
MatInformatica = 11.4, 12.9, 10.1, 7.9, 8.8, 12.8
rpmMannWhitneyTest MatEnsino, MatInformatica
Title: Mann- Whitney Test
Sample Medians: 10.75, 10.3
Test Statistic: 32.
Distribution: Normal Approximation
2 - Sided PValue - > 0.919895
Esta função apenas dá um valor aproximado de p.
Podemos concluir que para fazer um teste com maior rigor e rapidez, o SPSS® seria a
melhor escolha, pois o SPPS® calcula o valor exacto.
3.3 Teste de Moses para reacções extremas
O teste de Moses destina-se especificamente a dados de mensuração mínima na escala
ordinal. Esta prova tem como objectivo ver se as populações têm a mesma oscilação, isto é, o
teste de Moses é aplicável quando é previsto que um dos grupos tenha valores altos, e o outro
valores baixos.
A principal vantagem deste teste é que não requer que as populações tenha medianas
iguais. Todavia, Moses (1952b) salienta que um teste baseado em medianas ou em postos
médios, por exemplo, o teste U de Mann-Whitney, é mais eficiente, devendo, por
conseguinte, ser preferido à prova de Moses. Esta última é especialmente útil quando existem
razões a priori para esperar que determinada condição experimental conduza a escores
extremos em uma ou em outra direcção.
Método:
Os passos a seguir para o teste de Moses são:
Seja n C e n E o número de casos de controlo e experimentais respectivamente.
1. Antes de reunir os dados deve-se especificar h . Será um número pequeno arbitrário;
41
Capítulo 3: Caso de duas amostras independentes
2. Reunidos os dados, dispô-los em postos em uma única série conservando a
identidade do grupo em cada posto;
3. Determinar o valor de s h , âmbito ou abrangência dos postos de controlo, após
eliminar os h postos mais extremos dos C ’s em cada extremidade da respectiva
série, isto é,
s h = C 2 − C1 + 1
(3.3.1)
onde, C 2 é o posto que corresponde o último grupo de controlo, retirando h valores
de controlo e C1 corresponde ao primeiro posto do grupo de controlo, retirando h
valores de controlo;
4. Determinar o valor de g , excesso do valor observado de s h sobre nC − 2h ,ou seja,
g = s h − ( nC − 2h) ;
5. Determinar a probabilidade associada aos dados observados, calculando o valor de
p pela fórmula:
⎛ i + nC − 2h − 2 ⎞⎛ n E + 2h + 1 − i ⎞
⎟⎟
⎟⎟⎜⎜
nE − i
i
i =0 ⎝
⎠
⎝
⎠
p(s h ≤ nC − 2h + g ) =
n
n
+
⎛ C
E ⎞
⎟⎟
⎜⎜
⎝ nC ⎠
g
∑ ⎜⎜
(3.3.2)
Em caso de ocorrência de empates entre grupos, considerar esses empates de todos
os modos possíveis e determinar p para cada um deles. A média desses p’s é então
utilizada para a decisão;
6.
Se p não superar α , rejeitar H 0 .
Exemplo 3.3.1:
Num estudo para avaliar o grau de medo, perante ratos, escolheu-se dois grupos de
indivíduos. O grupo C, constituído por 7 indivíduos, que trabalha diariamente com ratos e o
grupo E, formado por 6 indivíduos, têm dificuldades em controlar o medo, quando estão
próximos de ratos.
Quer o grupo C quer o grupo E estiveram em contacto com ratos durante 10 minutos e o
grau de medo foi medido numa escala de 0 a 20. o grau 20 significa que a pessoa tem pavor a
ratos. Os resultados foram:
42
Capítulo 3: Caso de duas amostras independentes
Tabela 3.3.1:
Grupo C
6
5
10
7
12
3
Grupo E
0
4
11
18
9
19
8
Será que as duas amostras provêem da mesma população?
Resolução:
Formulamos as hipóteses:
H 0 : Não há diferenças entre o grupo C e o grupo E.
H 1 : Há diferenças entre os dois grupos.
Dividimos em dois casos: o da esquerda com h = 0 e o da direita com h = 1.
Dispomos os valores em postos, conservando o grupo:
Tabela 3.3.2:
Posto 1 2 3 4 5 6 7 8 9 10 11 12 13
Grupo E C E C C C C E C E C E E
Tabela 3.3.3:
Posto 1 2 3 4 5 6 7 8 9 10 11 12 13
Grupo E C E C C C C E C E C E E
sh = 9 − 4 + 1 = 6
s h = 11 − 2 + 1 = 10
Determinamos o valor de g , com s h = 10 e Determinamos o valor de g , com s h = 6 e
nC = 7 :
nC = 7 :
g = 10 − (7 − 2 × 0) = 3
g = 6 − (7 − 2 × 1) = 1
Então utilizando a fórmula 3.3.2:
⎛ i + 5 ⎞⎛ 7 − i ⎞
⎟⎟
⎟⎟⎜⎜
⎜⎜
∑
i = 0 ⎝ i ⎠⎝ 6 − i ⎠
p(s h ≤ 10 ) =
⎛13⎞
⎜⎜ ⎟⎟
⎝7⎠
3
= 0,2168
⎛ i + 3 ⎞⎛ 9 − i ⎞
⎟⎟
⎟⎟⎜⎜
i = 0 ⎝ i ⎠⎝ 6 − i ⎠
p (s h ≤ 6 ) =
⎛13 ⎞
⎜⎜ ⎟⎟
⎝7⎠
1
∑ ⎜⎜
= 0,1795
Sendo α = 0,05 , concluímos que, para qualquer um dos casos, não existe diferenças
entre os grupos C e E, sendo assim, as amostras provêem da mesma população.
43
Capítulo 3: Caso de duas amostras independentes
No SPSS®, após a introdução dos valores e escolha do teste, temos o seguinte
resultado:
Output 3.3.1:
Como podemos ver no SPSS®, ele calcula a probabilidade associada para um h = 1 (por
ele escolhido) e para um h = 0 , assim não o precisamos de escolher um h no início do teste.
No Mathematica®, o procedimento a utilizar foi o npmMosesTest, este procedimento
aceita como parâmetros as duas amostras, sendo a de controlo a primeira, e o h escolhido:
Primeiramente, criamos as duas listas e de seguida corremos o procedimento:
Amostra1 = 6, 5, 10, 7, 12, 3, 8
Amostra2 = 0, 4, 11, 18, 9, 19
rpmMosesTest amostra1, amostra2, 1
h = 1; Sh = 6
Nc = 7; Ne = 6; N = 13
Valor Unilateral de p: 0.179487
Valor Bilateral de p: 0.358974
Como podemos verificar, o Mathematica® dá-nos os valores de ambas a probabilidades
e as principais variáveis do teste. As vantagens deste procedimento são a rapidez e a precisão
dos valores dados.
3.4 Teste da Qui-Quadrado ( χ 2 ) para duas amostras independentes
O objectivo deste teste é de comprovar que dois grupos diferem em relação a
determinada característica e, consequentemente, com respeito à frequência relativa com que
os componentes dos grupos se enquadram nas diversas categorias. Para a comprovação,
contamos o número de casos de cada grupo que recai nas diversas categorias, e comparamos a
proporção de casos de um grupo nas diversas categorias, com a proporção de casos do outro
grupo.
A escala de medida pode ser em apenas nominal.
44
Capítulo 3: Caso de duas amostras independentes
Método:
Os passos a seguir para o teste são:
1. Enquadrar as frequências observadas numa tabela de contingência k × r . Utilizando
as k colunas para os grupos e as r linhas para as condições. Assim para este teste,
k = 2;
2. Determinar a frequência esperada ( Eij ) de cada célula fazendo o produto dos totais
marginais referentes a cada uma e dividindo-o por N. (N é o total de casos);
3. Para determinar o valor de χ 2 há que considerar dois casos:
Se r > 2 a fórmula será:
r
k (O − E )2
ij
ij
2
χ = ∑∑
E ij
i =1 j =1
(3.4.1)
Oij = número de casos observados na categoria i no grupo j
Eij = número de casos esperados na categoria i no grupo j sob H
0
k = número de grupos na classificação
r = número de categorias na classificação;
Se r = 2 então consideramos a seguinte tabela:
Tabela 3.4.1:
Grupo 1 Grupo 2 Total
Categoria 1
A
B
A+B
Categoria 2
C
D
C+D
Total
A+C
B+D
N
Então temos a fórmula:
2
N⎞
⎛
N ⎜ AD − BC − ⎟
2⎠
⎝
χ2 =
( A + B)(C + D )( A + C )( B + D)
(3.4.2)
Esta fórmula é um pouco mais fácil da aplicar do que a fórmula (3.4.1), pois
requer apenas uma divisão. Além disso, tem a principal vantagem de
45
Capítulo 3: Caso de duas amostras independentes
incorporar uma correcção de continuidade que melhora sensivelmente a
aproximação do χ 2 ;
4. Determinar a significância do valor observado de χ 2 com gl = ( r − 1)( k − 1) , com o
auxílio da tabela C. Para um teste unilateral basta dividir por dois o nível de
significância indicado. Se a probabilidade indicada na tabela for inferior a α ,
rejeitar a hipótese nula.
Exemplo 3.4.1:
Um investigador estudou a relação entre os interesses vocacionais e a escolha do
currículo, e a taxa de desistência do curso universitário por parte de estudantes bem dotados.
Os indivíduos observados eram estudantes classificados no mínimo de 90 pontos
percentuais nos testes de admissão e que haviam resolvido mudar de carreira após a matrícula.
o pesquisador comparou os estudantes destacados cuja a escolha curricular se manteve na
linha considerada desejável à vista do resultado obtido no Teste Vocacional de Strong (tais
casos sendo considerados como “positivos”) com os estudantes destacados cuja escolha
curricular se processou em sentido diverso do indicado pelo Teste de interesse. A hipótese do
investigador é que os estudantes cuja escolha foi considerada “positiva” acusam maior
frequência de permanência na faculdade ou no curso universitário inicialmente escolhido. Os
valores são dados na seguinte tabela:
Tabela 3.4.2:
Positivo Negativo Total
Afastamento
10
11
21
Permanência
46
13
59
Total
56
24
80
Resolução:
Formulamos as hipóteses:
H 0 : Não há diferenças entre os dois grupos no que diz respeito à proporção dos
estudantes que permanecem na faculdade.
46
Capítulo 3: Caso de duas amostras independentes
H 1 : A percentagem de permanência na faculdade é maior que os estudantes cuja a
escolha do currículo foi considerada “positiva”.
Iremos trabalhar com um nível de significância α = 0,05 .
Considerando os valores dados pela tabela ficamos com:
2
80 ⎞
⎛
80⎜ (10)(13) − (11)(46) − ⎟
2⎠
χ2 = ⎝
= 5,424
(21)(59)(56)(24)
A
p<
probabilidade
de
ocorrência,
sob
H0 ,
de
χ 2 ≥ 5,424
com
gl = 1
é
1
(0,02) = 0,01 . Como este valor é inferior a α = 0,05 , a decisão é rejeitar H 0 . Conclui2
se, pois, que os estudantes bem dotados cuja escolha de currículo foi considerando “positiva”
acusam maior frequência de permanência na universidade do que os estudantes bem dotados
cuja escolha foi considerada “negativa”.
No SPSS® temos o seguinte Output:
Output 3.4.1:
O SPSS® dá-nos o valor de χ 2 , com e sem o factor de correcção de continuidade e
calcula o valor assimptótico da probabilidade associada p = 0,009 .
O procedimento para o Mathematica®, que será descrito a seguir, serve só para as
tabelas de contingência 2× 2 . Este procedimento tem a particularidade de ter uma opção para
47
Capítulo 3: Caso de duas amostras independentes
a escolha dois tipos de correcção de continuidade: o método de Yates (1934) , já considerado
na fórmula 3.4.2, e o método de Haber2. Vejamos então para o exemplo acima considerado:
No caso de não escolhermos o método de correcção, o procedimento apenas calcula o
valor de p sem utilizar um dos factores de correcção:
rpmChiSquare2x2Test 10, 11, 46, 13
Title: Chi Square Test
Distribution: Chi Square
Correction: None
Two- Sided P- Value: 0.00915693
One- Sided P- Value: 0.00457847
rpmChiSquare2x2Test 10, 11, 46, 13 mthd®yates
Title: Chi Square Test
Distribution: Chi Square
Correction: Yates
Two- Sided P- Value: 0.0198649
One- Sided P- Value: 0.00993245
rpmChiSquare2x2Test 10, 11, 46, 13 mthd®haber
Title: Chi Square Test
Distribution: Chi Square
Correction: Haber
Two- Sided P- Value: 0.0125872
One- Sided P- Value: 0.00629361
Qualquer um dos três casos chega à decisão de rejeitar a hipótese nula. Assim
concluímos, que a percentagem de permanência na faculdade é maior que os estudantes cuja a
escolha do currículo foi considerada “positiva”. Note-se que qualquer dos valores é
semelhante.
Sendo assim o Mathematica® está em clara vantagem em relação à utilização da tabela
ou mesmo do SPSS®.
2
Considerando
O = min{Oij : i = 1,2, j = 1,2} temos:
Se
Oij ≤ 2O então D = maior múltiplo de 0.5 que é < Oij − O ou
se
Oij > 2O então D = Oij − O − 0.5 o teste estatístico fica:
χ H2 =
N 3D2
( A + B)(C + D)( A + C )( B + D)
48
Capítulo 4: Caso de k amostras relacionadas
CAPÍTULO 4: CASO DE K
AMOSTRAS RELACIONADAS
O objectivo principal dos testes que irão ser apresentados, é comprovar a hipótese de
que as k amostras tenham sido extraídas da mesma população ou de populações idênticas.
Há dois planos básicos para comprovar k grupos. No primeiro deles, as k amostras de
igual tamanho são postas em correspondência de acordo com determinado(s) critério(s) que
pode(m) afectar os valores das observações. Ou então cada um dos N grupos pode ser
mensurado sob todas as k condições. Em tais planos, devem-se usar os testes estatísticos aqui
apresentados.
4.1 Teste Q de Cochran
O modelo típico para o teste Q de Cochran (1950) envolve um conjunto de k ≥ 2
tratamentos que são aplicados independentemente para cada N indivíduos. Os resultados de
cada tratamento são guardados como uma variável dicotómica de sucesso e insucesso. Os uns
e zeros (que correspondem ao sucesso e insucesso respectivamente) são dispostos numa tabela
de contingência.
Deste modo, o teste de Cochran permite investigar quando um conjunto de k proporções
relacionadas difere significativamente.
Método:
Os passos a seguir para o teste são:
1. Para dados dicotomizados, atribuir o valor “1” a cada “sucesso” e o valor “0” a cada
“insucesso”;
2. Dispor os dados numa tabela k × N , com k colunas e N linhas. N = número de
casos em cada k grupos.
3. Determinar o valor Q utilizando a fórmula:
2
⎡ k
⎞ ⎤
⎛ k
2
(k − 1)⎢k ∑ G j − ⎜⎜ ∑ G j ⎟⎟ ⎥
⎢⎣ j =1
⎝ j =1 ⎠ ⎥⎦
Q=
N
N
2
k ∑ Li − ∑ Li
i =1
(4.1.1)
i =1
50
Capítulo 4: Caso de k amostras relacionadas
onde: G j é a soma dos valores das j colunas;
Li é a soma dos valores das i linhas.
4. a significância do valor observado de Q pode ser determinada mediante referência à
tabela C, pois Q tem distribuição aproximadamente Qui-Quadrado com gl = k − 1 .
Se a probabilidade associada à ocorrência, sob H 0 , de um valor tão grande quanto
um valor observado de Q não supera α , rejeita-se a hipótese nula.
Exemplo 4.1.1:
Cada um dos quatro fãs de futebol criou um sistema para antever os resultados dos
jogos da 1ª liga. Foram escolhidos ao acaso seis jogos, e cada um dos fãs anteviu o resultado
de cada jogo. Os resultados dos prognósticos foram dispostos numa tabela, utilizando “1”
para um prognóstico bem sucedido e “0” para um prognóstico falhado. Os resultados são
apresentados na tabela 4.1.1. Queremos testar a hipótese de que cada fã tem um sistema de
igual efeito para antever os resultados dos jogos com um nível de significância de 5%.
Tabela 4.1.1:
Fãs
Jogos
1
2
3
4
Totais
1
1
1
0
0
2
2
1
1
1
0
3
3
1
1
1
0
3
4
0
1
1
0
2
5
0
1
0
0
1
6
1
1
0
1
3
Totais
4
6
3
1
14
51
Capítulo 4: Caso de k amostras relacionadas
Resolução:
As hipóteses são as seguintes:
H 0 : Cada fã tem um sistema de igual efeito para antever os resultados dos jogos de
futebol.
H 1 : Existe diferenças nos efeitos dos sistemas criados pelos fãs.
Primeiro dispomos os resultados de novo numa tabela, que será apenas uma
modificação da tabela 4.1.1:
Tabela 4.1.2:
Fãs
Jogos
1
2
3
4
Li
Li 2
1
1
1
0
0
2
4
2
1
1
1
0
3
9
3
1
1
1
0
3
9
4
0
1
1
0
2
4
5
0
1
0
0
1
1
6
1
1
0
1
3
9
Gj
4
6
3
1
14
36
Gj2
16
36
9
1
62
Então, após o cálculo dos somatórios temos, com o auxílio da fórmula 4.4.1:
Q=
[
]
3 × 4 × 62 − (14)
= 7,8
4 × 14 − 36
2
Calculamos agora a significância do valor observado, com a ajuda da tabela C:
gl = 4 − 1 = 3
Assim, como 0,02 ≤ p ≤ 0,05 e α = 0,05 , rejeitamos a hipótese, concluindo que existe
diferenças nos efeitos dos sistemas criados pelos fãs.
52
Capítulo 4: Caso de k amostras relacionadas
No SPSS® temos os seguintes resultados:
Output 4.1.1:
Output 4.1.2:
De facto, p está entre 0,01 e 0,05, mas teremos maior certeza de rejeitar a hipótese nula
se activássemos a opção de fazer um teste com maior precisão como consta no Output 4.1.2.
No Mathematica®, utilizaremos a função npmCochransQTest:
resultados = 1, 1, 0, 0 , 1, 1, 1, 0 , 1, 1, 1, 0 , 0, 1, 1, 0 , 0, 1,
0, 0 , 1, 1, 0, 1
rpmCochransQTest resultados , mthd®approx
Title: Cochran Q Test
Test Statistic: 7.8
Column Totals: 4, 6, 3, 1
Distribution: Chi Square
PValue: 0.0503311
rpmCochransQTest resultados , mthd®exact
Title: Cochran Q Test
Test Statistic: 7.8
Column Totals: 4, 6, 3, 1
Distribution: Exact
PValue: 0.0481771
Foi introduzida a tabela na lista “resultados”. Com a opção para approx, obtemos um
valor aproximado de p = 0,053311 , baseado na distribuição da Qui-Quadrado com três graus
de liberdade, com este valor aceitava-se a hipótese nula o que seria um erro. Porém,
rejeitávamos (com α = 0,05) se escolhêssemos o método exacto.
53
Capítulo 4: Caso de k amostras relacionadas
Para concluir, o Mathematica® é, de facto, o mais indicado para os cálculos, porque dános os valores com maior precisão, embora os dois resultados originassem respostas
diferentes. Cabe ao investigador escolher.
4.2 Teste de Friedman
Quando os dados de k amostras correspondentes se apresentam pelo menos em escala
ordinal, o teste de Friedman (1937) é útil para comprovar de que as k amostras tenham sido
extraídas da mesma população.
Método:
Os passos a seguir para o teste são:
1. Dispor os valores numa tabela de dupla entrada com k colunas e N linhas;
2. Atribuir postos de 1 a k aos valores de cada linha;
3. Determinar a soma dos postos da cada coluna: R j ;
4. Calcular o valor de χ r2 , pela fórmula:
χ 2r =
k
12
(R j )2 − 3N (k + 1)
∑
Nk (k + 1) j =1
(4.2.1)
onde: N é o número de linhas;
k é o número de colunas;
R j a soma das ordens na coluna.
5. O método para determinar a probabilidade de ocorrência sobre a hipótese nula
associado a valor observado de χ r2 depende dos tamanhos de N e k:
i. A tabela N dá-nos as probabilidades exactas associadas a valores tão grandes
quanto um χ r2 observado para k=3 com N de 2 a 9 e para k=4 com N de 2 a 4.
Caso os valores tenham excedidos os valores da tabela N, a probabilidade
associada pode ser determinada mediante referência à distribuição QuiQuadrado (Tabela C) com gl = k − 1 ;
6. Se a probabilidade obtida pelo método adequado indicado no item 5 não superar α,
rejeita-se H0.
54
Capítulo 4: Caso de k amostras relacionadas
Exemplo 4.2.1:
A fim de avaliar se houve progressão na aprendizagem, um professor reteve as médias
de um grupo de 4 alunos no final de cada trimestre:
Tabela 4.2.1:
Alunos
A
B
C
D
1º Trimestre
8
15
11
7
2º Trimestre
14
17
13
10
3º Trimestre
15
17
14
12
Considerando um α = 0,05 , que conclusão poderá tirar?
Resolução:
Hipóteses:
H 0 : Não houve progressão na aprendizagem ao longo do ano escolar;
H 1 : Houve progressão ao longo do ano escolar.
Atribuímos os postos através da seguinte tabela e calculamos as somas:
Tabela 4.2.2:
Alunos 1º Trimestre 2º Trimestre
3º Trimestre
A
1
2
3
B
1
2.5
2.5
C
1
2
3
D
1
2
3
Rj
4
8.5
11.5
16
72.25
132.25
Rj
2
Assim, fica:
N = 4 e k = 3 então χ r =
2
12
× [16 + 72,25 + 132,25] − 3 × 4 × (3 + 1) = 7,125
4 × 3× 4
55
Capítulo 4: Caso de k amostras relacionadas
Com o auxílio da Tabela N temos 0,0046 ≤ p ≤ 0,042 . Assim, com α = 0,05 ,
rejeitamos a hipótese nula, concluindo que houve progressão na aprendizagem ao longo do
ano escolar.
No SPSS®, chegamos à mesma conclusão, pois, dá-nos um p = 0,022 .
Output 4.2.1:
No Mathematica®, dá-nos a aproximação à Qui-Quadrado, sendo o valor mais preciso
do que o SPSS®.
medias = 8, 15, 11, 7, 14, 17, 13, 10, 15, 17, 14, 12
rpmFriedmanTest = medias
Title: Friedman Test
Sample Medians: 12, 13.5, 14.5
Test Statistic: 7.6
Distribution: ChiSquare
PValue: 0.0223708
56
Capítulo 5: Caso para k amostras independentes
CAPÍTULO 5: CASO DE K
AMOSTRAS INDEPENDENTES
Na análise de dados de pesquisa, o pesquisador frequentemente precisa decidir se
diversas variáveis independentes devem ser consideradas como proveniente da mesma
população. Os valores amostrais quase sempre são um tanto diferentes, e o problema é
determinar se as diferenças amostrais observadas sugerem realmente diferenças entre as
populações ou se são apenas variações casuais que podem ser esperadas entre amostras
aleatórias da mesma população.
5.1 Teste de Kruskal-Wallis
O objectivo do teste de Kruskal-Wallis (1952) é ver se as diferentes k amostras provêem
da mesma população ou de populações idênticas em relação às médias.
O teste supõe que a variável tenha distribuição contínua, e exige mensuração no mínimo
ao nível ordinal.
Método:
São os seguintes passos a percorrer:
1. Dispor, em postos, as observações de todos os k grupos numa única série,
atribuindo-lhes postos de 1 a N;
2. Determinar o valor de R (soma dos postos) para cada um dos k grupos de postos;
3. Caso não ocorram empates, calcular o valor de H pela seguinte fórmula:
2
k R
12
j
H=
− 3( N + 1)
∑
N ( N + 1) j =1 n j
onde: k = número de amostras;
(5.1.1)
n j = número de casos na amostra j
N = ∑ n j , número de casos em todas as amostras combinadas;
R j = soma das ordens na amostra j (colunas).
Se houver empates, atribui-se a cada uma delas a média das respectivas ordens. O
valor de H é influenciado pelos empates, sendo assim, é necessário introduzir um
factor de correcção. Deste modo, para o calculo de H deve-se utilizar a fórmula:
57
Capítulo 5: Caso para k amostras independentes
2
H=
k R
12
j
− 3( N + 1)
∑
N ( N + 1) j =1 n j
1−
∑T
(5.1.2)
N3 − N
onde: T = t 3 − t (sendo o número de observações empatadas num grupo de valores
empatados);
4. O método para determinar a significância do valor observado de H depende do
tamanho de k e do tamanho dos grupos:
i. Se k = 3 e n1 , n2 , n3 ≤ 5 , pode-se utilizar a tabela O para determinar a
probabilidade associada, sob H 0 , de um H tão grande quanto o observado;
ii. Em outros casos, a significância de um valor tão grande quanto o valor
observado de H pode ser determinado mediante referência à tabela C, com
gl = k − 1 ;
5. Se a probabilidade associada ao valor observado de H não superar o nível de
significância previamente fixado, rejeitar H 0 em favor de H 1 .
Exemplo 5.1.1:
Em 1996 nas semifinais da corrida de obstáculos a cavalo femininos de 400 metros os
tempos foram os seguintes:
Tabela 5.1.1:
Atleta 1
54.88 54.96 55.91 55.99 56.67 57.29
Atleta 2
54.67 54.87 54.95 56.27 58.33 81.99
Atleta 3
55.66 56.46 56.74 57.86 58.90 59.56
Utilize o teste de Kruskal-Wallis, com α = 0,05 , para testar se existe diferenças entre as
atletas.
Resolução:
As hipóteses a testar são:
H 0 : Não há diferenças entre as atletas;
H 1 : Há diferenças entre as atletas.
Dispomos os postos consoante os dados:
58
Capítulo 5: Caso para k amostras independentes
Tabela 5.1.2:
54.88
Atleta 1
Posto
Atleta 2
Posto
Atleta 3
Posto
54.96
3
54.67
55.91
5
54.87
1
55.66
7
54.95
2
56.46
6
55.99
8
56.27
4
56.74
10
56.67
11
58.33
9
57.86
12
57.29
13
81.99
15
58.90
14
18
59.56
16
17
R1 = 47
R2 = 49
R3 = 75
Como não há empates, calculamos H pela fórmula 5.1.1:
H=
⎡ 47 2 49 2 75 2 ⎤
12
+
+
⎥ − 3(18 + 1) = 2,854
⎢
(18)(18 + 1) ⎣ 6
6
6 ⎦
A partir da tabela C, observamos que o valor de p está entre 0,3 e 0,2, concluindo, a um
nível de significância de 0,05, que não há diferenças entre as atletas.
No SPSS temos o mesmo resultado mas com maior rigor e rapidez, pois sabemos agora
que p = 0,24 :
Output 5.1.1:
No Mathematica® o resultado apresenta-se com maior número de casas decimais:
rpmKruskalWallisTest tabela
Title: Kruskal Wallis Test
Sample Medians: 55.9, 55.61, 57.3
Test Statistic: 2.8538
Distribution: Chi Square
PValue - > 0.240052
59
Capítulo 6: Medidas de Correlação
CAPITULO 6: MEDIDAS DE CORRELAÇÃO
6.1 Coeficiente de Correlação por postos de Kendall: τ
Suponhamos que um número de alunos está classificado por postos de acordo com as
suas habilidades em matemática e em música. A seguinte tabela mostra os valores de cada
aluno designado por letras:
Tabela 6.1.1:
Aluno:
A
B
C
D
E
F
G
H
I
J
Matemática:
7
4
3
10
6
2
9
8
1
5
Música:
5
7
3
10
1
9
6
2
8
4
Queremos saber se há alguma relação entre a habilidade na matemática e na música.
Observando os resultados da tabela anterior, vemos que a concordância entre eles está longe
de ser perfeita, mas alguns alunos ocupam a mesma ou perto da mesma posição entre as duas
disciplinas. Podemos ver a correspondência mais facilmente se na tabela for dada uma ordem
natural aos resultados de matemática:
Tabela 6.1.2:
Aluno:
I
F
C
B
J
E
A
H
G
D
Matemática:
1
2
3
4
5
6
7
8
9
10
Música:
8
9
3
7
4
1
5
2
6
10
O que queremos saber é uma medida de correspondência entre estas duas variáveis, ou
medir a intensidade da correlação dos postos. esta medida (que será um coeficiente que
designamos por τ ) deve ter as seguintes propriedades:
ƒ Se a correspondência entre os postos for perfeita, por exemplo, se todos os indivíduos
tiverem o mesmo posto nas duas disciplinas, τ deve ser +1, indicando uma correlação
perfeita positiva;
ƒ Se houver uma discordância perfeita, por exemplo, se um dos postos for o inverso do
outro, τ deve ser –1, indicando uma correlação perfeita negativa;
ƒ Se houver um crescimento do valor de τ entre –1 e 1, então deve corresponder a um
acréscimo na relação entre as duas variáveis.
60
Capítulo 6: Medidas de Correlação
Consideremos qualquer par de alunos da tabela 6.1.1, por exemplo, o par AB. Os seus
postos, 7 e 4, ocorrem em ordem inversa (a ordem natural 1,...,10 é a ordem directa) e
consequentemente atribuímos o valor a este par –1. Se o par estivesse em ordem directa,
deveríamos atribuir +1. Na segunda variável (música) no par AB os postos estão em ordem
directa, deste modo, atribuímos +1.
Agora, multiplicamos os dois valores do par que dá (-1)(+1)=-1. É evidente que para
cada par os valores seria +1 e –1, que significaria que ambas as variáveis estavam (+1) ou não
(-1) iguais em termos de ordem.
O mesmo procedimento é feito para todos os 45 pares.
O total de resultados positivos são P = 21 e os negativos são − Q = −24 . Adicionando
os dois temos o resultado final S = −3 .
See os postos são idênticos em cada um, e se os 45 valores forem positivos então o valor
máximo de S é 45. Portanto calculamos o valor τ como:
máximo
Resultado actual
3
=−
= −0,07
Resultado máximo possível
45
O valor próximo de zero indica que existe uma correlação muito pequena entre as duas
variáveis.
Consideremos o caso geral. Se tivermos duas variáveis com n valores para comparar. O
⎛n⎞ 1
número de pares para comparar é ⎜⎜ ⎟⎟ = n(n − 1) . Este é o número máximo de resultados
⎝ 2⎠ 2
possíveis. Se S é a soma dos resultados obtidos, então definimos o coeficiente de correlação
como:
τ=
2S
n(n − 1)
(6.1.1)
Existe um modo prático de determinar o valor de S (número de resultados positivos):
Considerando a tabela 6.1.2. em que a primeira variável (matemática) está na ordem
natural, a segunda variável apresenta a seguinte sequência:
8 9 3 7 4 1 5 2 6 10
Considerando o primeiro valor, 8, observamos que na direita existe dois valores
maiores. Então contribui-se para P o valor +2. Tendo em atenção o 9, encontramos, à direita,
a contribuição de +1 para P e assim sucessivamente. Assim temos o valor de P que é
61
Capítulo 6: Medidas de Correlação
P = 2 + 1 + 5 + 1 + 3 + 4 + 2 + 2 + 1 = 21 consequentemente,
⎛n⎞
S = 2 P − ⎜⎜ ⎟⎟
⎝ 2⎠
(6.1.2)
Método:
1. Atribuir postos de 1 a n à variável X. Atribuir também à variável Y postos de 1 a n.
Note-se que na tabela 6.1.1 os postos já foram atribuídos;
2. Ordenar os n indivíduos de maneira que os postos de X se apresentam na ordem
natural. No exemplo acima referido será a tabela 6.1.2;
3. Observar a ocorrência dos postos de Y quando os postos de X se acham na ordem
natural. Determinar o valor de S (soma dos resultados de todos os pares) pelo
processo acima descrito;
4. Se não há empates, aplicar a fórmula 6.1.1.
Em caso de haver observações empatadas, atribuímos às observações empatadas a média
dos postos que lhe caberiam se não houvesse empate.
O efeito dos empates consiste em modificar o denominador da fórmula 6.1.1. Neste
caso temos:
S
τ=
(6.1.3)
1
1
n(n − 1) − Tx
n(n − 1) − T y
2
2
onde: Tx = 12 ∑ t (t − 1) , t sendo o número de observações empatadas em cada grupo
de empates na variável X.
Ty =
1
2
∑ t (t − 1) , t sendo número de observações empatadas em cada grupo de
empates na variável Y.
Se os n indivíduos constituem uma amostra aleatória de alguma população, pode-se
comprovar se o valor observado de τ indica existência de associação entre as variáveis X e Y
na população. O método depende do tamanho de n:
1. Para n ≤ 10. a tabela Q dá a probabilidade associada (unilateral) a um valor tão
grande quanto um S observado;
2. Para n>10, pode-se calcular o valor de z associado a τ pela fórmula:
62
Capítulo 6: Medidas de Correlação
z=
τ
2(n + 5)
9n(n − 1)
(6.1.4)
A tabela A dá a probabilidade associada a um valor tão grande quanto um z observado.
Se o valor de p não superar α , H 0 pode ser rejeitada.
Retomando o exemplo da tabela 6.1.1, vejamos o que acontece no SPSS®:
Output 6.1.1:
O coeficiente ( τ ) é dado com maior precisão e, claro, com rapidez. O SPSS® também
dá-nos o valor da probabilidade associada, assim podemos comprovar se o coeficiente indica
existência ou não de associação entre as variáveis. Neste caso, p > α , sendo ele de 0.05,
podemos concluir que o coeficiente indica existência de associação.
O Mathematica®, com a função KendallRankCorrelation, dá-nos apenas o coeficiente,
mas é neste software que consegue-se maior precisão
N KendallRankCorrelation 7, 4, 3, 10, 6, 2, 9, 8, 1, 5, 5, 7, 3, 10,
1, 9, 6, 2, 8, 4
- 0.0666667
63
Capítulo 6: Medidas de Correlação
6.2 Coeficiente de Correlação por postos de Spearman: rS
É uma medida de associação que exige que ambas as variáveis se apresentem em escala
ordinal, de modo que os objectos ou indivíduos em estudo possam dispor-se por postos em
duas séries ordenadas.
Consideremos a tabela 6.1.1, vamos subtrair os postos da música pelos de matemática e
amostrar os resultados na seguinte tabela:
Tabela 6.2.1:
Aluno:
A
B
C
D
E
F
G
H
I
J
Matemática:
7
4
3
10
6
2
9
8
1
5
Música:
5
7
3
10
1
9
6
2
8
4
di
2
-3
0
0
5
-7
3
6
-7
1
di 2
4
9
0
0
25
49
9
36
49
1
O somatório das diferenças d i deve dar zero (serve como ferramenta de verificação),
porque é a soma das diferenças de duas quantidades que cada uma delas vai de 1 a 10.
Também na tabela mostra o quadrado das diferenças. Denotando o somatório destas
n
diferenças por
∑d
i =0
2
i
definimos o coeficiente de Spearman como
n
rs = 1 −
6∑ d i
2
i =0
n3 − n
Da qual, aplicada ao exemplo, fica
rS = 1 −
(6.2.1)
6(4 + 9 + 0 + 0 + 25 + 49 + 9 + 36 + 49 + 1)
= −0,103
10 3 − 10
Método:
1. Dispor em postos a variável X, de 1 a n. O mesmo para a variável Y;
2. Determinar o valor das diferenças de cada indivíduo e elevá-lo ao quadrado (Como
mostrado na tabela 6.2.1);
3. Calcular rS aplicando a fórmula (6.2.1).
64
Capítulo 6: Medidas de Correlação
Caso haja empates: Quando a proporção de empates na variável X ou na variável Y é
grande, deve-se incorporar um factor de correcção T =
t3 − t
, onde t é o número de
12
observações empatadas em determinado posto. Assim, temos a fórmula de rs para o caso de
empates:
n
rS =
∑ x2 + ∑ y 2 − ∑ di
2
2
∑x ∑y
2
n3 − n
∑ x = 12 − ∑ Tx e
2
onde:
em que
∑T
(6.2.2)
i =1
2
x ou y
n3 − n
∑ y = 12 − ∑ Ty
2
é o somatório sobre os vários valores de T para todos os grupos de
observações empatadas.
Se os indivíduos constituem uma amostra aleatório de uma população, pode-se
comprovar se o valor observado de rS indica a existência de associação entre as variáveis X e
Y na população. O método depende do tamanho de n:
1. Para n de 4 a 30, a tabela P, dá os valores críticos de rS para níveis de significância
0,05 e 0,01 (teste unilateral).
2. Para n ≥ 10 , pode-se determinar a significância de um valor tão grande quanto um
rS observado calcula-se o valor de t associado aquele valor, pela fórmula:
n−2
(6.2.2)
≈ t ( n−2)
2
1 − rS
Em seguida determina-se a significância do valor com o auxilio da tabela B.
t = rS
Através do SPSS®, constatamos o mesmo valor calculado anteriormente:
Output 6.2.1:
65
Capítulo 6: Medidas de Correlação
É também apresentado a significância do coeficiente que, neste caso, com um α = 0,05 ,
podemos concluir que o valor indica a existência de associação entre as variáveis.
No Mathematica® apenas é fornecido o coeficiente, mas com maior número de casas
decimais:
N SpermanRankCorrelation 7, 4, 3, 10, 6, 2, 9, 8, 1, 5, 5, 7, 3, 10,
1, 9, 6, 2, 8, 4
- 0.10303
6.3 Coeficiente de Concordância de Kendall: W
Já conhecemos dois coeficientes ( τ e rS ) para a determinação da concordância entre
dois conjuntos de postos. Suponhamos que temos k conjuntos de postos, poderia parecer
razoável determinar os coeficientes entre todos os pares possíveis de postos e então calcular a
média entre eles para saber o grau de concordância das k amostras. Adoptando tal método,
⎛k ⎞
teremos que calcular ⎜⎜ ⎟⎟ coeficientes de correlação de postos o que seria impraticável se k
⎝ 2⎠
tomar valores muito grandes.
O cálculo de W é muito mais simples:
Método:
1. Se n é o número de objectos ou indivíduos a serem classificados em postos, e k o
número de juízes classificadores. Dispor os postos observados numa tabela k × n ;
2. Para cada indivíduo, ou objecto, determinar R j , soma dos postos atribuídos àquele
indivíduo pelos k juízes;
3. Determinar S pela fórmula seguinte:
2
n
⎛
⎞
Rj ⎟
⎜
∑
n
j =1
⎜
⎟
S = ∑⎜ Rj −
n ⎟
j =1
⎜⎜
⎟⎟
⎝
⎠
4. Calcular o valor de W utilizando a fórmula:
W =
S
1 2 3
k ( n − n)
12
(6.3.1)
(6.3.2)
66
Capítulo 6: Medidas de Correlação
Se houver observações empatadas, atribui-se a elas a média dos postos que lhes
caberiam se não houvesse empates. Introduz-se um factor correctivo na fórmula.
∑ (t
T=
3
−t
)
(6.3.3)
12
onde t é o número de observações empatadas em relação a um dado posto e ∑ será a soma
de todos os grupos de empates dentro de qualquer um dos k conjuntos de postos.
Com a correcção para empates incorporada, o coeficiente de concordância de Kendall é
S
W =
(6.3.4)
1 2 3
k ( n − n) − k ∑ T
12
T
onde ∑ T é o somatório sobre todos os valores de T para todos os k conjuntos de postos.
T
Podemos comprovar a significância de qualquer valor observado de W determinando a
probabilidade associada à ocorrência, sob H 0 , de um valor tão grande quanto o S a que está
associado. A determinação da probabilidade depende de n:
1. Se n ≤ 7 , a tabela R dá os valores críticos de S associado com os W’s significativos
aos níveis 0.05 e 0.01;
2. Se n > 7 , podemos utilizar a fórmula:
χ2 =
S
(6.3.5)
com gl = n – 1
1
kn(n + 1)
12
Se o valor do χ 2 é igual ou superior ao valor exibido na tabela C para um dado nível
de significância e com n-1 graus de liberdade, então H 0 (de que não há relacionamento entre
os k conjuntos de postos) pode ser rejeitada.
Exemplo 6.3.1:
Sete empresas foram avaliadas em três critérios (P - Produtividade, Q - Qualidade do
serviço e M – Motivação dos colaboradores) para análise das suas performances no mercado
onde estão inseridas. A tabela seguinte apresenta os resultados obtidos:
67
Capítulo 6: Medidas de Correlação
Tabela 6.3.1:
Empresa
Critérios
P
A
B
C
D
E
F
G
65
52
80
48
92
77
68
Q
58
45
76
58
88
88
55
M
70
56
83
61
75
70
70
Calcular o coeficiente de concordância de Kendall.
Resolução:
Primeiramente atribuímos os postos em cada critério e de seguida calculamos a soma
dos postos por empresa:
Tabela 6.3.2:
Empresa
Critérios
P
A
B
C
D
E
F
G
3
2
6
1
7
5
4
Q
3.5
1
5
3.5
6.5
6.5
2
M
4
1
7
2
6
4
4
Rj
10,5
4
18
6,5 19,5 15,5
10
A média das somas dos postos de cada empresa é calculada de seguida:
7
∑R
j =1
j
7
=
10,5 + 4 + 18 + 6,5 + 19,5 + 15,5 + 10 84
=
= 12
7
7
Portanto o valor de S é
S = (10,5 − 12) 2 + (4 − 12) 2 + (18 − 12) 2 + (6,5 − 12) 2 + (19,5 − 12) 2 + (15,5 − 12) 2 +
+ (10 − 12) 2 = 205
De seguida calculamos os valores para os empates:
Sendo TQ =
(2 3 − 2) + (2 3 − 2)
(33 − 3)
= 1 e TM =
= 2 então
12
12
∑T = 1 + 2 = 3
T
Logo, obtemos o coeficiente pela fórmula 6.3.4:
68
Capítulo 6: Medidas de Correlação
W=
205
1
(3) 2 (7 3 − 7) − 3(3)
12
= 0.844
Concluímos, assim, que existe uma forte correlação entre as diversas empresas.
No SPSS®, era muito mais fácil, pois, não teríamos que efectuar muitos cálculos com a
vantagem de não haver erros desnecessários.
Output 6.3.1:
Através do “Output” podemos concluir, além da já mencionada correlação, que esta
medida é significante para medir o grau de correlação entre as 7 amostras.
69
Conclusão
CONCLUSÃO
Após esta explanação, dos vários métodos para a estatística não paramétrica, com abordagem
de dois softwares de aplicação nos vários métodos, podemos tirar várias conclusões.
Estas conclusões são apresentadas de seguida em formato de quadro resumo. Cada quadro irá
conter os diferentes métodos nas linhas e os métodos de resolução, quer do método tradicional
(Tabelas), quer a utilização do computador, nas colunas. O quadro irá conter as principais
características para cada método em particular.
Quadro 1: Caso de uma amostra
Processo de
Resolução:
Tabelas
Teste da Binomial
ƒ Nem sempre é
possível determinar
o valor exacto de p;
ƒ Apenas para
pequenas amostras;
ƒ Recorre-se à tabela
A.
Qui-Quadrado
para uma
amostra
KolmogorovSmirnov para
uma amostra
Iterações para
uma amostra
ƒ Não calculamos o
valor de p, apenas
temos um intervalo;
ƒ Utiliza-se a tabela C.
ƒ Não calculamos o
valor de p, apenas
temos um intervalo;
ƒ Utiliza-se a tabela
E;
ƒ Não calculamos o
valor de p, apenas
temos um intervalo
das iterações;
ƒ Utiliza-se a tabela
F.
SPSS®
Mathematica®
ƒ Valor de p com
precisão e rapidez
ƒ Fornece dados em
relação à amostra.
ƒ Pode-se utilizar
para grandes
amostras;
ƒ O valor de p é
apresentado com
maior n.º de casas
decimais.
ƒ Calcula um valor
assimptótico;
ƒ Dá-nos algumas
informações do teste
(ex.: valor esperado,
graus de liberdade).
ƒ Dá-nos a dimensão
da amostra, as
diferenças máximas;
ƒ Calcula o valor de p
assimptótico.
ƒ Dá-nos o valor de r,
e da probabilidade
assimptótica.
ƒ Dá o valor de p
com exactidão.
Não foi possível
conseguir um
procedimento que
fizesse o teste.
ƒ Após a conversão
para zeros e uns,
calcula a
probabilidade e o
número de iterações.
70
Conclusão
Quadro 2: Caso de duas amostras relacionadas
Processo de
Resolução:
Tabelas
Teste dos sinais
ƒ Nem sempre é
possível determinar
o valor exacto de p;
ƒ Só para dimensões
menores que 25;
ƒ Recorre-se à tabela
D.
Teste de
McNemar
Teste de
Wilcoxon
ƒ É empregue a
fórmula 2.2.1 que
dá-nos o resultado
que, posteriormente,
é comparado com
valores da tabela C;
ƒ Não temos o cálculo
de p.
ƒ Não calculamos o
valor de p, apenas
comparamos o valor
de T calculado com
os tabelados na
tabela G;
SPSS®
ƒ Utiliza a
distribuição Binomial
para o cálculo da
probabilidade
ƒ Fornece dados em
relação ao teste:
empates, sinais
positivos e negativos.
ƒ Calcula um valor
assimptótico,
utilizando a
distribuição Binomial.
ƒ O cálculo do valor
assimptótico de p é
baseado nos números
negativos.
Mathematica®
ƒ Utiliza também a
distribuição binomial
para o cálculo de p;
ƒ O valor de p é o mais
preciso com maior
n.º de casas decimais.
ƒ O calculo de p é
feito através de
procedimento
npmBinomialPValue
[], o mesmo da
Binomial.
ƒ Não foi possível
conseguir um
procedimento.
71
Conclusão
Quadro 3: Caso de duas amostras independentes
Processo de Resolução:
Teste de WaldWolfowitz
Teste U de
Mann-Whitney
Tabelas
ƒ Recorre-se à tabela
F, caso as dimensões
não superar 20, neste
caso não se calcula o
valor da
probabilidade,
apenas compara-se o
número de iterações.
Caso contrário,
recorre-se à tabela
A.
ƒ Calculamos o valor
de U recorrendo à
fórmula 3.2.1, que,
posteriormente, é
comparado com os
valores apresentados
na tabela K e J.
Teste de Moses para
reacções extremas
Não é preciso tabelas,
apenas recorre-se à
fórmula 3.3.2 para o
cálculo de p;
Qui-Quadrado duas
amostras
independentes
ƒ Não calculamos o
valor de p, apenas
temos um intervalo;
ƒ Utiliza-se a tabela C.
SPSS®
Mathematica®
ƒ Fornece o número
mínimo de iterações e
o número máximo,
calculando para cada
um deles a
probabilidade
associada.
Não foi possível
conseguir um
procedimento que
fizesse o teste.
ƒ Calcula o valor de
U e o valor de p, quer
assimptótico, quer
exacto.
ƒ Calcula o valor
aproximado da
probabilidade com
maior número de
casas decimais.
ƒ Dá-nos a dimensão
da amostra, as
diferenças máximas;
ƒ Calcula o valor de p
assimptótico.
ƒ Calcula o valor
aproximado da
probabilidade
associada.
ƒ O processo é o
mesmo do manual,
mas com a vantagem
de não haver erros;
ƒ Mais rápido.
ƒ Calcula o valor de
p de três modos:
1. Sem correcção;
2. Correcção de
Yates;
3. Correcção de
Haber.
Mas, só para tabela
2x2.
72
Conclusão
Quadro 4: Caso de k amostras
Processo de
Resolução:
Teste Q de Cochran
(Amostras
relacionadas)
Teste Friedman
(Amostras
relacionadas)
Teste de KruskalWallis
(Amostras
independentes)
Tabelas
ƒ Recorre-se à tabela
C, para o cálculo da
probabilidade de
ocorrência de Q.
ƒ Calculamos um
intervalo para a
probabilidade com o
auxílio da tabela N.
ƒ Recorre-se à
Tabela O para o
cálculo da
probabilidade;
ƒ as amostras só
podem ser no
máximo dimensão
não superior a cinco.
SPSS®
Mathematica®
ƒ Podemos escolher
entre um teste exacto e ƒ Igual ao SPSS®, mas
um teste assimptótico;
com maior precisão.
ƒ Calcula o valor de Q
ƒ Calcula o valor de p
ƒ Do mesmo modo
recorrendo à Quique o SPSS®, mas
Quadrado com k-1
com maior precisão.
graus de liberdade.
ƒ Calcula um valor
aproximado da
probabilidade,
recorrendo à QuiQuadrado com k-1
graus de liberdade.
ƒ Igual ao SPSS, mas
com maior rigor.
SPSS®
Mathematica®
Quadro 5: Medidas de Correlação
Processo de
Resolução:
Coeficiente de
correlação por postos
de Kendall: τ
Coeficiente de
correlação por postos
de Spearman ( rS )
Coeficiente de
concordância de
Kendall (W)
Tabelas
ƒ Recorre-se à tabela
O, estando limitado a ƒ Calcula o coeficiente e
dimensões não
também a
superiores a 10;
probabilidade
associada sob a
ƒ Para o cálculo do
hipótese nula.
coeficiente pode
haver erro.
ƒ Calcula o
ƒ Recorre-se à tabela P
coeficiente, como
para os valores
também a sua
críticos de rS .
probabilidade
associada.
ƒ Calcula o
ƒ Fácil cometer erros
coeficiente e a
probabilidade
no calculo do
associada;
coeficiente,
principalmente em
ƒ Apresenta a média
caso de empate.
dos postos para cada
amostra;
ƒ Apenas dá o
coeficiente;
ƒ O coeficiente é
apresentado com
maior número de
casas decimais.
ƒ Apenas dá o
coeficiente.
Não foi possível
apresentar um
procedimento que
calcula-se o
coeficiente.
Se observarmos atentamente este resume, compreendemos que as tabelas estão inadequadas
para amostras de grandes dimensões, a melhor solução para este problema será recorrer ao
computador.
73
Conclusão
O SPSS® é mais fácil de trabalhar, pois apresenta um ambiente de fácil utilização, tornandose uma ferramenta “popular”. O “output” de cada teste tem a vantagem de poder ser
formatado ao gosto do utilizador. Este trabalho desenvolvido, é apenas uma ínfima parte do
que o SPSS® pode fazer no campo da Estatística.
O Mathematica® é uma ferramenta preciosa na Matemática e em particular para a Estatística
Não Paramétrica, pois poder-se-á desenvolver função para testar hipóteses utilizando os
diferentes métodos da Estatística.
Os procedimentos, aqui utilizados, apresentam resultados com mais precisão do que o
SPSS®, podendo escolher o número de casas decimais com a função N[]. A programação
destes procedimentos encontra-se em anexo.
74
Bibliografia
BIBLIOGRAFIA
Gibbons, Jean Dickinson e Chakraborti, Subhabrata, (1991) Nonparametric Statistical
Inference, Third Edition, Dekker, Estados Unidos da América;
Siegel, Sidney, (1975) Estatística
comportamento, McGraw-Hill, Brasil;
Daniel, W. W., Applied Nonparametric Statistic, Second Edition, PWS-Kent, Estados
Unidos da América;
Wonnacott, Thomas H. e Wonnacott, Ronald J., Introductory Statistic, Fifth Edition;
Kendall, Maurice e Gibbons, Jean Dickinson, (1990) Rank Correlation Methods, Fifth
Edition, Oxford University Press, Estados Unidos da América;
Kotz, Samuel e Johnson, Norman L., (1982) Encyclopedia of Statistical Sciences,
Volume 2, Wiley-Interscience, Estados Unidos da América;
Mello, F. Galvão de Mello, Probabilidades e Estatística conceitos e métodos
fundamentais, volume I e II, Escobar Editora;
Abell, Martha L., Braselton, James P. e Rafter, John A., (1999) Statistic with
Mathematica®, Academic Press, Estados Unidos da América;
Sernadas, A. e Sernadas C., (1996) Programação em Mathematica, Secção de Ciências
da Computação, Departamento de Matemática IST, Lisboa;
Carmo, José, (1998) Introdução à Programação em Mathematica, Secção de Ciências
da Computação, Departamento de Matemática IST, Lisboa.
Não-Parametrica
para
as
ciências
do
75
Bibliografia
ANEXOS
Estatística
Não Paramétrica
Testes de Hipóteses e Medidas de Associação
75
Anexo 0
Anexo 0
No SPSS® é preciso pesar os dados para que se possa aplicar alguns dos métodos. Estes
são:
ƒ Teste da Qui-Quadrado, quer para uma amostra, quer para duas amostras independentes,
ƒ Teste de Kolmogorov-Smirnov;
ƒ Teste de McNemar.
Para pesar os dados é preciso realizar os seguintes passos:
76
Anexo I: Caso de uma amostra
Anexo I: Caso de uma amostra
I.1 Teste da Binomial:
ƒ SPSS®
ƒ Mathematica®
OffGeneralspell1;
<< Statistics`DiscreteDistributions`
upperPSum p0, s :=Modulek
bdistBinominalDistribution
upboundPDFbdists
onetai = CDFbdists
twotai=onetai
k=n;
whileAndPDFbdist k <= upbounds <> s
twotai=ltwora+PDFbdist; k=k-1;
twotai=Mintwotai;
onetai, twotail;
77
Anexo I: Caso de uma amostra
lowerPSum, p0, s :=Modulek,
bdist=BinomialDistribution, p0;
upboundPDFbdist;
onetai=l1-CDFbdists;
twotai=lonetai1;
k=0;
whilePDFbdistk <= upbound,
twotai=ltwotai+PDFbdistk; k=k+1;
Mintwotai, l1;
onetai, ltwotail
npmBinomial PValue0, s := Modulebdist, pval, spHat,
bdist=binomialDistribution p0;
pHat=s n;
If pHat <= p0, pvals upperPSum, p0, s;
If pHat <= p0, pvals lowerPSum p0, s;
Print “OneSidedPValue -> “, pvals1;
Print “TwoSidedPValue -> “, pvals2
I.2 Teste da Qui-quadrado ( χ ) de uma amostra
2
ƒ SPSS®
78
Anexo I: Caso de uma amostra
ƒ Mathematica®
<<Statistics ‘ContinuousDistributions’,
QuiQuadrada1Amostra
Function Amostra;
Modulei, Ei,
i=1;
x=0;
Ei=NSumAmostraj, j, 1, LengtAmostra
LengtAmostra
Whilei <= LengtAmostra
x=x+Amostrai-Ei^2 Ei;
i = i+1
gl = LengtAmostra1;
Print “PValue”, 1-CDFChiSquareDistribution gl, x
I.3 Teste de Kolmogorov-Smirnov para uma amostra
ƒ SPSS®
79
Anexo I: Caso de uma amostra
I.4 Teste de iterações de uma amostra
ƒ SPSS®
ƒ Mathematica®
OffGeneral spell1;
<< Statistics`NormalDistribution`
<< Statistics`DataManipulation`
dropValxs := If x!=medAppendTo newListx
fy, m0 :=Module,
If y < m0, 0, 1
findFirstOne dlist := Module,
k=1;
while listk != 1, k=k+1
findFirstZero k:=Module,
k=1;
While listk !=0, k=k+1;
80
Anexo II: Caso de duas amostras relacionadas
Anexo II: Caso duas amostras relacionadas
A seguir à introdução dos dados qualquer um dos testes deste anexo tem o seguinte passo:
Passo (*):
81
Anexo II: Caso de duas amostras relacionadas
II.1 Teste dos Sinais
ƒ SPSS®
Passo (*)
ƒ Mathematica®
OffGeneralspell1;
<< Statistics`DiscreteDistributions`
Option spmSignTestFrequencies sided -> 2
82
Anexo II: Caso de duas amostras relacionadas
Clean spmSignTestFrequencies
npmSignTestFrequencies f1, f2, opts := Modules, n, tail,
s=f1;
n=f1+f2;
tail=sided opts
Option spmSignTestFrequencies
If s <= n 2,
pval = N CDFBinomialDistribution 1, 2, s,
pval = 1-N CDFBinomialDistribution 1, 2, s;
Iftail == 2, pval = 2*pval;
Print “TitleSignTest”;
Print “Distribution “BinominalDistribution, n, “, 1 2 “;
Print tail “ – sided p-value -> “, pval;
II.2 Teste dos McNemar
ƒ SPSS®
Passo (*)
83
Anexo II: Caso de duas amostras relacionadas
II.3 Teste de Wilcoxon
ƒ SPSS®
Passo (*)
84
Anexo III: Caso de duas amostras independentes
Anexo III: Caso de duas amostras independentes
A seguir à introdução dos dados qualquer um dos testes (excepto o teste da QuiQuadrado) do Anexo III tem o seguinte Passo:
Passo (**):
85
Anexo III: Caso de duas amostras independentes
III.1 Teste de Wald-Wolfowitz
ƒ SPSS®
Passo (**)
Na página seguinte:
86
Anexo III: Caso de duas amostras independentes
III.2 Teste de U de Mann-Whitney
ƒ SPSS®
Passo (**)
Na página seguinte:
87
Anexo III: Caso de duas amostras independentes
III.3 Teste de Moses para reacções extremas
ƒ SPSS®
Passo (**)
88
Anexo III: Caso de duas amostras independentes
III.4 Teste da Qui-quadrado ( χ 2 ) para duas amostras independentes
ƒ SPSS®
89
Anexo III: Caso de duas amostras independentes
90
Anexo IV: Caso de k amostras relacionadas
Anexos IV: Caso de k amostras relacionadas
Após a introdução dos dados, é feito o seguinte passo, comum a todos:
Passo (***):
91
Anexo IV: Caso de k amostras relacionadas
IV.1 Teste de Q de Cochran
ƒ SPSS®
Passo (***)
IV.2 Teste de Friedman
ƒ SPSS®
Passo (***)
92
Anexo IV: Caso de k amostras relacionadas
93
Anexo V: Caso de k amostras independentes
Anexo V: Caso de k amostras independentes
V.1 Teste de Kruskal-Wallis
ƒ SPSS®
94
Anexo VI: Medidas de Correlação
Anexo VI: Medidas de Correlação.
As medidas de correlação estão por defeito no Mathematica® portanto neste
anexo só apresento os passos para o SPSS®:
VI.1 Coeficiente de correlação por postos de Kendall: τ
95
Anexo VI: Medidas de Correlação
VI.2 Coeficiente de correlação por postos de Spearman: rS
96
Anexo VI: Medidas de Correlação
VI.3 Coeficiente de concordância de Kendall: W
97
TABELAS
Estatística
Não Paramétrica
Testes de Hipóteses e Medidas de Associação
75
Tabelas
Tabela A
Probabilidades associadas a valores tão extremos quanto os valores observados de z na Distribuição Normal
O corpo da tabela dá as probabilidades unilaterais de z sob H0. A coluna da margem esquerda dá os valores de z
com uma décima, e a linha superior dá os valores com duas décimas. Assim, por exemplo, a probabilidade
unilateral p de z ≥ 0,11 ou ≤ −0,11 é p = 0,4562
z
0,0
0,1
0,2
0,3
0,4
0,00
0,5000
0,4602
0,4207
0,3821
0,3446
0,01
0,4960
0,4562
0,4168
0,3783
0,3409
0,02
0,4920
0,4522
0,4129
0,3745
0,3372
0,03
0,4880
0,4483
0,4090
0,3707
0,3336
0,04
0,4840
0,4443
0,4052
0,3669
0,3300
0,05
0,4801
0,4404
0,4013
0,3632
0,3264
0,06
0,4761
0,4364
0,3974
0,3594
0,3228
0,07
0,4721
0,4325
0,3936
0,3557
0,3192
0,08
0,4681
0,4286
0,3897
0,3520
0,3156
0,09
0,4641
0,4247
0,3859
0,3483
0,3121
0,5
0,6
0,7
0,8
0,9
0,3085
0,2743
0,2420
0,2119
0,1841
0,3050
0,2709
0,2389
0,2090
0,1814
0,3015
0,2676
0,2358
0,2061
0,1788
0,2981
0,2643
0,2327
0,2033
0,1762
0,2946
0,2611
0,2296
0,2005
0,1736
0,2912
0,2578
0,2266
0,1977
0,1711
0,2877
0,2546
0,2236
0,1949
0,1685
0,2843
0,2514
0,2206
0,1922
0,1660
0,2810
0,2483
0,2177
0,1894
0,1635
0,2776
0,2451
0,2148
0,1867
0,1611
1,0
1,1
1,2
1,3
1,4
0,1587
0,1357
0,1151
0,0968
0,0808
0,1562
0,1335
0,1131
0,0951
0,0793
0,1539
0,1314
0,1112
0,0934
0,0778
0,1515
0,1292
0,1093
0,0918
0,0764
0,1492
0,1271
0,1075
0,0901
0,0749
0,1469
0,1251
0,1056
0,0885
0,0735
0,1446
0,1230
0,1038
0,0869
0,0721
0,1423
0,1210
0,1020
0,0853
0,0708
0,1401
0,1190
0,1003
0,0838
0,0694
0,1379
0,1170
0,0985
0,0823
0,0681
1,5
1,6
1,7
1,8
1,9
0,0668
0,0548
0,0446
0,0359
0,0287
0,0655
0,0537
0,0436
0,0351
0,0281
0,0643
0,0526
0,0427
0,0344
0,0274
0,0630
0,0516
0,0418
0,0336
0,0268
0,0618
0,0505
0,0409
0,0329
0,0262
0,0606
0,0495
0,0401
0,0322
0,0256
0,0594
0,0485
0,0392
0,0314
0,0250
0,0582
0,0475
0,0384
0,0307
0,0244
0,0571
0,0465
0,0375
0,0301
0,0239
0,0559
0,0455
0,0367
0,0294
0,0233
2,0
2,1
2,2
2,3
2,4
0,0228
0,0179
0,0139
0,0107
0,0082
0,0222
0,0174
0,0136
0,0104
0,0080
0,0217
0,0170
0,0132
0,0102
0,0078
0,0212
0,0166
0,0129
0,0099
0,0075
0,0207
0,0162
0,0125
0,0096
0,0073
0,0202
0,0158
0,0122
0,0094
0,0071
0,0197
0,0154
0,0119
0,0091
0,0069
0,0192
0,0150
0,0116
0,0089
0,0068
0,0188
0,0146
0,0113
0,0087
0,0066
0,0183
0,0143
0,0110
0,0084
0,0064
2,5
2,6
2,7
2,8
2,9
0,0062
0,0047
0,0035
0,0026
0,0019
0,0060
0,0045
0,0034
0,0025
0,0018
0,0059
0,0044
0,0033
0,0024
0,0018
0,0057
0,0043
0,0032
0,0023
0,0017
0,0055
0,0041
0,0031
0,0023
0,0016
0,0054
0,0040
0,0030
0,0022
0,0016
0,0052
0,0039
0,0029
0,0021
0,0015
0,0051
0,0038
0,0028
0,0021
0,0015
0,0049
0,0037
0,0027
0,0020
0,0014
0,0048
0,0036
0,0026
0,0019
0,0014
3,0
3,1
3,2
3,3
3,4
0,0013
0,0010
0,0007
0,0005
0,0003
0,0013
0,0009
0,0013
0,0009
0,0012
0,0009
0,0012
0,0008
0,0011
0,0008
0,0011
0,0008
0,0011
0,0008
0,0010
0,0007
0,0010
0,0007
3,5
3,6
3,7
3,8
3,9
0,00023
0,00016
0,00011
0,00007
0,00005
4,0
0,00003
76
Tabelas
Tabela B
Valores críticos de t.
0,2
Nível de significância para o teste unilateral
0,05
0,025
0,01
0,005
Nível de significância para o teste bilateral
0,1
0,05
0,02
0,01
1
2
3
4
5
3,078
1,886
1,638
1,533
1,476
6,314
2,920
2,353
2,132
2,015
12,706
4,303
3,182
2,776
2,571
31,821
6,965
4,541
3,747
3,365
63,656
9,925
5,841
4,604
4,032
636,578
31,600
12,924
8,610
6,869
6
7
8
9
10
1,440
1,415
1,397
1,383
1,372
1,943
1,895
1,860
1,833
1,812
2,447
2,365
2,306
2,262
2,228
3,143
2,998
2,896
2,821
2,764
3,707
3,499
3,355
3,250
3,169
5,959
5,408
5,041
4,781
4,587
11
12
13
14
15
1,363
1,356
1,350
1,345
1,341
1,796
1,782
1,771
1,761
1,753
2,201
2,179
2,160
2,145
2,131
2,718
2,681
2,650
2,624
2,602
3,106
3,055
3,012
2,977
2,947
4,437
4,318
4,221
4,140
4,073
16
17
18
19
20
1,337
1,333
1,330
1,328
1,325
1,746
1,740
1,734
1,729
1,725
2,120
2,110
2,101
2,093
2,086
2,583
2,567
2,552
2,539
2,528
2,921
2,898
2,878
2,861
2,845
4,015
3,965
3,922
3,883
3,850
21
22
23
24
25
1,323
1,321
1,319
1,318
1,316
1,721
1,717
1,714
1,711
1,708
2,080
2,074
2,069
2,064
2,060
2,518
2,508
2,500
2,492
2,485
2,831
2,819
2,807
2,797
2,787
3,819
3,792
3,768
3,745
3,725
26
27
28
29
30
1,315
1,314
1,313
1,311
1,310
1,706
1,703
1,701
1,699
1,697
2,056
2,052
2,048
2,045
2,042
2,479
2,473
2,467
2,462
2,457
2,779
2,771
2,763
2,756
2,750
3,707
3,689
3,674
3,660
3,646
40
60
120
1,303
1,296
1,289
1,282
1,684
1,671
1,658
1,645
2,021
2,000
1,980
1,960
2,423
2,390
2,358
2,326
2,704
2,660
2,617
2,576
3,551
3,460
3,373
3,290
gl
∞
0,1
0,0005
0,001
77
Tabelas
Tabela C
Valores críticos de Qui-Quadrado
Probabilidade, sob H 0 , de χ 2 ≥ qui-quadrado
gl
0,99
1
2
3
4
5
0,98
0,95
0,90
0,80
0,70
0,50
0,30
0,20
0,10
0,05
0,02
0,01
0,001
0,00016
0,02
0,11
0,30
0,55
0,00063
0,04
0,18
0,43
0,75
0,0039
0,10
0,35
0,71
1,15
0,016
0,21
0,58
1,06
1,61
0,064
0,45
1,01
1,65
2,34
0,15
0,71
1,42
2,19
3,00
0,45
1,39
2,37
3,36
4,35
1,07
2,41
3,66
4,88
6,06
1,64
3,22
4,64
5,99
7,29
2,71
4,61
6,25
7,78
9,24
3,84
5,99
7,81
9,49
11,07
5,41
7,82
9,84
11,67
13,39
6,63
9,21
11,34
13,28
15,09
10,83
13,82
16,27
18,47
20,51
6
7
8
9
10
0,87
1,24
1,65
2,09
2,56
1,13
1,56
2,03
2,53
3,06
1,64
2,17
2,73
3,33
3,94
2,20
2,83
3,49
4,17
4,87
3,07
3,82
4,59
5,38
6,18
3,83
4,67
5,53
6,39
7,27
5,35
6,35
7,34
8,34
9,34
7,23
8,38
9,52
10,66
11,78
8,56
9,80
11,03
12,24
13,44
10,64
12,02
13,36
14,68
15,99
12,59
14,07
15,51
16,92
18,31
15,03
16,62
18,17
19,68
21,16
16,81
18,48
20,09
21,67
23,21
22,46
24,32
26,12
27,88
29,59
11
12
13
14
15
3,05
3,57
4,11
4,66
5,23
3,61
4,18
4,77
5,37
5,98
4,57
5,23
5,89
6,57
7,26
5,58
6,30
7,04
7,79
8,55
6,99
7,81
8,63
9,47
10,31
8,15
9,03
9,93
10,82
11,72
10,34
11,34
12,34
13,34
14,34
12,90
14,01
15,12
16,22
17,32
14,63
15,81
16,98
18,15
19,31
17,28
18,55
19,81
21,06
22,31
19,68
21,03
22,36
23,68
25,00
22,62
24,05
25,47
26,87
28,26
24,73
26,22
27,69
29,14
30,58
31,26
32,91
34,53
36,12
37,70
16
17
18
19
20
5,81
6,41
7,01
7,63
8,26
6,61
7,25
7,91
8,57
9,24
7,96
8,67
9,39
10,12
10,85
9,31
10,09
10,86
11,65
12,44
11,15
12,00
12,86
13,72
14,58
12,62
13,53
14,44
15,35
16,27
15,34
16,34
17,34
18,34
19,34
18,42
19,51
20,60
21,69
22,77
20,47
21,61
22,76
23,90
25,04
23,54
24,77
25,99
27,20
28,41
26,30
27,59
28,87
30,14
31,41
29,63
31,00
32,35
33,69
35,02
32,00
33,41
34,81
36,19
37,57
39,25
40,79
42,31
43,82
45,31
21
22
23
24
25
8,90
9,54
10,20
10,86
11,52
9,91
10,60
11,29
11,99
12,70
11,59
12,34
13,09
13,85
14,61
13,24
14,04
14,85
15,66
16,47
15,44
16,31
17,19
18,06
18,94
17,18
18,10
19,02
19,94
20,87
20,34
21,34
22,34
23,34
24,34
23,86
24,94
26,02
27,10
28,17
26,17
27,30
28,43
29,55
30,68
29,62
30,81
32,01
33,20
34,38
32,67
33,92
35,17
36,42
37,65
36,34
37,66
38,97
40,27
41,57
38,93
40,29
41,64
42,98
44,31
46,80
48,27
49,73
51,18
52,62
26
27
28
29
30
12,20
12,88
13,56
14,26
14,95
13,41
14,13
14,85
15,57
16,31
15,38
16,15
16,93
17,71
18,49
17,29
18,11
18,94
19,77
20,60
19,82
20,70
21,59
22,48
23,36
21,79
22,72
23,65
24,58
25,51
25,34
26,34
27,34
28,34
29,34
29,25
30,32
31,39
32,46
33,53
31,79
32,91
34,03
35,14
36,25
35,56
36,74
37,92
39,09
40,26
38,89
40,11
41,34
42,56
43,77
42,86
44,14
45,42
46,69
47,96
45,64
46,96
48,28
49,59
50,89
54,05
55,48
56,89
58,30
59,70
78
Tabelas
Tabela D
Probabilidades associadas a valores tão pequenas quanto os valores observados de x no Teste Binomial.
O corpo da tabela dá as probabilidades unilaterais de z, sob H 0 , do teste binomial, quando P = Q = ½.
Omitiram-se as vírgulas decimais nos p’s.
x
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
031
016
008
004
002
001
188
109
062
035
020
011
006
003
002
001
500
344
227
145
090
055
033
019
011
006
004
002
001
001
812
656
500
363
254
172
113
073
046
029
018
011
006
004
002
001
001
969
891
773
637
500
377
274
194
133
090
059
038
025
015
010
006
004
002
001
001
*
984
938
855
746
623
500
387
291
212
151
105
072
048
032
021
013
008
005
003
002
*
992
965
910
828
726
613
500
395
304
227
166
119
084
058
039
026
017
011
007
*
996
980
945
887
806
709
605
500
402
315
240
180
132
095
067
047
032
022
*
998
989
967
927
867
788
696
598
500
407
324
252
192
143
105
076
054
*
999
994
981
954
910
849
773
685
593
500
412
332
262
202
154
115
*
*
997
989
971
941
895
834
760
676
588
500
416
339
271
212
*
*
998
994
982
962
928
881
820
748
668
584
500
419
345
*
*
999
996
989
975
952
916
868
808
738
661
581
500
*
*
*
998
994
985
968
942
905
857
798
729
655
*
*
*
999
996
990
979
961
933
895
846
788
*
*
*
999
998
994
987
974
953
924
885
N
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
* 1,0 ou aproximadamente 1,0
79
Tabelas
Probabilidades associadas a valores tão pequenas quanto os valores observados de x no Teste Binomial.
O corpo da tabela dá as probabilidades unilaterais de z, sob H 0 , do teste binomial, quando P = Q = ½.
Omitiram-se as vírgulas decimais nos p’s.
x
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
031
016
008
004
002
001
188
109
062
035
020
011
006
003
002
001
500
344
227
145
090
055
033
019
011
006
004
002
001
001
812
656
500
363
254
172
113
073
046
029
018
011
006
004
002
001
001
969
891
773
637
500
377
274
194
133
090
059
038
025
015
010
006
004
002
001
001
*
984
938
855
746
623
500
387
291
212
151
105
072
048
032
021
013
008
005
003
002
*
992
965
910
828
726
613
500
395
304
227
166
119
084
058
039
026
017
011
007
*
996
980
945
887
806
709
605
500
402
315
240
180
132
095
067
047
032
022
*
998
989
967
927
867
788
696
598
500
407
324
252
192
143
105
076
054
*
999
994
981
954
910
849
773
685
593
500
412
332
262
202
154
115
*
*
997
989
971
941
895
834
760
676
588
500
416
339
271
212
*
*
998
994
982
962
928
881
820
748
668
584
500
419
345
*
*
999
996
989
975
952
916
868
808
738
661
581
500
*
*
*
998
994
985
968
942
905
857
798
729
655
*
*
*
999
996
990
979
961
933
895
846
788
*
*
*
999
998
994
987
974
953
924
885
N
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
* 1,0 ou aproximadamente 1,0
80
Tabelas
Tabela E
Valores críticos de D no Teste de Kolmogorov-Smirnov para uma amostra.
Nível de Significância para
D = máx F0 ( X ) − S N ( X )
N
0,20
0,15
0,10
0,05
0,01
1
2
3
4
5
0,900
0,684
0,565
0,494
0,446
0,925
0,726
0,597
0,525
0,474
0,950
0,776
0,642
0,564
0,510
0,975
0,842
0,708
0,624
0,565
0,995
0,929
0,828
0,733
0,669
6
7
8
9
10
0,410
0,381
0,358
0,339
0,332
0,436
0,405
0,381
0,360
0,342
0,470
0,438
0,411
0,388
0,368
0,521
0,486
0,457
0,432
0,410
0,618
0,577
0,543
0,514
0,490
11
12
13
14
15
0,307
0,295
0,284
0,274
0,266
0,326
0,313
0,302
0,292
0,283
0,352
0,338
0,325
0,314
0,304
0,391
0,375
0,361
0,349
0,338
0,468
0,450
0,433
0,418
0,404
16
17
18
19
20
0,258
0,250
0,244
0,237
0,231
0,274
0,266
0,259
0,252
0,246
0,295
0,286
0,278
0,272
0,264
0,328
0,318
0,309
0,301
0,294
0,392
0,381
0,371
0,363
0,356
25
30
35
0,21
0,19
0,18
0,22
0,20
0,19
0,24
0,22
0,21
0,27
0,24
0,23
0,32
0,29
0,27
Mais de 35
1, 07
N
1,14
N
1, 22
N
1, 36
N
0 , 63
N
81
Tabelas
Tabela F
Valores críticos de r no teste de Iterações
O corpo das tabelas FI e FII contém diversos valores críticos de r para vários valores de n1 e n2. Para o teste de
iterações de uma amostra, qualquer valor de r não superior ao exibido na tabela FI ou não inferior ao exibido na
tabela FII é significativo ao nível 0,05. Para o teste de iterações de Wald-Wolfowitz qualquer valor de r não
superior ao exibido na tábua FI é significativo ao nível 0,05.
Tabela FI
2
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
2
2
2
2
2
2
2
2
2
3
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
4
2
2
2
3
3
3
3
3
3
3
3
4
4
4
4
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
2
2
3
3
3
3
3
4
4
4
4
4
4
4
5
5
5
2
2
3
3
3
3
4
4
4
4
5
5
5
5
5
5
6
6
2
2
3
3
3
4
4
5
5
5
5
5
6
6
6
6
6
6
2
3
3
3
4
4
5
5
5
6
6
6
6
6
7
7
7
7
2
3
3
4
4
5
5
5
6
6
6
7
7
7
7
8
8
8
2
3
3
4
5
5
5
6
6
7
7
7
7
8
8
8
8
9
2
3
4
4
5
5
6
6
7
7
7
8
8
8
9
9
9
9
2
2
3
4
4
5
6
6
7
7
7
8
8
8
9
9
9
10
10
2
2
3
4
5
5
6
6
7
7
8
8
9
9
9
10
10
10
10
2
2
3
4
5
5
6
7
7
8
8
9
9
9
10
10
10
11
11
2
3
3
4
5
6
6
7
7
8
8
9
9
10
10
11
11
11
12
2
3
4
4
5
6
6
7
8
8
9
9
10
10
11
11
11
12
12
2
3
4
4
5
6
7
7
8
9
9
10
10
11
11
11
12
12
13
2
3
4
5
5
6
7
8
8
9
9
10
10
11
11
12
12
13
13
2
3
4
5
6
6
7
8
8
9
10
10
11
11
12
12
13
13
13
2
3
4
5
6
6
7
8
9
9
10
10
11
12
12
13
13
13
14
82
Tabelas
Tabela FII
2 3 4
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
5
6
9
9 10
9 10
11
11
9
10
11
12
12
13
13
13
13
7
8
9
10
11
12
13
14
15
16
17
18
19
20
11
12
13
13
14
14
14
14
15
15
15
11
12
13
14
14
15
15
16
16
16
16
17
17
17
17
17
13
14
14
15
16
16
16
17
17
18
18
18
18
18
18
13
14
15
16
16
17
17
18
18
18
19
19
19
20
20
13
14
15
16
17
17
18
19
19
19
20
20
20
21
21
13
14
16
16
17
18
19
19
20
20
21
21
21
22
22
15
16
17
18
19
19
20
20
21
21
22
22
23
23
15
16
17
18
19
20
20
21
22
22
23
23
23
24
15
16
18
18
19
20
21
22
22
23
23
24
24
25
17
18
19
20
21
21
22
23
23
24
25
25
25
17
18
19
20
21
22
23
23
24
25
25
26
26
17
18
19
20
21
22
23
24
25
25
26
26
27
17
18
20
21
22
23
23
24
25
26
26
27
27
17
18
20
21
22
23
24
25
25
26
27
27
28
83
Tabelas
Tabela G
Valores críticos de T no teste de Wilcoxon
N
Nível de significância para teste unilateral
0,025
0,01
0,005
Nível de significância para teste bilateral
0,05
0,02
0,01
6
7
8
9
10
0
2
4
6
8
0
2
3
5
0
2
3
11
12
13
14
15
11
14
17
21
25
7
10
13
16
20
5
7
10
13
16
16
17
18
19
20
30
35
40
46
52
24
28
33
38
43
20
23
28
32
38
21
22
23
24
25
59
66
73
81
89
49
56
62
69
77
43
49
55
61
68
84
Tabelas
Tabela J
Probabilidades associadas a valores tão pequenos quanto os valores observados de U no
teste de Mann-Whitney
85
Tabelas
Probabilidades associadas a valores tão pequenos quanto os valores observados de U no
teste de Mann-Whitney (continuação)
86
Tabelas
Probabilidades associadas a valores tão pequenos quanto os valores observados de U no
teste de Mann-Whitney (continuação)
87
Tabelas
Tabela K
Valores críticos de U no teste de Mann-Whitney
Tabela KI. Valores críticos para um teste unilateral
com α=0,001 e um teste bilateral com α=0,002
Tabela KII. Valores críticos para um teste unilateral
com α=0,01 e um teste bilateral com α=0,02
Tabela KIII. Valores críticos para um teste unilateral
com α=0,025 e um teste bilateral com α=0,05
Tabela KIV. Valores críticos para um teste unilateral
com α=0,05 e um teste bilateral com α=0,1
88
Tabelas
Tabela N
Probabilidades associadas a valores tão grandes quanto os valores observados de χr2 no teste de Friedman
89
Tabelas
Probabilidades associadas a valores tão grandes quanto os valores observados de χr2 no teste de Friedman
(continuação) para k = 4
90
Tabelas
Tabela O
Probabilidades associadas a valores tão grandes quanto os valores observados de H no
teste de Kruskal-Wallis.
91
Tabelas
Probabilidades associadas a valores tão grandes quanto os valores observados de H no
teste de Kruskal-Wallis.
92
Tabelas
Tabela P
Valores Críticos de rS, coeficiente de correlação de Spearman
N
4
5
6
7
8
9
10
12
14
16
18
20
22
24
26
28
30
Nível de significância
(unilateral)
0,05
0,01
1,000
0,900
0,829
0,714
0,643
0,600
0,564
0,506
0,456
0,425
0,399
0,377
0,359
0,343
0,329
0,317
0,306
1,000
0,943
0,893
0,833
0,783
0,746
0,712
0,645
0,601
0,564
0,534
0,508
0,485
0,465
0,448
0,432
93
Tabelas
Tabela Q
Probabilidades associadas a valores tão grandes quanto os valores observados de S no
coeficiente de correlação de Kendall
S
4
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
32
34
36
0,625
0,375
0,167
0,042
5
0,592
0,408
0,242
0,117
0,042
0,0083
Valores de N
8
0,548
0,452
0,360
0,274
0,199
0,138
0,089
0,054
0,031
0,016
0,0071
0,0028
0,00087
0,00019
0,000025
S
9
0,540
0,460
0,381
0,306
0,238
0,179
0,130
0,090
0,060
0,038
0,022
0,012
0,0063
0,0029
0,00012
0,00043
0,000012
0,000025
0,0000028
6
1
3
5
7
9
11
13
15
17
19
21
23
25
27
29
31
33
35
37
39
41
43
45
0,500
0,360
0,235
0,068
0,028
0,0083
0,0014
Valores de N
7
0,500
0,386
0,281
0,191
0,119
0,068
0,035
0,015
0,0054
0,0014
0,00020
10
0,500
0,431
0,364
0,300
0,242
0,190
0,146
0,108
0,078
0,054
0,036
0,023
0,014
0,0083
0,0046
0,0023
0,0011
0,00047
0,00018
0,000058
0,000015
0,0000028
0,00000028
94
Tabelas
Tabela R
Valores críticos de s no coeficiente de concordância de Kendall
N
k
3*
3
4
5
6
8
10
15
20
4
5
6
Valores ao nível de significância de 0,05
49,5
62,6
75,7
101,7
127,8
192,9
258,0
48,1
60,0
89,8
119,7
64,4
88,4
112,3
136,1
183,7
231,2
349,8
468,5
103,9
143,3
182,4
221,4
299,0
376,7
570,5
764,4
7
Valores adicionais
para N=3
k
s
157,3
217,0
276,2
335,2
453,1
571,0
864,9
1 158,7
9
12
14
16
18
54,0
71,9
83,8
95,8
107,7
185,6
265,0
343,8
422,6
579,9
737,0
1 129,5
1 521,9
9
12
16
18
75,9
103,5
121,9
140,2
158,6
Valores ao nível de significância de 0,01
3
4
5
6
8
10
15
20
66,8
85,1
131,0
177,0
61,4
80,5
99,5
137,4
175,3
269,8
364,2
75,6
109,3
142,8
176,1
242,7
309,1
475,2
641,2
122,8
176,2
229,4
282,4
388,3
494,0
758,2
1 022,2
* Observe os valores adicionais para N=3 constantes à direita da tabela
DEPARTAMENTO DE MATEMÁTICA
Secção de Estatística e Investigação Operacional
Filipe Gago da Câmara
©
Câmara, Filipe Gago (2001) “Estatística Não Paramétrica:
Testes de hipóteses e medidas de associação” Monografias da
SEIO. Depto. Matemática da Univ. dos Açores: Ponta
Delgada, www.uac.pt/~amendes (ID 1.431)
HTU
O trabalho apresentado é da exclusiva responsabilidade do aluno que o assina. O Departamento
de Matemática e a Universidade dos Açores não se responsabilizam por eventuais erros
existentes no mesmo.
Os textos podem ser descarregados livremente, impressos e utilizados para ensino ou estudo
dos temas a que se referem. No entanto, não podem ser copiados ou incluídos noutros trabalhos
académicos ou de qualquer outra natureza, sem o consentimento do autor e a devida referência
completa. Para autorização de cópia parcial ou integral, utilize o endereço de correio electrónico:
[email protected]
UTH
95

Documentos relacionados