Lista de exercicios
Transcrição
Lista de exercicios
USP-FFCLRP DCM Prof. Rafael A. Rosales Introdução a Inferência Estatı́stica Informática Biomedica 21 de março de 2012 Sumário 1 Convergência de variáveis aleatórias 1.1 Leis dos Grandes Números . . . . . . . . 1.1.1 Lei Fraca dos Grandes Números 1.1.2 Lei Forte dos Grandes Números . 1.2 Teorema Central do Limite . . . . . . . 1.2.1 Teoremas de De Moivre-Laplace 1.2.2 O Teorema Central do Limite . . 1.3 Exercı́cios . . . . . . . . . . . . . . . . . 1.4 Projeto 1: histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 3 4 5 5 6 6 7 2 Estimação pontual 2.1 Medidas resumo . . . . . . . . 2.2 Estimadores . . . . . . . . . . . 2.3 Máxima verossimilhança . . . . 2.4 Distribuições amostrais . . . . . 2.5 Projetos 2 e 3: estimadores . . 2.5.1 Um estimador para π . 2.5.2 O paradoxo de Bertrand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 8 9 10 10 10 10 12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . desconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 14 15 15 15 16 17 18 18 20 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Intervalos e testes de hipótese 3.1 Intervalos de Confiança . . . . . . . . . . . . . . . . 3.2 Intervalo para µ1 − µ2 . . . . . . . . . . . . . . . . . 3.3 Intervalo para p1 − p2 . . . . . . . . . . . . . . . . . 3.4 Testes de Hipóteses . . . . . . . . . . . . . . . . . . . 3.4.1 Testes para µ e p . . . . . . . . . . . . . . . . 3.4.2 Testes t-Student: teste e intervalo para µ com 3.4.3 Teste χ2 : Testes e intervalos para a Variância 3.4.4 Teste F (Fisher-Snedecor): σ12 /σ22 . . . . . . . 3.5 Projeto 4: Bioinformática . . . . . . . . . . . . . . . . . . . . . . . . . σ2 . . . . . . 4 Análise de variância e regressão linear 5 Apêndice 5.1 Distribuições amostrais . . . . . . 5.1.1 Distribuições Gamma e χ2 5.1.2 Distribuição t (t-Student) 5.1.3 Distribuição F . . . . . . . . . . . . . . . . . . 21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Tabelas 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 26 26 29 31 35 Convergência de variáveis aleatórias As notas nesta primeira seção apresentam algumas noções básicas sobre a covergência de variáveis aleatórias. O propósito é fornecer a linguagem necessária para abordar corretamente dois resultados 1 clásicos: a Lei dos Grandes Números e o Teorema Central do Limite1 . Estes resultados constituem a base do curso a ser apresentado durante o semestre. Definição 1. Sejam (Xn ), n ≥ 1, e X, variáveis aleatórias definidas no mesmo espaço de probabilidade (Ω, B, P), e sejam FXn e FX as suas funções de distribuição. q.c. (i) Xn converge quase certamente a X, denotado por Xn −→ X, se P {ω ∈ Ω : Xn (ω) → X(ω) quando n → ∞} = 1. r (ii) Seja r um intero positivo. Xn converge a X no r-ésimo momento, denotado Xn −→ X, se E[Xnr ] < ∞ e E |Xn − X|r → 0, quando n → ∞. P (iii) Xn converge a X em probabilidade, denotado Xn −→ X, se para todo ε > 0, P {ω ∈ Ω : |Xn (ω) − X(ω)| > ε → 0, quando n → ∞. D (iv) Xn converge em distribuição, denotado Xn −→ X, se Fn (x) → F (x) quando n → ∞, para todo x ∈ R onde F (x) é continua. Observamos que o último tipo de convergência corresponde a convergência das funções de distribuição Fn (x) = P (Xn ≤ x) a função de distribuição F (x) = P (X ≤ x), e não diretamenta da sequência de variáveis aleatórias Xn a variável aleatória X, portanto para este tipo de converg ência, Ω e B são irrelevantes. Teorema 1. Sejam Xn , n ≥ 1 e X variáveis aleatórias definidas em (Ω, B, P). Para todo inteiro positivo r, temos que q.c. Xn −→ X V V V VV &. r Xn −→ X P 08 Xn −→ X hhhhh +3 D Xn −→ X Se r > s ≥ 1, então s +3 X −→ X. n r Xn −→ X Não existem outras implicações em geral. A prova deste Teorema pode ser encontrada em [GS01], na seção 7.2. 1.1 Leis dos Grandes Números Pn Seja Xn , n ∈ N uma sequência de variáveis aleatórias, e seja Sn = i=0 Xi a sua soma parcial. Em esta seção estudaremos o comportamento de Sn no limite quando n → ∞. Em geral, é possı́vel formular o problema da seguinte maneira. Se an e bn são duas sequências de númeors reais, quais são as condições que garantem o limite Sn /bn − an −→ S quando n → ∞, (1) onde “−→” denota uma das formas de convergência definidas na definição 1. Esta seção descreve dois resultados fundamentais conhecidos como a Lei Fraca e a Lei Forte dos Grandes Números. No primeiro caso a convergência é em probabilidade, e no segundo a convergência é quase certa. 1 as vezes também conhecido como Teorema do Limite Central, veja o prefácio em [Jam02]. 2 1.1.1 Lei Fraca dos Grandes Números Lema 1 (Desigualdade de Chebyshev2 ). Se X é uma variável aleatória integrável, então para qualquer constante k > 0 Var(X) P |X − E[X]| ≥ k ≤ k2 Demonstração. Seja ξ = k1{X≥k} , assim 0 ≤ ξ ≤ X, portanto E[ξ] ≤ E[X]∗ . Por outro lado, temos que E[ξ] = 0 · P(ξ = 0) + k · P(ξ = k) = k · P(X ≥ k), o qual permite chegar a desigualdade P(X ≥ k) ≤ E[X]/k. 2 (2) 2 Observamos agora que P(|X − E[X]| ≥ k) = P((X − E[X]) ≥ k ), logo de (2) concluimos que E[(X − E[X])2 ] Var(X) = . P (X − E[X])2 ≥ k 2 ≤ k2 k2 A desigualdade em (2) é conhecida como a desigualdade básica ou desigualdade generalizada de Chebyshev, já a desigualdade do Lema é conhecida como a desigualdade clássica de Chebyshev ou de Bienaymé-Chebyshev. Teorema 2 (Lei Fraca dos Grandes Números. Chebyshev, 1867). Seja X1 , X2 , . . . uma sequência de variáveis aleatórias independentes, e seja Sn a sua soma parcial até n. Se para todo n, Var(Xn ) ≤ K onde K é uma constante finita, então Sn − E[Sn ] P −→ 0. n Demonstração. Devemos mostrar que para qualquer ε > Pn0, P(|Sn − E[Sn ]|/n ≥ ε) → 0 quando n → ∞. Pelas hipóteses do enunciado temos Var(Sn ) = i=1 Var(Xi ) ≤ nK, logo da desigualdade (clássica) de Chebyshev Var(Sn ) K ≤ 2 → 0. P |Sn − E[Sn ]| ≥ εn ≤ ε2 n2 ε n Exemplo 1 (Ensaios Bernoulli). Apresentamos um exemplo simples porem importante para desenvolver a nossa intuição. O seguinte exemplo é de fato a primeira Lei dos Grandes Números publicada em 1713, após de 8 anos da morte de J. Bernoulli, [Ber13]. Suponhamos que lançamos uma moeda n vezes, e neste caso consideramos a sequencia de variáveis aleatórias ξ1 , . . ., ξn , tais que para 1 ≤ i ≤ n, ξi (ω) = 1Cara (ωi ), ou seja, ξi = 1 se o i-ésimo Pn lançamento resulta em cara, e ξi = 0 no caso contrário (se o resultado é coroa). Assim Sn = i=1 ξi , o número de caras em n lançamentos, é uma variável aleatória Binomial(n, p), onde p = P(ξi = 1) é a probabilidade de sair cara em qualquer lançamento† . Temos portanto que E[Sn ] = np, logo E[Sn /n] = p = E[ξi ]. A ley dos grandes números neste caso afirma que Sn P −→ p. (3) n Este resultado é conhecido como a Ley dos Grandes Números para ensaios Bernoulli. Para visualizar (3) diretamente, a figura 1 apresenta um dos possiveis resultados ao lançar 150 vezes uma moeda viciada com p = 0, 2. Os valores en cada lançamento sao apresentados por circulos, e Sn /n pela linha continua. Os valores de Sn /n são apresentados para três outras possı́veis realizações do experimento. Claramente, a figura mostra que Sn /n se aproxima do valor de p a medida que n aumenta. É possı́vel obter uma Lei Fraca sem assumir que as variâncias das variáveis Xn sejam finitas. Esta hipótese é crucial para a Lei Fraca de Chebyshev apresentada no Teorema 2. 2 Qebyxev, matemático Ruso cujo nome tem sido traduzido também como Chebychev, Chebyshov, Tchebychef ou Tschebyschef! ∗ demonstre esta ultima desigualdade para qualquer duas variáveis aleatórias ξ, η. † lembre o visto em aula no curso “Introdução a Teoria de Probabilidade”. 3 1.0 0.6 0.8 Sn (ω2 ) n 0.2 0.4 Sn (ω1 ) n 0.0 E[ξ1 ] 0 50 n 100 150 Figura 1: varias simulações de 150 lançamentos de uma moeda viciada com P({cara}) = p = 0, 2. A sequência de caras e coroas para a primeira simulação, ω 1 , corresponde aos circulos em 0 (coroa) e em 1 (cara). A linha continua representa os valores de Sn (ω 1 )/n, e as otras linhas correspondem aos valores para três outras realizações do processo, ω 2 , ω 3 , ω 4 . Teorema 3 (Lei Fraca dos Grandes Numeros. Khintchin, 1929). Sejam X1 , X2 , . . . variáveis aleatórias independentes e identicamente distribuı́das com média finita µ. Se Sn denota a soma parcial de Xn , então Sn P −→ µ. n Demonstração. Veja [Rao73]. 1.1.2 Lei Forte dos Grandes Números Teorema 4 (Primeira Lei Forte dos Grande Números de Kolmogorov). Sejam X1 , X2 , P∞ . . ., variáveis aleatórias independentes tais que E[Xn ] < ∞, e n=1 Var(Xn )/n2 < ∞. Então a sequência Xn satisfaze a Lei Forte dos Grande Números, ou seja, Sn q.c. E[Sn ] −→ . n n Demonstração. Veja [Jam02], Teorema 5.4, p. 208. Se as variáveis aleatórias da sequência Xn , além de serem independentes também são identicamente distribuı́das, então obtemos a seguinte verção da Lei Forte, a qual ao igual do que a Lei de Kinchin, não requer restrições sobre as variâncias. Teorema 5 (A lei Forte de Kolmogorov). Sejam X1 , X2 , . . . variáveis aleatórias independentes e identicamente distribuı́das com E[Xn ] = µ. Então Sn q.c. −→ µ. n Demonstração. Veja [Jam02], Teorema 5.5, p. 212. 4 1.2 Teorema Central do Limite Passamos agora a estudar a convergência da distribuição de Sn , quando Sn é corretamente rescalada. Em geral veremos como sob certas hipoteses é possı́vel estabelecer que Sn − E[Sn ] ≤ x = Φ(x), x ∈ R, lim P p n→∞ Var(Sn ) onde Z x 2 1 φ(x) = √ e−x /2 . 2π −∞ isto é, φ denota a densidade de probabilidade normal (com média 0 e variância 1). Φ(x) = 1.2.1 φ(x), (4) Teoremas de De Moivre-Laplace Consideramos P novamente a sequência ξ1 , ξ2 , . . . de variáveis aleatórias Bernoulli(p) e a sua soma n parcial, Sn = i=1 ξi (veja o Exemplo 1). Em lugar de estudar o comportamento limite de Sn /n, agora voltamos o interesse na distribuição limite de Sn (ou uma função de Sn ). Denotamos por pk = P(Sn = k), ou seja pk = nk pk q n−k , quando k ∈ {0, 1, . . . , n}, e suponhamos que p > q. Estudamos primeiramente o comportamento das probabilidades pk , em √ função de k para n grande. Veremos que existe um dominio para os valores de k, de tamanho n, onde pk é relativamente grande, e um dominio onde os valores de pk são pequenos. Para definirmos este dominio, encontramos primeiro o valor km , tal que pkm = maxk pk . Observamos que, n k+1 n−k−1 pk+1 n!k!(n − k)! p (n − k) p q k+1 p = = . = n k q n−k pk p (k + 1)!(n − k − 1)!n! q (k + 1) q k Encontramos agora os valores para k tais que pk+1 /pk ≥ 1. Assim, n−kp ≥1 k+1 q ⇒ (n − k)p ≥ q(k + 1) ⇒ np − q ≥ k. Também, se k > np − q, temos pk+1 /pk < 1. Assim km = [np − q]† . Resulta portanto natural esperar que os maiores valores para pk ocorrem ao rededor de km = np. O seguinte resultado reforça este argumento. Sejam a, b dois numeros quaisquer tais que a < b. √ Teorema √ 6 (Teorema do Limite Local de De Moivre-Laplace). Seja np + a n ≤ k ≤ np + b n, então (k−np)2 1 pk = √ e− 2npq 1 + rn (k) , 2πnpq onde o ressiduo rn (k) converge a 0 quando n → ∞ uniformemente em k, isto é, √ max √ |rn (k)| np+a n≤k≤np+b n → 0, quando n → ∞. Teorema 7 (Teorema Integral do Limite de De Moivre-Laplace). Sejam a, b dois números reais tais que a < b. Então, Z b X 2 1 lim pk = √ e−u /2 du. n→∞ √ 2π a np+a npq≤k √ k≤np+b npq Corolário 1. Do Teorema 7 para quaisqer a, b ∈ R tais que a < b, tem-se Sn − np P a≤ √ ≤ b → Φ(b) − Φ(a), quando n → ∞. npq √ D Assim, em particular (Sn − np)/ npq −→ Z, onde Z é uma variável aleatória normal padrão. † [x] denota a função maior enteiro menor que x. 5 1.2.2 O Teorema Central do Limite Apresentamos agora uma verção geral para a somas de variáveis aleatórias independentes, a qual é possı́velmente a forma mais conhecida do Teorema Central do Limite. Teorema 8 (Teorema Central do Limite de Lindenberg-Lévy). Sejam X1 , X2 , . . . variáveis aleatórias independentes e identicamente distribuı́das, tais que E[X1 ] = µ, e Var(X1 ) = σ 2 < ∞. Pn Seja Sn = i=1 Xi , e Z uma variável aleatória normal com média 0 e variância 1, então Zn = Sn − nµ D √ −→ Z. σ n A prova deste Teorema pode ser encontrada em [GS01], p. 194 ou em [Jam02], p. 240. O seguinte resultado mostra que o Teorema Central do Limite é válido ainda quando as variáveis aleatórias X1 , X2 , . . ., não apresentam a mesma distribuição. Teorema 9 (Theorema Central do Limite. Kolmogorov, 1933). Seja X1 , X2 , . . . uma sequência de variáveis aleatórias independentes, e seja P Sn a sua soma parcial. Para cada i sejam Pn n µi = E[Xi ], e σi2 = Var(Xi ), logo mn = i=1 µi e s2n = i=1 σi2 denotam a média e a variância de Sn , e seja X uma variável aleatória normal com média 0 e variância 1. Sob as seguentes hipóteses adicionais (i) s2n → ∞ quando n → ∞, (ii) existe uma constante K, tal que para todo i, P(|Xi | ≤ K) = 1, tem-se Sn − mn D −→ X. sn 1.3 Exercı́cios D Exercı́cio 1. Suponha que Xn , n ≥ 1 é normal com média 0 e variância 1/n. Mostre que Xn −→ X = 0. Exercı́cio 2. Seja Xn , n ≥ 1, uma seqüência de variáveis aleatórias tal que Xn é Binomial(n, 1/n2 ). P Mostre que Xn − 1/n −→ 0. Exercı́cio 3. Seja Xn , n ≥ 1, uma seqüência de variáveis aleatórias com E[Xn2 ] < ∞. Mostre que P se limn→∞ E[Xn ] = α e limn→∞ Var(Xn ) = 0, então Xn −→ α. Exercı́cio 4. Este problema apresenta um exemplo de uma sequência de variáveis aleatórias que satisfaze a Lei Fraca dos Genades Números, embora não satisfaze a Lei Forte. Para n ≥ 1, seja ( ±n2n com probabilidade pn , Xn = 0 com probabilidade 1 − 2pn , sendo pn uma função a ser escolhida adiante, tal que 0 ≤ pn ≤ 1/2, para n ≥ 1. Se Sn = X1 + X2 + . . . + Xn , mostre: (i) E[Sn ] = 0 para todo n, (ii) se Xn > 0, então Sn ≥ 2n . (iii) Utilize a parte (ii) para mostrar que Sn /n → 0 quando n → ∞ se, e somente se existe um inteiro n0 tal que Xk = 0 para todo k ≥ n0 . Mostre que isto ocorre com probabilidade 0 se pn < 1/2 para todo n. Isto mostra que a sequência (Xn ) não satisfaze a Lei Forte dos Grandes Números. (iv) Exercı́cio 5. Seja X1 , X2 , . . . variáveis aleatórias independentes tais que Xk é Binomial(n k , p), para √ Pn 0 < p < 1 constante. (i) Qual a distribuição de Sn = i=1 Xi ? (ii) Se nk ≤ k, mostre que a sequência Xn satisfaz a Lei Forte. Exercı́cio 6. Certa marca de sucrilhos faz uma promoção: alguns dos pacotes incluem vales que podem ser trocados por uma camiseta. O número de pacotes premiados que vendem ao dia em uma loja é uma variável aleatória com distribuição de Poisson de parâmetro 0,3. Estime a probabilidade de que em 120 dias se vendam nessa loja mais de 30 pacotes com prêmio. [Sugestão: considere Xi = ‘número de pacotes premiados vendidos na loja no dia i’. ] 6 Exercı́cio 7. Um dado honesto é lançado repetidas vezes de maneira independente. Seja Xi o resultado do i-ésimo lançamento e Sn = X1 + X2 · · · Xn , obtenha : (i) limn→∞ P (Sn > 3n); (ii) um valor aproximado para P (S100 > 320). Exercı́cio 8. Uma moeda honesta é lançada repetidas vezes de maneira independente. Sejam ξ1 , ξ2 , . . . variáveis aleatórias definidas por ( 1 se o i-ésimo e o (i + 1)-ésimo lançamentos são cara ξi = 0 caso contrário. (i) Determine E[ξi ], Var(ξi ). (ii) Mostre que ( 1/16 Cov(ξi , ξj ) = 0 se j = i + 1, se j > i + 1. P (iii) Seja Sn a soma parcial de ξi , determine E[Sn ], Var(Sn ). (iv) Mostre que Sn /n −→ 1/4. 1.4 Projeto 1: histogramas Este projeto tem varios objetivos: apresentar a noção de função de distribuição empirica de uma amostra, introducir os histogramas e ilustrar o Teorema Central do Limite graficamente utilizando um histograma. Isto ultimo devera ser realizado ao simular, em R, repetidos lançamentos de uma moeda (o site do curso já apresenta um código em R para isto, veja abaixo). Suponhamos que X1 , X2 , . . . , Xn são variáveis aleatórias independentes e identicamente distribuı́das, com função de distribuição F , e densidade f . A função de distribuição empirica da amostra X1 , X2 , . . . , Xn é definida como n 1X 1 FbX1 ,...,Xn (x) = 1{Xi ≤x} = # i ∈ {1, 2, . . . , n} : Xi ≤ x n i=1 n = 1 # número de elementos na amostra ≤ x . n (i) Explique por que q.c. FbX1 ,...,Xn (x) −→ F (x). (5) Seja a = a1 < a2 < . . . < am = b uma sequência de números (equidistantes), e então Ak = (ak−1 , ak ] para k = 2, . . . , m. Logo para x ∈ Ak definimos n 1X b hX1 ,...,Xn (x) = 1{a <X ≤a } n i=1 k−1 i k = 1 # número de elementos na amostra ∈ (ak−1 , ak ] . n A função b h é conhecida como histograma. (ii) Mostre que se x ∈ Ak , então Z ak q.c. b hX1 ,...,Xn (x) −→ f (u) du. (6) ak−1 R [Sugestão: utilice (5)] Isto ultimo justifica a utilização dos histogramas como estimadores para as densidades. (iii) Carregue o código moedaCLT.R (escrito em R)digitando3 3 alternativamente pode baixar este arquivo no seu micro para carrega-lho posteriormente como source("C://lugar_do_download_no_seu_micro//moedaCLT.R") assumendo que você trabalha em Windows. Caso você esteja trabalhando em Linux (ou numa Mac) troque o delimitador de pastas “//” por “/”. 7 source("http://dcm.ffclrp.usp.br/~rrosales/aulas/moedaCLT.R") Este fornece a função moedaCLT(), a qual é uma função de três argumentos N, M e p utilizada para gerar m amostras (independentes) de n variáveis aleatórias Bernoulli(p) independentes. Pode pensar que esta função simula o lançamento de uma moeda n vezes e repite isto m vezes. N corresponde a n, M corresponde a m e p a p, a probabilidade de sair cara em qualquer lançamento. moedaCLT() retorna o vetor 1 2 Snm Sn Sn , ,..., , n n n onde Sni /n, i = 1, . . . , m, corresponde a proporção de caras após de jogar a moeda n vezes no i-ésimo experimento. Por exemplo, v1 <- moedaCLT(N=10000, M=30000, p=0.5); simula o lançamento de uma moeda (honesta) 10000 vezes, repete isto 30000 vezes calculando de cada vez a fração relativa de caras, e finalmente guarda estes valores no vetor v1. Digite hist(v1,breaks=60, main="", ylab="frequencia",xlab="Zn") A função hist() calcula o histograma de v1, isto é b hSn1 /n,...,Snm /n , e apresenta o grafico desta função (breaks determina o numero de intervalos (ai−1 , ai ] nos quais sera avaliado o histograma). Utilice várias vezes moedaCLT() tentando valores diferentes para M e N de cada vez. Consegue enxergar o Teorema Central do Limite? Qual dos argumentos N ou M controla a convergência no Teorema Central do Limite? qual controla a convergência do histograma em (6)? 2 2.1 Estimação pontual Medidas resumo Exercı́cio 9. Na linha de produção de uma grande montadora de veı́culos, existem 7 verificações do controle de qualidade. Sorteamos alguns dias do mês e anotamos o número de OKs recibidos pelos veı́culos produzidos nesses dias, i.e., em quantos dos controles mencionados o automóvil foi aprovado. Os resultados foram ((x, y), x =número de aprovações, y =freqüência): (4, 126), (5, 359), (6, 1685), (7, 4764). (i) Determine a média, moda e mediana do número de aprovações por automóvel produzido. (ii) Calcule a variância da amostra. (ii) Crie uma nova variável “reprovações”, indicando o número de verificações não OKs no vehı́culo. Determine média, moda, mediana e variância dessa variável. Em geral, se uma amostra qualquer esta constituı́da pelas observações z = (z1 , z2 , . . ., zn ), então z̄ = n X zi /n média amostral i=1 seja z̃1 ≤ z̃2 ≤ · · · ≤ z̃n a amostra ordenada em forma crescente, então ( z̃(n+1)/2 md = 1 2 (z̃n/2 + z̃n/(2+1) ) se n impar, se n par mo = valor mais frequente n X var(z) = (zi − z̄)2 /n mediana amostral moda amostral variância amostral i=1 (iv) Cada reprovação implica em custos adicionais para a montadora, tendo em vista a necessidade de corrigir o defito apontado. Admitindo um valor básico de R$ 200,00 por cada item reprovado num vehı́culo, calcule a média e a variância da espesa adicional por automóvel produzido 8 2.2 Estimadores Exercı́cio 10. Foram sorteadas 15 famı́lias com filhos num certo bairro e observado o número de crianças de cada famı́lia, matriculadas na escola. Os dados foram 1, 1, 2, 0, 2, 0, 2, 3, 4, 1, 1, 2, 0, 0, e 2. Obtenha as estimativas correspondentes aos seguintes estimadores da média de crianças na escola nesse bairro, µ b1 = mı́nimo + máximo , 2 µ b2 = (X1 + X2 ) , 2 µ b3 = X̄. Qual deles é o melhor estimador da média e por quê? Exercı́cio 11. Seja X1 , X2 , X3 uma amostra aleatória de uma população exponencial com média θ, isto é, E[Xi ] = θ, i = 1, 2, 3. Cosidere os estimadores θb1 = X̄, θb2 = X1 , X1 + X2 θb3 = . 2 (i) Mostrar que nenhum dos três estimadores é viesado. (ii) Qual dos estimadores tem menor variância? Lembrar que para o modelo exponencial Var(Xi ) = θ2 . Exercı́cio 12. (Este exercı́cio tem implicações muito importantes para a estatı́stica) Sejam X1 , X2 , . . ., Xn variáveis aleatórias independentes e identicamente distribuı́das com média µ e variância σ 2 . Sejam n n 1X 1 X X̄n = Xi , e Sn2 = (Xi − X̄n )2 . n i=1 n − 1 i=1 q.c. (i) Determine E[X̄n ] e Var(X̄n ). (ii) Mostre que X̄n −→ µ. (iii) Mostre que Sn2 = 1 n−1 X n Xi2 − n(X̄n )2 . i=1 q.c. (iv) Calcule E[Sn2 ]. (v) Mostre que Sn2 −→ σ 2 . [Sugestão: utilice duas vezes a Lei Forte.] Exercı́cio 13. Seja X1 , X2 , . . ., Xn uma amostra de uma população com distribuição fX (x) = 2x , θ2 0 < x < θ, θ > 0. Verifique se θb1 = X̄ e θb2 = max{X1 , X2 , . . . , Xn } são não viciados para θ. (ii) Calcule e compare os EQM dos estimadores em (i). (iii) Faça um gráfico dos EQM em função de θ. Sugestão: para (iii) pode utilizar R. O seguinte exemplo ilustra os passos necessários para graficar a função f (x) = e−x + |x − 1|−1 no dominio x ∈ [−2, 10]. Escreva (ao final de cada linha faça ‘Enter’) x <- seq(-2,10,by=0.01) f <- exp(-x)+1/abs(x-1) plot(x,f, type="l", col="navy", ylim=c(-1,30), lwd=2) Para sobrepor a função g(x) = 3sen(x3 )/(3 − x) + 10 escreva g <- 3*sin(x^3)/(3-x) + 10 lines(x, g, col="sandybrown", lwd=2) Exercı́cio 14. Suponha que Y tem distribuição Binomial-(n, p). (i) Demostre que pb = y/n é um estimador não viesado para p. Calcule a variância de pb. 9 2.3 Máxima verossimilhança Exercı́cio 15. Seja X = X1 , X2 , . . . , Xn uma amostra aleatória da uma população com densidade Gamma-(α, β), com α = 2, e β desconhecido, isto é, x e−x/β se x > 0, f (x) = β2 0 se x 6 0. b É βb viciado para β? (i) Obtenha o estimador de máxima verosimilhança para β. (ii) Calcular E[β]. Exercı́cio 16. Uma urna contém bolas brancas e pretas. Uma amostra de tamanho n é retirada com reposição. (i) Qual é o estimador de máxima verossimilhança para a proporção R de bolas pretas na urna? (ii) Suponha que as bolas são retiradas uma a uma com reposição até aparecer a primeira bola preta. Seja T o número de retiradas requeridas. Se este procedimento é repetido n vezes, sejam T1 , T2 , . . ., Tn o número de tentativas de cada vez. Qual é o estimador de máxima verossimilhança para R baseado nesta amostra? Exercı́cio 17. Seja X1 , X2 , . . ., Xn , uma amostra de uma população com distribuição fX (x) = θx (1 − θ)1−x 1{0,1} (x), onde 0 ≤ θ ≤ 12 . (i) Encontre o estimador θb de máxima verossimilhança para b o erro quadrático médio de θ. b (iii) Diga se θb é (fracamente) consistente. θ. (ii) Calcule o EQM(θ), 2.4 Distribuições amostrais Exercı́cio 18. Uma variável de Bernoulli com probabilidade de sucesso p é amostrada, de forma, independente, duas vezes. Determine a função de probabilidade da média amostral. Exercı́cio 19. A variável aleatória ξ assome os valores {−2, −1, 1, 2}, cada um com a mesma probabilidade. Para uma amostra de tamanho dois, obtenha a distribuição de S 2 e verifique se ele é não viesado para estimar a variância de ξ. Exercı́cio 20. Coleta-se uma amostra de 10 observações independentes de uma população normal com média 2 e variância 2. Determine a probabilidade de a média amostral: (i) ser inferior a 1; (ii) ser superior a 2,5; (iii) estar entre 0 e 2. Exercı́cio 21. Um fabricante afirma que sua vacina contra gripe imuniza em 80% dos casos. Uma amostra de 25 indivı́duos que tomaram a vacina foi sorteada e testes foram feitos para verificar a imunização ou não desses indivı́duos. Se o fabricante estiver correto, qual é a probabilidade da proporção de imunizados na mostra ser inferior à 0,75? E superior à 0,85? 2.5 2.5.1 Projetos 2 e 3: estimadores Um estimador para π Georges-Louis Leclerc (1707-1788), Conde de Buffon, mostrou que vários problemas de probabilidade podem ser abordados utilizando argumentos de caráter geométrico. Em, particular, o problema conhecido hoje em dia como a agulha de Buffon permite realizar um experimento para estimar o valor de π. Suponhamos que sobre um tabuleiro desenhamos linhas paralelas a distância t uma da outra. Posteriormente jogamos uma agulha de comprimento l < t e observamos se esta cai ou não sobre alguma das linhas do tabuleiro. Surge assim naturalmente a seguintre pergunta: qual é a probabilidade de que a agulha esteja sobre uma linha t? Para respondermos esta questão, podemos parameterizar o espaço amostral (as posições das agulhas) da seguinte maneira. Seja Θ o angulo formado pela agulha e o conjunto de linhas t, e X = (X1 , X2 ) a posição do centro da agulha sobre o tabuleiro. Claramente, se ocorre o evento {X(ω) ≤ (l/2) sen(Θ(ω))}, então a agulha corta uma linha 10 t4 . Agora, encontrar a probabilidade deste evento não é difı́cil pois as variáveis aleatórias X e Θ são independentes e apresentam densidades uniformes nos intervalos [0, t/2] e [0, π/2] respectivamente, ( ( 1/(t/2), se 0 ≤ x ≤ t/2 1/(π/2), se 0 ≤ θ ≤ π/2 fΘ (θ) = fX (x) = 0, caso contrário 0, caso contrário Portanto a densidade conjunta do vetor (X, Θ) é simplesmente fX,Θ (x, θ) = 4 tπ (x, θ) ∈ [0, t/2] × [0, π/2], quando e 0 no caso contrário. Logo Z π/2 Z (l/2)sen(θ) 4 l p = P X ≤ sen(Θ) = dxdθ 2 tπ 0 0 Z π/2 4 l 2l = sen(θ)dθ = . tπ 2 tπ 0 (7) A formula (7) fornece indiretamente um estimador para π. De fato, se conseguimos uma estimativa para a probabilidade p, então (7) mostra como estimar 1/π. Para simplificar a notação, seja E o evento {X ≤ (l/2) sen(Θ)}, e logo seja ξ(ω) = 1E (ω), uma variável aleatória a qual é igual a 1 se a agulha touca a linha t e 0 no caso contrário: ξ é Bernoulli com probabilidade de sucesso p = 2l/(tπ). Seja ξ1 , ξ2 , . . . , ξn , uma amostra desta população. No contexto da aplicação atual, esta amostra é interpretada como o resultado de jogar a agulha sobre o tabuleiro n vezes. Pn Seguindo o procedimento agora ussual, utilizamos esta amostra para propor o estimador pb = i=1 ξi /n para p. Desta maneira, de acordo com (7), podemos agora considerar o seguinte estimador para 1/π π b−1 = t pb. 2l (8) Exercı́cio Pn 22. (i) Qual é a distribuição da variável aleatória Var( i=1 ξi ). (iii) Calcule E[b p] e Var(b p). Pn i=1 ξi ? Pn (ii) Determine E[ i=1 ξi ] e Exercı́cio 23. (i) Mostre separadamente, mesmo que um dos limites implique o outro, que t q.c. 1 pb −→ , 2l π e t P 1 pb −→ . 2l π (ii) Indique quais dos Teoremas da seção 1 foram utilizados para garantir os limites em (i). Explique por que estes limites são importantes quando é considerado o estimador π b−1 . Exercı́cio 24. (i) Mostre que o estimador em (8) é não viciado, (ii) logo mostre que o EQM deste estimador é igual a π − 2l 2lnπ Desta última expressão podemos ver que o estimador em (8) é mais eficiente a medida que aumenta o comprimento da augulha l. Exercı́cio 25. (i) Mostre que o estimador para π, π b= 2l 1 t pb é viciado. Ao igual do que o estimador para 1/π, o estimador proposto para π é mais eficiente quando o comprimento da agulha aumenta. (ii) Diga se é possı́vel aplicar o Teorema Central do Limite para caracterizar a distribuição amostral de π b. A figura 2, no canto inferior direito, sugere que a distribuição de π b é normal, embora você pode mostrar isto formalmente. 11 R Exercı́cio 26. [É necessário fazer primeiro o Projeto 1 para poder entender este exercı́cio!] Inicie R e carregue o código em Buffon.R fazendo source("http://dcm.ffclrp.usp.br/~rrosales/aulas/Buffon.R") Este script fornece três funções, drawBuffon, runavrg, e estPi. drawBuffon mostra uma simulação do experimeto que consiste em jogar a agulha repetidas vezes (veja a figura 2), runavrg grafica uma estimativa para π conforme aumenta o número de vezes que é lançada agula (veja a figura 2), e finalmente estPi(N, l, t) fornece uma estimativa de π, onde N corresponde ao número de lançamentos, l é o comprimento da agulha e t a separação das linhas t. Estes parâmetros são inicializados para os valores N=100, l=1, e t=2, mas você pode mudar qualquer um a vontade. Por exemplo, os comandos y <- c(); for (i in 1:10000) y[i] <- estPi(N=300); geram 10000 estimativas para π guardando-as no vetor y. Cada estimativa é obtida ao simular o lançamento da agulha 300 vezes. Utilize o código em Buffon.R para estudar as propriedades do estimador de π para os seguintes valores de l: 0.5, 1 e 1.5. Utilize as funções var, mean e hist para verificar as conclusões obtidas analiticamente nos exercı́cios anteriores. 2.5.2 O paradoxo de Bertrand Qual é a probabilidade de que uma corda aleatória sobre um cı́rculo tenha comprimento maior do que o lado do triângulo equilátero inscrito no cı́rculo? Esta questão, investigada inicialmente por Joseph Louis Bertrand em 1889, é de caráter probabilı́stico embora o propósito aqui é verificar a resposta utilizando estimadores apropriados. Essa resposta depende do significado do termo ‘corda aleatória’. Apresentamos três possı́veis interpretações supondo que, sem perda de generalidade, o cı́rculo tem centro na origem e apresenta raio de comprimento 1. Exercı́cio 27 (ponto aleatório). Um ponto A é escolhido uniformemente no interior de um cı́rculo de √ raio 1, veja a figura 3(a). Seja X o comprimento da corda com ponto médio A. Calcule P (X > 3). Sugestão. Pense primeiro na seguinte pergunta: qual é a probabilidade de que A esteja dentro do cı́rculo inscrito no triângulo equilátero? Exercı́cio 28 (angulo aleatório). Fixamos um ponto Q sobre a circunferência do cı́rculo com raio 1, por exemplo em (1, 0). Logo escolhemos uniformemente um outro ponto √A sobre a circunferência, veja a figura 3(b). Seja X o comprimento da corda QP . Calcule P (X > 3). Exercı́cio 29 (raio aleatório). Um ponto A é escolhido uniformemente sobre o raio r (qualquer um) do cı́rculo. Seja √ X o comprimento da corda a qual tem A como ponto meio, veja a figura 3(c). Determine P (Z > 3). R Exercı́cio 30. Utilice as funções estp rangle,estp rdist e estp rendpoint para verificar o valor das probabilidades calculadas nos três exercı́cios anteriores. Estas funções se encontram no script Bertrand.R, o qual pode ser carregado (desde R) como source("http://dcm.ffclrp.usp.br/~rrosales/aulas/Bertrand.R") Sugestão: de maneira analoga ao Exercicio 26, digite por exemplo y <- c(); for (i in 1:5000) y[i] <- estp rangle(N=300); e estude as propriedades de y utilizando as funções mean, var e hist. 3 Intervalos e testes de hipótese Alguns dos exercı́cios desta e outras seções devem ser realizados utilizando R. Além de familiarizar vocês com R, o propósito é apresentar diferentes analises com dados reais. Estes se encontram identificados com R . Um primeiro exemplo de como carregar os dados de um arquivo (em formato de texto) é apresentado no Exercicio 51. 4 faça um desenho! 12 200 400 frequencia 600 800 5 4 3 2 0 0 1 estimativa de pi 0 100 200 300 400 500 2.9 iteracoes 3.0 3.1 3.2 3.3 3.4 3.5 estimativa de pi Figura 2: As quatro primeiras figuras mostram diversas simulações do experimento da agulha de Buffon para 30, 300, 3000 e 9000 lançamentos da agulha. As agulhas que toucam uma banda t são mostradas em verde. Estas figuras foram geradas com drawBuffon. A figura no canto inferior esquerdo apresenta a convergência de uma estimativa para π gerada com runavrg. O histograma no canto inferior direto foi gerado com sucessivas chamadas a estPi (veja o texto do Exercicio 26), sugirindo um Teorema Central do Limite para a distribuição do estimador. 13 √ 3 √ 3 √ 3 A A (a) Q (b) r A (c) Figura 3: construção da corda aleatória (em verde) utilizando o método do ponto aleatório (a), o método do angulo aleatório (b), e o método do raio aleatório (c). 3.1 Intervalos de Confiança Exercı́cio 31. Por analogı́a a produtos similares, o tempo de reação de um novo medicamento pode ser considerado como tendo distribuição normal com média µ e variaância 4. Vinte pacientes foram sorteados, receberam o medicamento e tiveram seu tempo de reação anotado. Os dados foram os seguintes: 2,9; 3,4; 3,5; 4,1; 4,6; 4,7; 4,5; 3,8; 5,3; 4,9; 4,8; 5,7; 5,8; 5,0; 3,4; 5,9; 6,3; 4,6; 5,5 e 6,2. Obtenha intervalos de confiança para o tempo médio de reação para: (i) γ=96%, (ii) γ=75%. Exercı́cio 32. Uma amostra de 25 observações de uma normal Φ(µ, 16) foi coletada e forneceu uma média amostral de 8. Construa intervalos com confiança 80%, 85%, 90% e 95% para a média populacional. Comente as diferenças encontradas. Exercı́cio 33. Será coletada uma amostra de uma população normal com desvio padrão igual a 9. Para uma confiança de γ=90%, determine a amplitude do intervalo de confiança para a média populacional nos casos em que o tamanho da amostra é 30, 50 ou 100. Comente as diferenças. Exercı́cio 34. Numa pesquisa com 50 eleitores, o candidato J. J. obteve 0,34 da preferência dos eleitores. Construa, para a confiança 94%, os intervalos otimista e conservador de confiança para a proporção de votos a serem recebidos pelo candidato mencionado, supondo que a eleição fosse nesse momento. Exercı́cio 35. Desejamos coletar uma amostra de uma variável aleatória X com distribuição normal de média desconhecida e variância 30. Qual deve ser o tamanho da amostra para que, com 0,92 de probabilidade, a média amostral não difira da média da população por mais de 3 unidades? Exercı́cio 36. Interprete e comente as afirmações: (i) A média de salário inicial para recém formados em Economia está entre 7 e 9 salários mı́nimos com confiança 95%. (ii) Quanto maior for o tamanho da amostra, maior é a probabilidade da média amostral estar próxima da verdadeira média. Exercı́cio 37. O intervalo [35,21; 35,99], com confiança 95% foi construı́do a partir de uma amostra de tamanho 100, para a média µ de uma população normal com desvio padrão igual a 2. (i) Qual e o valor encontrado para a média dessa amostra? (ii) Se utilizássemos essa mesma amostra, mas uma confiança de 90%, qual seria o novo intervalo de confiança? Exercı́cio 38. Antes de uma eleição, um determinado partido está interessado em estimar a probabilidade p de eleitores favoráveis ao seu candidato. Uma amostra piloto de tamanho 100 revelou que 60% dos eleitores eram favoráveis ao candidato. (i) Utilizando a informação da amostra piloto, determine o tamanho da amostra para que, com 0,8 de probabilidade, o erro cometido na estimação seja no máximo 0,05. (ii) Se na amostra final, com tamanho obtido em (i), observou-se que 51% dos eleitores eram favoráveis ao candidato, construa um intervalo de confiança para p, com confiança 95%. 14 25 20 15 10 indice de trabalho 1995 2000 2005 perı́odo 1992 1993 1995 1996 1997 1998 1999 2001 2002 2003 2004 2005 2006 2007 branca 20.95 19.98 18.95 15.64 15.09 14.16 13.69 11.52 11.6 10.6 10.13 10.45 10.09 9.24 preta 24.99 22.82 20.07 16.43 15.49 17.6 16.92 12.73 10.76 10.43 10.66 10.81 10.89 10.84 periodo Figura 4: Taxa de trabalho infantil por cor de 1992 até 2007. Os sı́mbolos recheados no gráfico correspondem aos dados para criaças brancas. 3.2 Intervalo para µ1 − µ2 Exercı́cio 39. A figura 4 apresenta os dados referentes a taxa de trabalho infantil em Brasil para criaças pretas e crianças brancas durante o perı́odo 1997-20075 . A taxa de trabalho infantil é definida como o percentual da população residente de 10 a 15 anos de idade que se encontra trabalhando ou procurando trabalho na semana de referência, em determinado espaço geográfico, no ano considerado. (i) Construa um intervalo de confiança de 95% para a diferença entre as taxas de trabalho média durante o perı́odo de 1992-2007 para criançãs brancas e pretas. (ii) Interprete o intervalo obtido em (i), isto é, qual é o significado deste intervalo? (iii) Quais são os supostos necessários para construir o intervalo? (iv) Você acredita que os supostos são satisfeitos neste caso? 3.3 Intervalo para p1 − p2 Exercı́cio 40. De acordo com o estudo da pesquisa de mercado dos servı́ços de consultorı́a em engenharia a empresas industriais no Meio Oeste (USA), quarenta empresas que participaram de uma enquete (20 grandes e 20 pequenas) indicaram que elas não precisavam dos servı́cios externos de consultorı́a. A principal ração foi que estas sempre obtinham ajuda de consultarı́a sempre que necessário. Entretanto, duas vezes mais empresas grandes (12) que pequenas (6) citaram este motivo. Establecer um intervalo de confiança de 90% para a diferença nas porcentagens das empresas grandes e as pequenas que citam a ajuda das oficinas corporativas. 3.4 Testes de Hipóteses Observação (p-valor): R, igualmente a outros pacotes estatı́sticos, reportam o p-valor do teste, o qual pode ser utilizado para rejeitar ou não a hipótese nula. Suponhamos que o estimador θb b é considerado em um teste para o parâmetro θ. Seja θ(x) a estimativa de θb baseada nos valores da amostra x = (x1 , x2 , . . . , xn ) (Considere p por exemplo o estimador T acima para o parametro b pertence a µ1 − µ2 , e a sua estimativa t = (x̄1 − x̄2 )/ s21 /n + s22 /n). Assim, quando o valor de θ(x) 5 Fonte: Instituto Brasileiro de Geografia e Estatı́stica (IBGE). Série: CAJ421 - Taxa de trabalho infantil, por cor http://seriesestatisticas.ibge.gov.br/series.aspx?vcodigo=CAJ421 15 região crı́tica rejeitamos a hipótese nula. Alternativamente, de forma equivalente, podemos calcular o p-valor do teste b b p = P {ω : θ(ω) ≥ θ(x)}|H (9) 0 , e rejeitar a hipótese nula quando o valor de p for pequeno, por exemplo p < α, onde α tı́picamete determina o nivel do teste. Usualmente, o valor p é utilizado seguindo os seguintes criterios valor p p < 0.01 0.01 ≤ p < 0.05 0.05 ≤ p < 0.10 0.10 ≤ p interpretação evidência forte contra H0 evidência moderada contra H0 sugere evidência contra H0 não a evidência contra H0 b Destacamos que o valor p de um teste realmente é uma variable aleatória p(ω) = f (θ(X(ω))), onde X(ω) = (X1 , . . . Xn )(ω), e f é a função em (9). (Não faremos referência a isto ultimo durante o curso.) 3.4.1 Testes para µ e p Exercı́cio 41. Uma variável aleatória tem distribuição normal e desvio padrão igual a 12. Estamos testando se sua média é igual ou é diferente de 20 e coletamos uma amostra de 100 valores dessa variável, obtendo uma média amostral de 17,4. (i) Formule as hipóteses. (ii) Obtenha a região crı́tica e dê a conclusão do teste para os seguintes nı́veis de significância: 1%, 2%, 4%, 6% e 8%. Exercı́cio 42. Para uma variável aleatória com densidade normal e desvio padrão 5, o teste da média µ=10 contra µ=14, teve a região crı́tica dada por {x ∈ R : x > 12} para uma amostra de tamanho 25. Determine as probabilidades dos erros tipo I e II. Exercı́cio 43. Uma máquina deve produzir peças com diâmetro de 2 cm. Entretanto, variações acontecem e vamos assumir que o diâmetro dessas peças siga o modelo Normal com variância igual a 0,09 cm2 . Para testar se a máquina está bem regulada, uma amostra de 100 peças é coletada. (i) Formule o problema como um teste de hipóteses. (ii) Qual seria a região crı́tica se α = 0, 02? (iii) se a região de aceitação fosse {x ∈ R|1, 95 6 x 6 2, 05}, qual seria o nı́vel de significância do teste? Nesse caso, determine a probabilidade do erro tipo II se µ =1,95 cm. (iv) Se para essa amostra x̄ = 1, 94; qual a decisão em (ii)?, em (iii)? Exercı́cio 44. A vida média de uma amostra de 100 lâmpadas de certa marca é 1615 horas. Por similaridade com outros processos de fabricação, supomos o desvio padrão igual a 120 horas. Utilizando α=5%, desejamos testar se a duração média de todas as lâmpadas dessa marca é igual ou é diferente de 1600 horas. Qual é a conclusão? Determine também a probabilidade do erro tipo II, se a média fosse 1620 horas. Exercı́cio 45. Uma amostra com 10 observações de uma variável aleatória normal forneceu média de 5,5 e variância de 4. Deseja-se testar, ao nı́vel de significância de 5%, se a média na população é igual ou é menor que 6. Qual é a conclusão? Exercı́cio 46. Um criador tem constatado uma proporção de 10% do rebanho com verminose. O veterinário alterou a dieta dos animais e acredita que a doença diminuiu de intensidade. Um exame em 100 cabeças do rebanho, escolhidas ao acaso, indicou 8 delas com verminose. Ao nı́vel de 8%, há indı́cios de que a proporção diminuiu? Exercı́cio 47. Considere o teste p = 0, 6 contra p 6= 0, 6. Sendo n = 100, indique a probabilidade de erro tipo I para as seguintes regiões crı́ticas: (i) RC = {x ∈ R|x < 0, 56 ou x > 0, 64}, (ii) RC = {x ∈ R|x < 0, 54 ou x > 0, 66}. 16 3.4.2 Testes t-Student: teste e intervalo para µ com σ 2 desconhecida Exercı́cio 48. Com auxı́lio da tabela t-Student calcule (se necessário, aproxime): (i) P (−3, 365 6 t5 6 3, 365). (ii) P (|t8 | < 1, 4). (iii) P (−1, 1 6 t14 < 2, 15). (iv) a : P (t9 > a) = 0, 02. (v) b : P (t16 6 b) = 0, 05. (vi) c : P (|t11 | 6 c) = 0, 1. (vii) d : P (|t21 | > d) = 0, 05. Exercı́cio 49. Uma amostra de 20 observações de uma variável com distribuição normal foi colhida, obtendo-se desvio padrão 1,1. No teste µ=5 contra µ > 5, foi estabelecida a região critica {t ∈ R|t > 2, 033}. Determine a probabilidade do erro tipo I. Exercı́cio 50. A porcentagem anual média da receita municipal empregada em saneamento básico em pequenos municı́pios de um estado tem sido 8% (admita que esse ı́ndice se comporte segundo um modelo normal). O governo pretende melhorar esse ı́ndice e, para isso, ofereceu alguns incentivos. Para verificar a eficácia dessa atitude, sorteu 10 cidades e observou as porcentagens 8, 12, 16, 9, 11 e 12. Os dados trazem evidência de melhoria, ao nı́vel de 2%? Caso altere a média, dê um intervalo de confiança para anova média. R Exercı́cio 51. Inicie R e carregue os dados energy.txt no site do curso digitando dt <- read.table(file="http://dcm.ffclrp.usp.br/~rrosales/aulas/energy.txt", head=TRUE) attach(dt) Estes dados contém duas colunas: expend e stature, e representam o consumo energetico de mulheres magras (lean) e obesas (obese). O argumento head=TRUE da função read.table permite Digite t.test(expend~stature, paired=TRUE) A função t.test, com a sintaxe acima, permite realizar um teste t utilizando o estimador X̄2 − X̄1 T =r S2 S12 + 2 n n (i) No caso dos dados em energy.txt, quais são as hipóteses H0 e Ha que estão sendo testadas? (ii) Qual é o resultado do teste? (iii) A figura 5 mostra a função poder para o teste em (i), para dois valores de α, 0.001 e 0.05. Por que o poder do teste para α = 0.05 é maior? (iii) Escreva um código em R, o qual permita calcular a função poder para testes t-Student. (Sugestão: utilice a função qt.) R Exercı́cio 52. Carregue os dados chiken.txt. Estes dados contem o efeito de duas dietas diferentes no crecimento de perus durante as primeiras semanas de vida. Os dados apresentam quatro colunas: “weight”, “Time”, “Chick”, e “Diet”. A figura 6 embaixo apresenta um “Box Plot”gerado com a função boxplot(weight~Diet). Em este gráfico a barra inferior representa a menor observação não extrema, o borde inferiror da caixa corresponde ao primeiro quartil Q1 (i.e. o valor de x tal que Fbx1 ,...,xn (x) = 0, 25), a barra cheia é a mediana dos dados, o borde superior da caixa é o terceiro quartil Q3 = x : Fbx1 ,...,xn (x) = 0, 75, e a barra superior representa a maior observação não extrema. Os sı́mbolos ◦ representam eventos moderadamente extremos. Um dado é considerado moderadamente extremo se o seu valor esta entre 1, 5(Q3 − Q1 ) e 3(Q3 − Q1 ). Se o valor de uma observação é maior do que 3(Q3 − Q1), então esta é representada com o sı́mbolo ∗ e considerado como um verdadeiro extremo. (i) Em base ao gráfico, diga se os dois tratamentos tem algum efeito sobre o peso médio dos frangos. (ii) Faça um teste de hipotese para verificar a sua opinião. Qual é a sua conclusão? [Sugestão: veja o exercı́cio anterior!] R Exercı́cio 53. Inicie R e carregue os dados trabalho.txt. Este arquivo contém os dados do Exercicio 39. (i) Faça um teste para verificar se no Brasil existe diferença na taxa de trabalho de crianças pretas e crianças brancas. Qual é a sua conclusão? (ii) Os resultados aqui são consistentes com aqueles obtidos no Exercicio 39? 17 1.0 0.8 0.6 0.4 1 − beta(x) 0.2 0.0 −3 −2 −1 0 1 2 3 x Figura 5: funções poder para o teste do Exercicio 51 para dois valores de α (0.001 linha pontilhada, e 0.05). 3.4.3 Teste χ2 : Testes e intervalos para a Variância Exercı́cio 54. Para cada uma das seguintes combinações de a e gl (graus de libertade), calcular o valor de χ2a que uma área a no extremo direito da distribuição χ2 , i.e., P (X 6) = a. (i). a = 0, 05, gl = 7 (ii). (iv). a = 0, 025, gl = 8 (v). a = 0, 1, gl = 16 (iii).a = 0, 01, gl = 10 a = 0, 005, gl = 5. Exercı́cio 55. O tempo de certo evento observado em 18 provas forneceu a estimativa para S de 6,3 (ns). Obtenha um intervalo de confiança de 95% para a verdadeira variância, σ 2 , dos tempos. Suponha que a distribuição dos tempos observados é normal. O seguinte exercı́cio é mais avanzado e tem como propósito ilustrar a interpretação ussual de um intervalo de confiança. R Exercı́cio 56. Gere uma amostra de tamanho 20 da distribuição normal com média 0 e desvio padrão 5. Calcule o intervalo de confiança para a variância baseado na amostra com γ = 0, 95. Repeta estes passos 100 vezes e conte o número de vezes nas quais o intervalo captura o verdadeiro valor de σ 2 . Divida esta frequencia pelo número total de repetições e compare o valor final com γ. Sugestão: utilice as funções rnorm, mean. 3.4.4 Teste F (Fisher-Snedecor): σ12 /σ22 Exercı́cio 57. Supondo X ∼ F (a, b), encontre xc tal que: (i) P (X > xc ) = 0, 05 com a=18, b=3. (ii) P (X > xc ) = 0, 05 com a=3, b=18. (iii) P (X > xc ) = 0, 05 com a=180, b=192. (iv) P (X > xc ) = 0, 95 com a=5, b=12. (v) P (X > xc ) = 0, 95 com a=30, b=40. Exercı́cio 58. Uma panificadora produz determinado tipo de pão, cujo peso médio é de 190 gramas, com desvio padrão de 18 gramas. Devido a mudanças na polı́tica cambial, que ocasionou aumento no preço do trigo, alguns ingredientes da receita foram substituı́dos. Uma equipe do governo resolveu verificar se a variabilidade no peso do produto aumentou e escolheu, aleatoriamente, 16 unidades, medindo o peso de cada uma. O peso médio obtido da amostra foi de 102 gramas e o desvio padrão foi de 24,5 gramas. Qual é a conclusão para α = 10%. 18 300 250 200 peso (gr) 150 100 50 1 2 tratamento Figura 6: Box Plots para os dados em chiken.txt. Exercı́cio 59. Queremos comparar três hospitais, a través da satisfação demonstrada por pacientes quanto ao atendimento, durante o perı́odo de internação. Para tanto, foram selecionados, aleatoriamente, pacientes com grau de enfermidade semelhante. Cada paciente preencheu um questionário e as respostas geraram ı́ndices variando de 0 a 100, indicando o grau de satisfação. Os resultados foram n x̄ s2 (x) A 10 80,7 113,3 Hospital B 15 59,0 101,4 C 13 72,3 106,5 (i) Baseando-se nos dados apresentados, teste a igualdade das variâncias para os hospitais A e B. Use α = 0, 10. (ii) Teste se as médias populacionais são iguais. Qual sua conclusão? Use α = 0, 05. R Exercı́cio 60. Procure e carregue os dados stroke.txt. Entre outras informações, estes dados fornecem a idade de pessoas de ambos sexos as quais sofreram um enfarto na Estônia, durante o perı́odo 1991-1993. Digite var.test(age~sex). (i) O que esta sendo testado (quais são as hipóteses?) (ii) Baseado no valor p do teste, qual é a sua conclusão? Exercı́cio 61. Sejam X̄1 e S12 a média e a variância amostrais de n1 observações de uma população com média µ1 e variância σ12 . Da forma análoga consideramos X̄2 , S22 , n2 , µ2 e σ22 . (i) Estabeleça um intervalo de confiança para µ1 + µ2 . Sugestão: considere o estimador Zn1 ,n2 = (X̄1 + X̄2 ) − (µ1 + µ2 ) s . σ12 σ22 + n1 n2 D (ii) Demonstrar que se n1 → ∞ e n2 → ∞, então Zn1 ,n2 −→ Z onde Z é normal padrão. Exercı́cio 62. Sea X1 , X2 , . . . , Xn uma amostra de uma população Poisson(λ). Se utiliza X̄ como um estimador para λ. Obtenha um intervalo de confiança de (1 − α)% para λ. [Sugestão, considere o estimador, X̄ − λ Z= p λ/n 19 e mostre que Z é normal padrão quando n → ∞ (Qual dos resultados da seção de convergência podem ser utilizados?)] 3.5 R Projeto 4: Bioinformática O objetivo deste exercı́cio é aplicar alguns dos métodos utilizados em seções anteriores a uma base de dados constituı́da pelos valores da expressão genica de pacientes com leucemia linfóide e leucemia mielóide aguda. Os dados a serem utilizados foram tomados do pacote multtest, o qual forma parte de Bioconductor: www.bioconductor.org, e estão baseados nas análises em [TRGSA+ 99]. Os dados podem ser carregados como library(multtest); data(golub); caso multtest esteja instalado, ou directamente do site do curso digitando load(url("http://dcm.ffclrp.usp.br/~rrosales/aulas/r-data-stat-IBM/golub.RData")) Os dados disponı́veis na matriz golub apresentam os valores da expressão de 3051 genes (filas) de 38 pacientes diagnosticados com leucemia (colunas). Os dados dos primeiros 27 pacientes correspondem a pessoas com leucemia linfóide (ALL) e os ultimos 11 a pessoas com leucemia mielóide aguda (AML). O tipo do tumor se encontra indicado pelo vetor numerico golub.cl, onde a condição ALL é determinada pelo número 0 e AML pelo número 1. Os nomes dos genes se encontram em golub.gnames, uma matrix com 3 colunas: um ı́ndice para o gene, a identidade do gene, e o nome do gene. Por exemplo, o gene M92287 at identificado com “CNND3 Cyclin D3” corresponde a file número 1042 em golub.names, golub.gnames[1042,] [1] "2354" "CCND3 Cyclin D3" "M92287_at" Assim, golub[1042,2] [1] 1.52405 representa a expressão do gene M92287 at para o paciente 2. golub[,1] representa os valores da expressão para os 3051 genes do paciente 1, e golub[1024,] os valores da expressão do gene M92287 at para todos os 38 pacientes, golub[1024,] [1] -1.45769 -1.39420 [9] -1.47649 -1.21583 [17] -1.56783 -1.20466 [25] -1.25268 -1.27619 [33] -1.47218 -1.34158 -1.46227 -1.28137 -1.24482 -1.23051 -1.22961 -1.40715 -1.03209 -1.60767 -1.43337 -0.39456 -1.42668 -1.36149 -1.06221 -1.08902 -1.34579 -1.21719 -1.39979 -1.12665 0.40633 -1.32403 -1.37386 -1.39503 -1.20963 -1.26183 -1.36832 -1.40095 -1.48332 -1.44434 Suponhamos que desejamos separar os valores da expressão do gene M92287 at em dois grupos: ALL, AML (segundo o tipo de tumor). Definimos primeiro uma variável do tipo factor com nome gol.fact, gol.fac <- factor(golub.cl, levels=0:1, labels=c("ALL", "AML")) Agora, para obter os valores de expressão de M92287 at para os pacientes do grupo ALL fazemos golub[1042, gol.fact=="ALL"] Esta maneira de organizar os dados permite por exemplo calcular a expressão genica média (para cada gene) de tudos os pacientes do tipo ALL, 20 mediaALL <- apply(golub[, gol.fac=="ALL"], 1, mean) (veja help(apply)). A média de cada um dos 3051 genes dos dados do tipo ALL se encontra no vetor mediaALL. Suponhamos agora que temos interesse em estudar o gene identificado por CD33 (segundo [TRGSA+ 99], este gene pode ser utilizado para identificar células do tipo linfóide das mielóides!). Para saber o indice da fila de golub para este gene fazemos grep("CD33", golub.gnames[,2]) [1] 808 isto é, os valore da expressão para o antigeno CD33 se encontram em golum[808, ]. Exercı́cio 63. Digite mall <- apply(golub[,gol.fac=="ALL"], 1, mean) maml <- apply(golub[,gol.fac=="AML"], 1, mean) o <- order(abs(mall-maml), decreasing=TRUE) print(golub.gnames[o[1:5],2]) Interprete o resultado e diga qual é a sua importância. Exercı́cio 64. Utilice a função grep para encontrar os oncogenes em golub. (i) Quantos oncogenes tem a base de dados? (ii) Encontre os nomes dos oncogenes com o maior valor de expressão médio para os pacientes do tipo ALL. (iii) Faça o mesmo para os pacientes do tipo AML. Exercı́cio 65. Escolha os dados do gene CD33. (i) Faça um teste para verificar a igualdade das variâncias na expressão do gene CD33 nos grupos ALL e AML. (ii) Considere um teste para verificar a igualdade no nı́vel médio da expressão do gene CD33 nos grupos ALL e AML. Exercı́cio 66. O oncogene “MYBL2 V-myb avian myeloblastosis viral oncogene homolog-like 2” se encontra na fila 1788 de golub. (i) Utilice um boxplot para comparar os dois grupos ALL e AML. Você acredita que o nı́vel de expressão médio varia de acordo com o grupo? (ii) Considere um t-teste para verificar se o valor médio de expressão é igual. (iii) Repita estes analises para o gene “HOXA9 Homeo box A9”, o qual segundo [TRGSA+ 99] causa leucemia. 4 Análise de variância e regressão linear Exercı́cio 67. Três diferentes bancos possuem agências de mesmo porte em uma avenida no centro de São Paulo. Para testar se essas agências têm movimento médio equivalente, foi escolhida uma semana tı́pica de trabalho e o desempenho, nesses dias, foi registrado. Os dados obtı́dos, em milhões de reais é apresenta na seguinte tabela 1 Banco 2 3 146,4 199,2 179,5 98,4 263,7 194,3 227,2 203,4 111,8 275,0 173,7 246,5 289,8 127,4 265,6 Qual seria a sua conclusão ao nı́vel α =5%? Exercı́cio 68. Um estudo deseja avaliar o efeito do treinamento no tempo de reação de atletas submetidos a um certo estı́mulo. O treinamento consiste na repetição de um movimento e foi utilizada uma amostra de 37 atletas. Para cada atleta foi atribuı́do um certo número de repetições 21 X e, então, foi medido o tempo de reação Y , em milisegundos. Uma reta de mı́nimos quadrados foi ajustada aos dados, fornecendo a equação ybi = 80, 5 − 0, 9xi , i = 1, . . . , n. (i) Qual é o significado das estimativas para α e β? R Exercı́cio 69. Inicie R e carregue os dados cabbages.txt. Estes dados contem informações sobre plantios de repolhos e estão constituı́dos por quatro colunas: Cult: origem do cultivo, Date: data da plantação, HeadWt: peso da cabeça do repolho (em Kg), VitC: conteúdo de ácido ascorbico (vitamina C, em unidades arbitrárias). Ao digitar minharegressao <- lm(HeadWt~VitC) deverá aparecer Call: lm(formula = HeadW~VitC) Coefficients: (Intercept) 5.92806 VitC -0.05754 O argumento a lm é a fórmula de um modelo. Na sua forma mais simples, o modelo y~x indica que y é a variável dependente e x a variável independente (esta última é conhecida em uma regressão como a variável descritiva). Neste caso, como saı́das de lm obtemos o intercepto (β) com o eixo y e a inclinação (α) da reta que melhor descreve os dados. A estimativa para a reta de regressão portanto é HeadWt = 5.92806 − 0.05754 × VitC. Maiores informações sobre a regressão são obtidos ao escrever summary(minharegressao) o qual gera a seguinte informação Call: lm(formula = HeadWt ~ VitC) Residuals: Min 1Q Median -1.0150 -0.5117 -0.1575 3Q 0.4244 Max 1.6095 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5.928059 0.505983 11.716 < 2e-16 *** VitC -0.057545 0.008603 -6.689 9.75e-09 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.6687 on 58 degrees of freedom Multiple R-squared: 0.4355, Adjusted R-squared: 0.4257 F-statistic: 44.74 on 1 and 58 DF, p-value: 9.753e-09 Residuals fornece algumas propriedades que resumem a distribuição dos erros ei . Lembramos que a distribuição de estes apresenta a priori média 0, portanto a mediana dos erros deve estar próxima de este valor (neste caso -0.1575). Coefficients; mostra novamente as estimativas para β e α e para 22 cada uma o seu erro padrão, testes t, e p-valores. Os sı́mbolos a direita correspondem a um indicador gráfico do nı́vel do teste; * significa 0, 01 < p < 0, 05 (veja a linha Signif.codes:...). Residual standard error é a variação residual, uma quantidade que mede a variabilidade das observações a respeito da reta de regressão, e fornece uma estimativa para σ, a variância dos ei . Multiple R-squared é o coeficiente de correlação de Pearson. F-statistics corresponde ao resultado do teste H0 : α = 0, Ha : α 6= 0. Finalmente, os comandos plot(VitC,HeadWt,xlab="concentracao de vitamina C (unidades arbitrarias)", ylab="peso da cabeca do repolho (Kg)", cex=0.9, lwd=0.65) abline(lm(HeadWt~VitC), lwd=1.5, col="navy", lty=2) ● 1.0 1.5 2.0 2.5 3.0 3.5 4.0 peso da cabeca do repolho (Kg) produzem a figura 7. (i) Baseado em estes resultados, você acredita que o modelo de regressão linear é apropriado em este exemplo? Qual dos resultados fornecidos por R levo você a sua conclusão? (ii) Qual é o peso esperado de uma cabeça de repolho com 60 unidades de vitamina C? e para 100 unidades? ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 40 50 60 70 80 concentracao de vitamina C (unidades arbitrarias) Figura 7: gráfico tı́pico para uma regressão linear. Exercı́cio 70. Para verificar o efeito da variável X sobre a variável Y , foi realizado um experimento que forneceu os pares (xi , yi ) dados por (3; 13,3), (7; 24,3), (5; 15,9), (2; 12,8), (9; 29,6), (7; 29,5), (3; 14,5), (5; 23,3), (8; 32,6), (2; 12,0) e (1; 4,6). Obtehna a reta ajustada. Construa o diagrama de despersão, baseando-se nos pares de valores fornecidos e, em seguida, desenhe a reta ajustada. Baseando-se apenas no gráfico, você diria que o ajuste é adequado? Verificar se o valore de x influi sobre o valor de y, utilizando α = 5%. Exercı́cio 71. Para verificar se existe relação entre a renda familiar (em salários mı́nimos) e o número de filhos, foi coletada uma amostra de 8 famı́lias em uma ciudade. Os resultados obtidos são apresentados na seguinte tabela, e graficados na figura 8. Famı́lia 1 2 3 4 5 6 7 8 Renda Filhos 12 3 14 2 15 2 17 1 23 1 27 0 34 0 43 0 23 3.0 2.5 2.0 1.5 1.0 0.0 0.5 # de filhos 15 20 25 30 35 40 # de salarios minimos Figura 8: renda e número de filhos (i) Que conclusões podem ser tiradas, baseando-se em um diagrama de dispersão, apresentado acima, e no coeficiente de correlação? (ii) Calcule a reta de mı́nimos quadrados e interprete os parâmetros. (iii) Verifique se a renda influi no número de filhos, utilizando α = 5%. Exercı́cio 72. Verifique se é razoável considerar um modelo de regressão linear relacionando as notas de cálculo, Y, e estatı́stica, X, segundo os dados apresentados na tabela a seguir. Disciplinas Cálculo Estatı́stica Notas 5,5 7,0 3,5 4,5 7,0 8,5 2,5 3,5 8,5 9,0 6,5 4,5 6,0 5,0 4,0 5,5 0,5 1,5 5,0 6,5 Exercı́cio 73. A quantidade de chuva é um fator importante na produtividade agrı́cola. Para medir esse efeito, foram anotadas, para 8 regiões diferentes produtoras de soja, o ı́ndice pluviométrico e a produção do último ano. Chuva (mm) Produção (ton) 120 40 140 46 122 45 150 37 115 25 190 54 130 33 118 30 (i) Ajuste a reta de regressão. Como você interpretaria o coeficiente β? (ii) Utilizando a reta ajustada, encontre a produção esperada para uma região com ı́ndice pluviométrico é igual a 160 mm. (iii) Construa uma tabela ANOVA para verificar, ao nı́vel de 5%, se existe evidência estatı́stica de que o ı́ndice pluvométrico influencia na produção de soja. Exercı́cio 74. Foi realizado um experimento para comparar as qualidades de desgaste de 3 tipos de tinta submetidas a ação abrasiva de uma roda forrada que gira lentamente. Foram testadas 10 especı́menes para cada tipo de tinta e foram registrados o número de horas transcoridas até o aparecimento de uma abrasão visı́vel em cada caso. Os resultados são apresentados na tabela abaixo. Há provas suficientes de uma diferença no tempo médio até o aparecimento de uma abrasão visı́vel entre os 3 tipos de pintura? Considere o nı́vel α = 5%. 24 Tipo de tinta 2 3 148 76 393 520 236 134 55 166 415 153 513 264 433 94 535 327 214 135 280 304 335 643 216 536 128 723 258 380 549 465 10 20 30 40 50 60 Exercı́cio 75. Procure e carrege do site do curso os dados Cars93.txt. Utilize a função read.table. Estes dados contém 93 linhas e 27 colunas, e apresentam diversas caracterı́sticas de vários automóveis americanos em 1993. Os dados foram tomados do pacote MASS, e podem ser carregados na memória aos escrever library(MASS)6 , caso este pacote esteja instalado na sua distribuição de R. Uma vez carregados os dados, digite help(Cars93) e também diretamente Cars93 para obter maiores informações. O boxplot mostrado na figura 9 foi realizado com o comando attach(Cars93); e logo boxplot(Price~Type,notch=F). (i) Baseado neste gráfico, você acredita que existe evidência para pensar que os preços médios dos vehı́culos variam de acordo ao tipo? (ii) O teste ANOVA para os Preco (unidades arbitrarias) R 1 Compact Large Midsize Small Sporty Van Tipo Figura 9: preços de diversos tipos de carros americanos em 1993. preços dos veı́culos de acordo as classes em Types pode ser realizado como anova(lm(Price~Type)) resultando 6 MASS contém os dados e as funções que acompanham a referéncia: Venables, W. N. e Ripley, B. D. (1999) Modern Applied Statistics with S-PLUS. Terceira Edição. Springer Verlag. 25 Analysis of Variance Table Response: Price Df Sum Sq Mean Sq F value Pr(>F) Type 5 3421.4 684.3 11.532 1.477e-08 *** Residuals 87 5162.6 59.3 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Em base a este teste podemos descartar a hipotese que consiste em pensar que todos os tipos de carros apresentam o mesmo valor médio? (iii) Faça uma regressão linear utilizando Weight como variável independente e MPG.highway. Qual é o resultado do teste F associado? (iv) Considere o teste t.test(Price~Origin, alternative=two.sided) onde Origin e uma variável com dois valores USA e non-USA. O que esta sendo testado (quais são H0 e Ha )? Qual é o resultado do teste? (v) Considere o teste t.test(Price~Origin, alternative=greather) Quais são as hipoteses? Qual é o resultado do teste? (veja como muda a conclusão do teste em alternative hypotesis). R Exercı́cio 76. Uma agência de empregos deseja verificar o grau de satisfação de seus clientes. Para tanto, escolheu domicı́lios de famı́lias de classe A, B e C, que fizeram uso da agência, e solicitou que um questionário fosse preenchido. Os questionários foram devidamente codificados, a fim de fornecer um ı́ndice de satisfação que varia de 1 a 5 (insatisfeito a satisfeito). Os resultados do questionario se encontram no aquivo agencia.txt. Faça um teste ANOVA para verificar se o ı́ndice de satisfação médio varia ou não de classe a classe. Qual é a conclusão se α =0,05%? 5 5.1 Apêndice Distribuições amostrais Esta seção apresenta diversos resultados sobre a origem de varias distribuições amostrais utilizadas em aula. O seu estudo é opcional e só devera ser considerado numa segunda leitura. 5.1.1 Distribuições Gamma e χ2 Apresentamos dois distribuições essenciais no estudo das distribuições amostrais de X̄ e S 2 . Se X é normal padrão, qual será a distribuição de X 2 ? Encontraremos primeiro a função de distribuição de Y = X 2 , FY . Obviamente FY (y) = 0 se y < 0. Se y ≥ 0, então √ √ FY (y) = P(Y ≤ y) = P(X 2 ≤ y) = P(− y ≤ X ≤ y) Z +√y Z √y 2 1 −x2 /2 1 √ e−x /2 dx. = √ √ e dx = 2 2π 2π − y 0 √ Consideramos a seguir a seguinte troca de variável, x = t, então Z y 1 1 √ t− 2 e−t/2 dt. FY (y) = 2π 0 A densidade de Y , fY , é a derivada de FY com respeito a y, ( 1 √1 y 2 e−y/2 , se y > 0, 2π fY (y) = 0, caso contrário. 26 Esta densidade é um membro da “familia de distribuições gamma”. Antes de definirmos esta famı́lia lembramos a definição da função gamma, muito utilizada em analise. A função Γ : (0, +∞) → [0, +∞) dada por Z +∞ Γ(x) = tx−1 e−t dt, x > 0, 0 é conhecida como a função gamma. Utilizando integração por partes é possı́vel mostrar que Γ(x+1) = xΓ(x) para qualquer x > 0, e portanto como um caso particular obtemos que Γ(n + 1) = n! para n ∈ N. √ Exercı́cio 77. Mostre que Γ(1/2) = π. Definição 2. A variável aleatória X tem distribuição gamma com parâmetros α e β > 0 se a sua densidade é dada por 1 xα−1 e−x/β , se x ≥ 0, fX (x) = β α Γ(α) 0, caso contrário. Segue imediatamente deste definição, do Exercicio 77 é do exposto nesta seção que se X é normal padrão, então X 2 tem distribuição gamma com parâmetros α = 1/2 e β = 2 (justifique isto!). Exercı́cio 78. (i) Mostre que a função geradora de momentos de uma variável aleatória gamma é dada por 1 M (t) = , (1 − βt)α sendo que M (t) esta definida no domı́nio (−∞, β1 ). [Sugestão: considere x = βu e logo a troca de variável u = v/(1 − βt)]. (ii) Utilizando M (t) mostre que EX = αβ e Var(X) = αβ 2 . Proposição 1. Sejam X1 , . . . , Xn variáveis aleatórias independentes gamma com parâmetros αi , β respectivamente. A variável aleatória X1 + . . . Xn tem distribuição gamma com parâmetros α1 + . . . + αn e β. Demonstração. Lembramos que se X1 e X2 são variáveis aleatórias independentes então a função geradora de Z = X1 + X2 é simplesmente MZ (t) = MX1 (t)MX2 (t). Temos então que MX1 +...+Xn (t) = MX1 (t) · · · MXn (t) = = 1 1 ··· α 1 (1 − βt) (1 − βt)αn 1 , (1 − βt)α1 +...+αn a qual é a função geradora de uma variável aleatória gamma com parâmetros α1 + . . . + αn e β. Suponhamos agora que X1 , . . . , Xn é uma amostra i.i.d. de uma população normal padrão. Neste caso diante ao exposto temos que X12 , . . . , Xn2 são independentes e com distribuição gamma com α = 1/2 e β = 2. Da proposição acima temos que n X12 + . . . Xn2 ∼ gamma , 2 . (10) 2 Exercı́cio 79. (i) Suponha que X e Y são independentes e com distribuição χ2 com n graus de liberdade e χ2 com m graus de liberdade respectivamente. Mostre que X + Y tem distribuição χ2 com n + m graus de liberdade. (ii) Suponha agora que X e e X + Y são χ2 com m e n, m < n, graus de liberdade. Mostre que Y é χ2 com n − m graus de liberdade. Definição 3. Uma variável aleatória tem distribuição χ2 com n graus de liberdade se esta tem distribuição gamma com parâmetros α = n/2 e β = 2. 27 0.10 0.08 0.06 0.04 0.02 0.00 0 10 20 30 40 50 60 70 Figura 10: densidade χ2 para 10 (linha continua), 30 e 50 graus de liberdade. Esta terminologia introduzida pelo estatı́stico Britânico K. Pearson (1857-1936) ainda é utilizada hoje em dia. A figura 10 mostra a densidade χ2 para diferentes graus de liberdade. O interesse inicial na distribuição χ2 è que esta esta relacionada a distribuição amostral de S 2 . Com o propósito de mostrarmos esta relação utilizaremos o seguinte resultado. Teorema 10. Seja X1 , . . . , Xn uma amostra i.i.d. de uma população normal. Os estimadores X̄ e S 2 são independentes. Este Teorema permite obter a distribuição amostral de S 2 no caso quando são consideradas amostras i.i.d. de uma população normal. Teorema 11. Seja X1 , . . . , Xn , n ≥ 2, uma amostra i.i.d. de uma população normal com média µ e variância σ 2 . A variável aleatória (n − 1)S 2 V = σ2 2 apresenta distribuição χ com n − 1 graus de liberdade. Demonstração. Observamos que cada uma das variáveis aleatórias (Xi − µ)/σ são independentes e normais padrão. Neste caso, diretamente de (10) temos que n X X i − µ 2 i=1 σ tem distribuição χ2 com n graus de liberdade. Se X1 , . . . , Xn é uma amostra i.i.d. de uma população normal√ com média µ e variância σ 2 , então das propriedades da distribuição normal, a variável aleatória n(X̄ − µ)/σ é normal padrão. Portanto n(X̄ − µ)2 /σ 2 tem distribuição χ2 com 1 grau de liberdade. Observamos agora que n X X i − µ 2 i=1 σ n X (Xi − X̄)2 X̄ − µ 2 σ2 σ i=1 2 (n − 1)S X̄ − µ 2 = +n . 2 σ σ = 28 +n Segue então do Teorema 10 e do Exercicio 79(ii) que (n − 1)S 2 /σ 2 tem distribuição χ2 com n − 1 graus de liberdade. 5.1.2 Distribuição t (t-Student) Estudamos a continuação a distribuição da variável aleatória T = √ X̄ − µ , n S obtida ao considerar uma amostra i.i.d. de uma população normal. Observamos primeiro a seguinte representação para T , r X̄ − µ X̄ − µ σ X̄ − µ . S 2 √ = √ · = √ . σ2 S/ n σ/ n S σ/ n Se Z = X̄ − µ (n − 1)S 2 √ eV = , então σ2 σ/ n X̄ − µ Z √ =p . S/ n V /(n − 1) Observamos que Z tem distribuição N (0, 1) e V tem distribuição χ2 com n − 1 graus de liberdade, e também que o par de variáveispaleatórias Z, V são independentes. O seguinte resultado determina a distribuição do quociente Z/ V /n. Proposição 2. Seja Z com distribuição N (0, 1) e V com distribuição χ2 com n graus de liberdade. Se Z e V são independentes, então a variável aleatória Z T =p V /n tem densidade de probabilidade f dada por n+1 Γ( n+1 x2 − 2 2 ) √ 1+ f (x) = n πnΓ( n2 ) Demonstração. Calculamos primeiro a densidade de U = de U é dada por a2 Z 2 FU (a) = P(U ≤ a) = P(Y ≤ a ) = 0 para todo x ∈ R. √ V . Temos que a função de distribuição n 1 x 2 −1 e−x/2 dx se a > 0. 2n/2 Γ(n/2) Tomando x = u2 obtemos Z FU (a) = 0 a 2 2n/2 Γ(n/2) un−1 e−u 2 /2 du se a > 0. Se derivamos respeito de a obtemos a densidade de U , 2 2 un−1 e−u /2 , n/2 fU (u) = 2 Γ(n/2) 0, se u > 0, se u ≤ 0. Calculamos agora a distribuição de probabilidade de Z/U . A tal fim observamos que Z P U ≤ a = P(Z ≤ aU ) = P (Z, U ) ∈ Ga , 29 (11) onde Ga = {(x, u) ∈ R2 : u > 0 e x ≤ au}. Devido a independência de Z e U , temos que a densidade conjunta de (Z, U ) é 2 2 fZ (x)fU (u) = √1 e−x2 /2 un−1 e−u /2 , se u > 0, 2n/2 Γ( n2 ) 2π fZ,U (x, u) = 0, se u ≤ 0. Conseqüentemente, Z P U ZZ ≤a = fZ (x)fU (u) dxdu, Ga e trocando a ordem das integrais, para a 6= 0, Z Z +∞ Z au fZ (x)fU (u)dx du P ≤a = U −∞ 0 Z au Z +∞ 2 1 √ e−x /2 dx du. fU (u) = 2π −∞ 0 Mantendo u fixo e trocando x = ut na integral mais interna resulta em Z a Z +∞ Z 1 −(ut)2 /2 √ e ≤a = fU (u) P u dt du U 2π 0 −∞ Z a Z +∞ 2 1 = fU (u) √ e−(ut) /2 u du dt, 2π −∞ 0 sendo que a ultima igualdade resulta ao trocar novamente a ordem de integração. Temos então, da última igualdade, que a densidade de Z/U pode ser escrita como Z +∞ 2 1 fU (u) √ e−(au) /2 u du 2π 0 Z +∞ 2 2 2 √ = un e−(1+a )u /2 du. n/2 2πΓ( n ) 2 0 2 √ Se agora consideramos a troca u = v/ 1 + a2 na ultima integral obtemos fZ/U (a) = fZ/U (a) = (1 + a2 )−(n+1)/2 Substituindo v = √ 2n/2 √ 2 2πΓ( n2 ) Z +∞ v n e−v 2 /2 dv. 0 2s, a integral a direita pode ser expressada em termos da função gamma como √ Z Z +∞ 2 2n/2 2 +∞ n − 1 −s v n e−v /2 dv = s 2 2 e ds 2 0 0 √ 2n/2 2 n + 1 = Γ , 2 2 e assim, Γ n+1 2 fZ/U (a) = √ (1 + a2 )−(n+1)/2 . πΓ( n2 ) p Por ultimo derivamos agora a densidade de Z/ V /n. Observamos que, √ Z √ Z Z p = n√ = n , U V V /n 30 e então finalmente a distribuição de √ nZ/U é Γ n+1 2 a2 −(n+1)/2 1+ . f (a) = √ n n πnΓ( 2 ) Definição 4. Uma variável aleatória tem distribuição t com n graus de liberdade se a sua densidade é dada pela lei em (11). 0.0 −6 −5 0.1 −4 0.2 −3 0.3 −2 −1 0.4 A distribuição t foi descrita inicialmente por William S. Gosset (1876-1937). Gosset trabalhava na cervejaria Guiness em Dublim a qual proibia que os seus empleados publicassem o seu trabalho cientı́fico. Devido a isto Gosset publico os seus trabalhos utilizando o pseudônimo “Student”. Em honra ao seu descobridor hoje em dia a distribuição t também é conhecida como a “distribuição Student” (ou t-Student). Esta distribuição é apresentada na figura 11. −4 −2 0 2 4 −4 −2 0 2 4 Figura 11: esquerda: densidade t de Student para 5 (linha continua), 10, 20 e 30 graus de liberdade, e direita: mesmas densidades com ordenas algorı́tmicas para enfatizar a diferença nas caudas. A fim de estabelecer uma comparação, a densidade normal padrão também se encontra graficada, sendo que esta é a densidade com a menor probabilidade nas caudas. 5.1.3 Distribuição F 2 2 Sejam X e Y duas populações e SX , XY2 os estimadores das variâncias σX e σY2 . Desejamos estudar 2 2 o quociente σX /σY e a tal fim determinamos a distribuição de 2 2 SX σX . SY2 σY2 Esta variável aleatória tem “distribuição F ”. Definição 5. A variável aleatória X apresenta distribuição F com m graus de liberdade no numerados e n graus de liberdade no denominador se a sua densidade é dada por m+n m+n Γ( 2 ) m m/2 x m2 −1 1 + m x − 2 , se x > 0, n n f (x) = Γ( m 2 )Γ( 2 ) n 0, se x ≤ 0. 31 1.0 0.8 0.6 0.4 0.2 0.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Figura 12: densidades F (m, n) para vários valores de m e n (linha continua (50, 50), ponteada (30, 30) e linha interrompida (10, 1000)). A distribuição F é também conhecida como a distribuição de Fisher em honra a Sir Ronald A. Fisher (1890–1962). Teorema 12. Sejam U e V duas variáveis aleatórias com distribuição χ2 de m e n graus de liberdade respectivamente. Se U e V são independentes, então U/m V /n tem distribuição F com m graus de liberdade no numerador e n graus de liberdade no denominador. Demonstração. Encontramos primeiro a distribuição de U/V . Devido a que U > 0 e V > 0, temos que U P ≤ a = 0, se a ≤ 0. V No caso a > 0 temos U ≤ a = P(U ≤ aV ) = P (U, V ) ∈ A , P V onde A = {(u, v) : u ≤ av e u, v ≥ 0} ⊂ R2 . Seguindo o mesmo argumento utilizado para derivar a distribuição de Z/U na Proposição 2, temos ZZ m n U 1 P ≤a = u 2 −1 v 2 −1 e−u/2 e−v/2 du dv. m+n m n V 2 2 Γ( 2 )Γ( 2 ) A Seja C −1 =2 m+n 2 n Γ( m 2 )Γ( 2 ). Se trocamos a ordem de integração na ultima integral obtemos Z +∞ Z av n m U P ≤a =C u 2 −1 v 2 −1 e−u/2 e−v/2 du dv. V 0 0 Se deixamos v fixo e consideramos a troca u = vt na integral mais interna obtemos que o lado direito da ultima igualdade é Z +∞ Z a n m m C v 2 −1 v 2 −1 t 2 −1 e−vt/2 e−v/2 v dt dv 0 0 Z a Z +∞ m+n m v 2 −1 t 2 −1 e−(1+t)v/2 dv dt. =C 0 0 32 Para t fixo consideramos agora a troca v = 2s/(1 + t), Z a Z +∞ m+n 2 2 m −1 m+n −1 −s e ds dt C t2 s 2 1+t 0 0 Z a Z +∞ m+n m+n 2 2 m −1 t 2 dt =C s 2 −1 e−s ds 1+t 0 0 Z a m+n m m + n 2 2 2 −1 dt Γ . =C m+n t 2 0 (1 + t) 2 Desta forma, Z a Γ( m+n m+n m U 2 ) t 2 −1 (1 + t)− 2 dt. P ≤a = n )Γ( ) V Γ( m 0 2 2 Se derivamos agora respeito de a obtemos a densidade de probabilidade f˜ de U/V , ( Γ( m+n ) m m+n −1 2 (1 + a)− 2 , se a ≥ 0, m n a 2 f˜(a) = Γ( 2 )Γ( 2 ) 0, caso contrário. Num segundo passo, calculamos a distribuição de U/m V /n , isto é, U/m nU = . V /n mV Lembramos que se X é uma variável aleatória com densidade fX , então Y = bX, b 6= 0, tem densidade 1 fY (y) = fX (y/p) |p| Então a densidade f de f (a) = U/m V /n segue da densidade de U/V , Γ( m+n 2 ) n Γ( m 2 )Γ( 2 ) m2 m n m a 2 −1 1 + 0, − m+n 2 m na , se a ≥ 0, caso contrário. Esta expressão corresponde a densidade F com m graus de liberdade no numerador e n no denominador. Exercı́cio 80. Mostre o seguinte resultado. Proposição 3. Seja X uma variável aleatória com distribuição F com m graus de liberdade no numerador e n graus de liberdade no denominador. A variável aleatória 1/X tem distribuição F com n graus de liberdade no numerador e m graus de liberdade no denominador. Referências [Ber13] J. Bernoulli. ...Ars conjectandi, opus posthumum. Accedit Tractatus de seriebus infinitis, et epistola gallicé scripta de ludo pilae reticularis. Impensis Thurnisiorum, fratrum, Basileae, 1713. Tradução: E. D. Sylla. The Art of Conjecturing, together with Letter to a friend of Sets in Court Tennis. The Johns Hopkins University Press, 2005. [GS01] G. Grimmett and D. Stirzaker. Probability and Random Processes. Oxford University Press, 3rd edition, 2001. 33 [Jam02] B. R. James. Probabilidade: um curso em nı́vel intermediário. Projeto Euclides. Associação Instituto Nacional de Matemática Pura e Aplicada, Rio de Janeiro, 2002. [Rao73] C. R. Rao. Linear Statistical Inference and its Applications. Wiley, New York, 1973. [TRGSA+ 99] T. R. T. R. Golub, D. K. Slonim, P. Amayo, D. Huard, M. Gaasenbeek, J. P. Mesirov, H. Coller, M. L. Loh, M. R. Downing, M. A. Caligiuri, C. D. Bloomfield, and E. S. Lander. Molecular classification of cancer: Class discovery and class prediction by gene expression monitoring. Science, 286(5439):531–537, 1999. 34 6 Tabelas Tabela 1: valores da distribuição normal padrão. A tabela fornece os valores de z que correspondem a α, onde α = P(0 ≤ Z < z) . As colunas apresentam a segunda casa decimal de z, e as filas a parte inteira e a primeira casa decimal. 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 0.00 0.0000 0.0398 0.0793 0.1179 0.1554 0.1915 0.2257 0.2580 0.2881 0.3159 0.3413 0.3643 0.3849 0.4032 0.4192 0.4332 0.4452 0.4554 0.4641 0.4713 0.4772 0.4821 0.4861 0.4893 0.4918 0.4938 0.4953 0.4965 0.4974 0.4981 0.4987 0.01 0.0040 0.0438 0.0832 0.1217 0.1591 0.1950 0.2291 0.2611 0.2910 0.3186 0.3438 0.3665 0.3869 0.4049 0.4207 0.4345 0.4463 0.4564 0.4649 0.4719 0.4778 0.4826 0.4864 0.4896 0.4920 0.4940 0.4955 0.4966 0.4975 0.4982 0.4987 0.02 0.0080 0.0478 0.0871 0.1255 0.1628 0.1985 0.2324 0.2642 0.2939 0.3212 0.3461 0.3686 0.3888 0.4066 0.4222 0.4357 0.4474 0.4573 0.4656 0.4726 0.4783 0.4830 0.4868 0.4898 0.4922 0.4941 0.4956 0.4967 0.4976 0.4982 0.4987 0.03 0.0120 0.0517 0.0910 0.1293 0.1664 0.2019 0.2357 0.2673 0.2967 0.3238 0.3485 0.3708 0.3907 0.4082 0.4236 0.4370 0.4484 0.4582 0.4664 0.4732 0.4788 0.4834 0.4871 0.4901 0.4925 0.4943 0.4957 0.4968 0.4977 0.4983 0.4988 0.04 0.0160 0.0557 0.0948 0.1331 0.1700 0.2054 0.2389 0.2704 0.2995 0.3264 0.3508 0.3729 0.3925 0.4099 0.4251 0.4382 0.4495 0.4591 0.4671 0.4738 0.4793 0.4838 0.4875 0.4904 0.4927 0.4945 0.4959 0.4969 0.4977 0.4984 0.4988 35 0.05 0.0199 0.0596 0.0987 0.1368 0.1736 0.2088 0.2422 0.2734 0.3023 0.3289 0.3531 0.3749 0.3944 0.4115 0.4265 0.4394 0.4505 0.4599 0.4678 0.4744 0.4798 0.4842 0.4878 0.4906 0.4929 0.4946 0.4960 0.4970 0.4978 0.4984 0.4989 0.06 0.0239 0.0636 0.1026 0.1406 0.1772 0.2123 0.2454 0.2764 0.3051 0.3315 0.3554 0.3770 0.3962 0.4131 0.4279 0.4406 0.4515 0.4608 0.4686 0.4750 0.4803 0.4846 0.4881 0.4909 0.4931 0.4948 0.4961 0.4971 0.4979 0.4985 0.4989 0.07 0.0279 0.0675 0.1064 0.1443 0.1808 0.2157 0.2486 0.2794 0.3078 0.3340 0.3577 0.3790 0.3980 0.4147 0.4292 0.4418 0.4525 0.4616 0.4693 0.4756 0.4808 0.4850 0.4884 0.4911 0.4932 0.4949 0.4962 0.4972 0.4979 0.4985 0.4989 0.08 0.0319 0.0714 0.1103 0.1480 0.1844 0.2190 0.2517 0.2823 0.3106 0.3365 0.3599 0.3810 0.3997 0.4162 0.4306 0.4429 0.4535 0.4625 0.4699 0.4761 0.4812 0.4854 0.4887 0.4913 0.4934 0.4951 0.4963 0.4973 0.4980 0.4986 0.4990 0.09 0.0359 0.0753 0.1141 0.1517 0.1879 0.2224 0.2549 0.2852 0.3133 0.3389 0.3621 0.3830 0.4015 0.4177 0.4319 0.4441 0.4545 0.4633 0.4706 0.4767 0.4817 0.4857 0.4890 0.4916 0.4936 0.4952 0.4964 0.4974 0.4981 0.4986 0.4990 Tabela 2: Valores da distribuição t-Student bicaudal. A tabela fornece os valores de x para α, onde α = P(|T | ≥ x), ou alternativamente para γ onde γ = 1 − α = P(−x < T < x). GL denota os graus de liberdade. GL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 42 44 46 48 50 60 70 80 90 100 120 150 200 300 500 ∞ γ α 0.4 0.6 0.727 0.617 0.584 0.569 0.559 0.553 0.549 0.546 0.544 0.542 0.540 0.539 0.538 0.537 0.536 0.535 0.534 0.534 0.533 0.533 0.532 0.532 0.531 0.531 0.531 0.531 0.530 0.530 0.530 0.530 0.530 0.530 0.529 0.529 0.529 0.529 0.529 0.529 0.529 0.528 0.528 0.528 0.528 0.528 0.527 0.527 0.527 0.526 0.526 0.526 0.526 0.525 0.525 0.525 0.524 0.5 0.5 1.000 0.817 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 0.697 0.696 0.694 0.692 0.691 0.690 0.689 0.688 0.688 0.686 0.686 0.685 0.685 0.684 0.684 0.684 0.683 0.683 0.683 0.683 0.682 0.682 0.682 0.682 0.681 0.681 0.681 0.681 0.681 0.680 0.680 0.680 0.680 0.679 0.679 0.678 0.678 0.677 0.677 0.677 0.676 0.676 0.675 0.675 0.675 0.6 0.4 1.376 1.061 0.979 0.941 0.920 0.910 0.896 0.889 0.883 0.879 0.876 0.873 0.870 0.868 0.866 0.865 0.863 0.862 0.861 0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854 0.853 0.853 0.853 0.852 0.852 0.852 0.851 0.851 0.851 0.851 0.850 0.850 0.850 0.849 0.849 0.848 0.847 0.846 0.846 0.845 0.845 0.844 0.843 0.843 0.842 0.842 0.7 0.3 1.963 1.386 1.250 1.190 1.156 1.134 1.119 1.108 1.100 1.093 1.088 1.083 1.079 1.076 1.074 1.071 1.069 1.067 1.066 1.063 1.061 1.060 1.059 1.058 1.058 1.057 1.056 1.055 1.055 1.054 1.054 1.053 1.052 1.052 1.052 1.051 1.051 1.050 1.050 1.049 1.049 1.048 1.048 1.047 1.045 1.044 1.043 1.042 1.042 1.041 1.040 1.039 1.038 1.038 1.036 0.8 0.2 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.309 1.309 1.308 1.307 1.306 1.306 1.305 1.304 1.304 1.303 1.302 1.301 1.300 1.299 1.299 1.296 1.294 1.292 1.291 1.290 1.289 1.287 1.286 1.284 1.283 1.282 0.9 0.1 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.695 1.694 1.692 1.691 1.690 1.688 1.687 1.686 1.685 1.684 1.682 1.680 1.679 1.677 1.676 1.671 1.667 1.664 1.662 1.660 1.658 1.655 1.652 1.650 1.648 1.645 36 0.95 0.05 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.040 2.037 2.035 2.032 2.030 2.028 2.026 2.024 2.023 2.021 2.018 2.015 2.013 2.011 2.009 2.000 1.994 1.990 1.987 1.984 1.980 1.976 1.972 1.968 1.965 1.960 0.98 0.02 31.820 6.965 4.541 3.747 3.365 3.143 2.998 2.897 2.821 2.764 2.718 2.681 2.650 2.625 2.602 2.584 2.567 2.552 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.453 2.449 2.445 2.441 2.438 2.434 2.431 2.429 2.426 2.423 2.418 2.414 2.410 2.407 2.403 2.390 2.381 2.374 2.369 2.364 2.358 2.351 2.345 2.339 2.334 2.326 0.99 0.01 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.744 2.738 2.733 2.728 2.724 2.719 2.715 2.712 2.708 2.704 2.698 2.692 2.687 2.682 2.678 2.660 2.648 2.639 2.632 2.626 2.617 2.609 2.601 2.592 2.586 2.576 0.995 0.005 127.321 14.089 7.453 5.598 4.773 4.317 4.029 3.833 3.690 3.581 3.497 3.428 3.372 3.326 3.286 3.252 3.222 3.197 3.153 3.135 3.119 3.104 3.090 3.078 3.067 3.057 3.047 3.038 3.030 3.022 3.015 3.008 3.002 2.996 2.991 2.985 2.980 2.976 2.971 2.963 2.956 2.949 2.943 2.937 2.915 2.899 2.887 2.878 2.871 2.860 2.849 2.839 2.828 2.820 2.807 0.998 0.002 318.309 22.327 10.215 7.173 5.893 5.208 4.785 4.501 4.297 4.144 4.025 3.930 3.852 3.787 3.733 3.686 3.646 3.610 3.552 3.527 3.505 3.485 3.467 3.450 3.435 3.421 3.408 3.396 3.385 3.375 3.365 3.356 3.348 3.340 3.333 3.326 3.319 3.313 3.307 3.296 3.286 3.277 3.269 3.261 3.232 3.211 3.195 3.183 3.174 3.160 3.145 3.131 3.118 3.107 3.090 0.999 0.001 636.619 31.599 12.924 8.610 6.869 5.959 5.408 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.850 3.819 3.792 3.768 3.745 3.725 3.707 3.690 3.674 3.659 3.646 3.633 3.622 3.611 3.601 3.591 3.582 3.574 3.566 3.558 3.551 3.538 3.526 3.515 3.505 3.496 3.460 3.435 3.416 3.402 3.391 3.373 3.357 3.340 3.323 3.310 3.291 37 α GL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 .98 0.001 0.04 0.185 0.429 0.752 1.134 1.564 2.032 2.532 3.059 3.609 4.178 4.765 5.368 5.985 6.614 7.255 7.906 8.567 9.237 9.915 10.6 11.293 11.992 12.697 13.409 14.125 14.847 15.574 16.306 .99 0 0.02 0.115 0.297 0.554 0.872 1.239 1.646 2.088 2.558 3.053 3.571 4.107 4.66 5.229 5.812 6.408 7.015 7.633 8.26 8.897 9.542 10.196 10.856 11.524 12.198 12.879 13.565 14.256 14.953 0.001 0.051 0.216 0.484 0.831 1.237 1.69 2.18 2.7 3.247 3.816 4.404 5.009 5.629 6.262 6.908 7.564 8.231 8.907 9.591 10.283 10.982 11.689 12.401 13.12 13.844 14.573 15.308 16.047 16.791 .975 0.004 0.103 0.352 0.711 1.145 1.635 2.167 2.733 3.325 3.94 4.575 5.226 5.892 6.571 7.261 7.962 8.672 9.39 10.117 10.851 11.591 12.338 13.091 13.848 14.611 15.379 16.151 16.928 17.708 18.493 .95 0.016 0.211 0.584 1.064 1.61 2.204 2.833 3.49 4.168 4.865 5.578 6.304 7.042 7.79 8.547 9.312 10.085 10.865 11.651 12.443 13.24 14.041 14.848 15.659 16.473 17.292 18.114 18.939 19.768 20.599 .9 0.064 0.446 1.005 1.649 2.343 3.07 3.822 4.594 5.38 6.179 6.989 7.807 8.634 9.467 10.307 11.152 12.002 12.857 13.716 14.578 15.445 16.314 17.187 18.062 18.94 19.82 20.703 21.588 22.475 23.364 .8 0.148 0.713 1.424 2.195 3 3.828 4.671 5.527 6.393 7.267 8.148 9.034 9.926 10.821 11.721 12.624 13.531 14.44 15.352 16.266 17.182 18.101 19.021 19.943 20.867 21.792 22.719 23.647 24.577 25.508 .7 0.455 1.386 2.366 3.357 4.351 5.348 6.346 7.344 8.343 9.342 10.341 11.34 12.34 13.339 14.339 15.338 16.338 17.338 18.338 19.337 20.337 21.337 22.337 23.337 24.337 25.336 26.336 27.336 28.336 29.336 .5 1.074 2.408 3.665 4.878 6.064 7.231 8.383 9.524 10.656 11.781 12.899 14.011 15.119 16.222 17.322 18.418 19.511 20.601 21.689 22.775 23.858 24.939 26.018 27.096 28.172 29.246 30.319 31.391 32.461 33.53 .3 1.642 3.219 4.642 5.989 7.289 8.558 9.803 11.03 12.242 13.442 14.631 15.812 16.985 18.151 19.311 20.465 21.615 22.76 23.9 25.038 26.171 27.301 28.429 29.553 30.675 31.795 32.912 34.027 35.139 36.25 .2 3.841 5.991 7.815 9.488 11.07 12.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.41 32.671 33.924 35.172 36.415 37.652 38.885 40.113 41.337 42.557 43.773 .05 4.218 6.438 8.311 10.026 11.644 13.198 14.703 16.171 17.608 19.021 20.412 21.785 23.142 24.485 25.816 27.136 28.445 29.745 31.037 32.321 33.597 34.867 36.131 37.389 38.642 39.889 41.132 42.37 43.604 44.834 .04 5.024 7.378 9.348 11.143 12.833 14.449 16.013 17.535 19.023 20.483 21.92 23.337 24.736 26.119 27.488 28.845 30.191 31.526 32.852 34.17 35.479 36.781 38.076 39.364 40.646 41.923 43.195 44.461 45.722 46.979 .025 5.412 7.824 9.837 11.668 13.388 15.033 16.622 18.168 19.679 21.161 22.618 24.054 25.472 26.873 28.259 29.633 30.995 32.346 33.687 35.02 36.343 37.659 38.968 40.27 41.566 42.856 44.14 45.419 46.693 47.962 .02 6.635 9.21 11.345 13.277 15.086 16.812 18.475 20.09 21.666 23.209 24.725 26.217 27.688 29.141 30.578 32 33.409 34.805 36.191 37.566 38.932 40.289 41.638 42.98 44.314 45.642 46.963 48.278 49.588 50.892 .01 9.55 12.429 14.796 16.924 18.907 20.791 22.601 24.352 26.056 27.722 29.354 30.957 32.535 34.091 35.628 37.146 38.648 40.136 41.61 43.072 44.522 45.962 47.391 48.812 50.223 51.627 53.023 54.411 55.792 57.167 .002 Tabela 3: Distribuição χ2 . A tabela fornece o valor de x para α de maneira que P(χ2 ≥ x) = α. GL denota graus de liberdade. 10.828 13.816 16.266 18.467 20.515 22.458 24.322 26.124 27.877 29.588 31.264 32.909 34.528 36.123 37.697 39.252 40.79 42.312 43.82 45.315 46.797 48.268 49.728 51.179 52.62 54.052 55.476 56.892 58.301 59.703 .001