Lista de exercicios

Transcrição

Lista de exercicios
USP-FFCLRP
DCM
Prof. Rafael A. Rosales
Introdução a Inferência Estatı́stica
Informática Biomedica
21 de março de 2012
Sumário
1 Convergência de variáveis aleatórias
1.1 Leis dos Grandes Números . . . . . . . .
1.1.1 Lei Fraca dos Grandes Números
1.1.2 Lei Forte dos Grandes Números .
1.2 Teorema Central do Limite . . . . . . .
1.2.1 Teoremas de De Moivre-Laplace
1.2.2 O Teorema Central do Limite . .
1.3 Exercı́cios . . . . . . . . . . . . . . . . .
1.4 Projeto 1: histogramas . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
2
3
4
5
5
6
6
7
2 Estimação pontual
2.1 Medidas resumo . . . . . . . .
2.2 Estimadores . . . . . . . . . . .
2.3 Máxima verossimilhança . . . .
2.4 Distribuições amostrais . . . . .
2.5 Projetos 2 e 3: estimadores . .
2.5.1 Um estimador para π .
2.5.2 O paradoxo de Bertrand
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8
8
9
10
10
10
10
12
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
desconhecida
. . . . . . . .
. . . . . . . .
. . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
12
14
15
15
15
16
17
18
18
20
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Intervalos e testes de hipótese
3.1 Intervalos de Confiança . . . . . . . . . . . . . . . .
3.2 Intervalo para µ1 − µ2 . . . . . . . . . . . . . . . . .
3.3 Intervalo para p1 − p2 . . . . . . . . . . . . . . . . .
3.4 Testes de Hipóteses . . . . . . . . . . . . . . . . . . .
3.4.1 Testes para µ e p . . . . . . . . . . . . . . . .
3.4.2 Testes t-Student: teste e intervalo para µ com
3.4.3 Teste χ2 : Testes e intervalos para a Variância
3.4.4 Teste F (Fisher-Snedecor): σ12 /σ22 . . . . . . .
3.5 Projeto 4: Bioinformática . . . . . . . . . . . . . . .
. .
. .
. .
. .
. .
σ2
. .
. .
. .
4 Análise de variância e regressão linear
5 Apêndice
5.1 Distribuições amostrais . . . . . .
5.1.1 Distribuições Gamma e χ2
5.1.2 Distribuição t (t-Student)
5.1.3 Distribuição F . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
21
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6 Tabelas
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
26
26
26
29
31
35
Convergência de variáveis aleatórias
As notas nesta primeira seção apresentam algumas noções básicas sobre a covergência de variáveis
aleatórias. O propósito é fornecer a linguagem necessária para abordar corretamente dois resultados
1
clásicos: a Lei dos Grandes Números e o Teorema Central do Limite1 . Estes resultados constituem
a base do curso a ser apresentado durante o semestre.
Definição 1. Sejam (Xn ), n ≥ 1, e X, variáveis aleatórias definidas no mesmo espaço de probabilidade (Ω, B, P), e sejam FXn e FX as suas funções de distribuição.
q.c.
(i) Xn converge quase certamente a X, denotado por Xn −→ X, se
P {ω ∈ Ω : Xn (ω) → X(ω) quando n → ∞} = 1.
r
(ii) Seja r um intero positivo. Xn converge a X no r-ésimo momento, denotado Xn −→ X, se
E[Xnr ] < ∞ e
E |Xn − X|r → 0, quando n → ∞.
P
(iii) Xn converge a X em probabilidade, denotado Xn −→ X, se para todo ε > 0,
P {ω ∈ Ω : |Xn (ω) − X(ω)| > ε → 0, quando n → ∞.
D
(iv) Xn converge em distribuição, denotado Xn −→ X, se
Fn (x) → F (x)
quando n → ∞, para todo x ∈ R onde F (x) é continua.
Observamos que o último tipo de convergência corresponde a convergência das funções de distribuição Fn (x) = P (Xn ≤ x) a função de distribuição F (x) = P (X ≤ x), e não diretamenta da
sequência de variáveis aleatórias Xn a variável aleatória X, portanto para este tipo de converg ência,
Ω e B são irrelevantes.
Teorema 1. Sejam Xn , n ≥ 1 e X variáveis aleatórias definidas em (Ω, B, P). Para todo inteiro
positivo r, temos que
q.c.
Xn −→ X V V
V VV &.
r
Xn −→ X
P
08 Xn −→ X
hhhhh
+3
D
Xn −→ X
Se r > s ≥ 1, então
s
+3 X −→
X.
n
r
Xn −→ X
Não existem outras implicações em geral.
A prova deste Teorema pode ser encontrada em [GS01], na seção 7.2.
1.1
Leis dos Grandes Números
Pn
Seja Xn , n ∈ N uma sequência de variáveis aleatórias, e seja Sn = i=0 Xi a sua soma parcial.
Em esta seção estudaremos o comportamento de Sn no limite quando n → ∞. Em geral, é possı́vel
formular o problema da seguinte maneira. Se an e bn são duas sequências de númeors reais, quais
são as condições que garantem o limite
Sn /bn − an −→ S
quando
n → ∞,
(1)
onde “−→” denota uma das formas de convergência definidas na definição 1. Esta seção descreve
dois resultados fundamentais conhecidos como a Lei Fraca e a Lei Forte dos Grandes Números. No
primeiro caso a convergência é em probabilidade, e no segundo a convergência é quase certa.
1 as
vezes também conhecido como Teorema do Limite Central, veja o prefácio em [Jam02].
2
1.1.1
Lei Fraca dos Grandes Números
Lema 1 (Desigualdade de Chebyshev2 ). Se X é uma variável aleatória integrável, então para
qualquer constante k > 0
Var(X)
P |X − E[X]| ≥ k ≤
k2
Demonstração. Seja ξ = k1{X≥k} , assim 0 ≤ ξ ≤ X, portanto E[ξ] ≤ E[X]∗ . Por outro lado, temos
que E[ξ] = 0 · P(ξ = 0) + k · P(ξ = k) = k · P(X ≥ k), o qual permite chegar a desigualdade
P(X ≥ k) ≤ E[X]/k.
2
(2)
2
Observamos agora que P(|X − E[X]| ≥ k) = P((X − E[X]) ≥ k ), logo de (2) concluimos que
E[(X − E[X])2 ]
Var(X)
=
.
P (X − E[X])2 ≥ k 2 ≤
k2
k2
A desigualdade em (2) é conhecida como a desigualdade básica ou desigualdade generalizada de
Chebyshev, já a desigualdade do Lema é conhecida como a desigualdade clássica de Chebyshev ou
de Bienaymé-Chebyshev.
Teorema 2 (Lei Fraca dos Grandes Números. Chebyshev, 1867). Seja X1 , X2 , . . . uma
sequência de variáveis aleatórias independentes, e seja Sn a sua soma parcial até n. Se para todo
n, Var(Xn ) ≤ K onde K é uma constante finita, então
Sn − E[Sn ] P
−→ 0.
n
Demonstração. Devemos mostrar que para qualquer ε >
Pn0, P(|Sn − E[Sn ]|/n ≥ ε) → 0 quando
n → ∞. Pelas hipóteses do enunciado temos Var(Sn ) = i=1 Var(Xi ) ≤ nK, logo da desigualdade
(clássica) de Chebyshev
Var(Sn )
K
≤ 2 → 0.
P |Sn − E[Sn ]| ≥ εn ≤
ε2 n2
ε n
Exemplo 1 (Ensaios Bernoulli). Apresentamos um exemplo simples porem importante para
desenvolver a nossa intuição. O seguinte exemplo é de fato a primeira Lei dos Grandes Números
publicada em 1713, após de 8 anos da morte de J. Bernoulli, [Ber13]. Suponhamos que lançamos
uma moeda n vezes, e neste caso consideramos a sequencia de variáveis aleatórias ξ1 , . . ., ξn , tais
que para 1 ≤ i ≤ n, ξi (ω) = 1Cara (ωi ), ou seja, ξi = 1 se o i-ésimo
Pn lançamento resulta em cara, e
ξi = 0 no caso contrário (se o resultado é coroa). Assim Sn = i=1 ξi , o número de caras em n
lançamentos, é uma variável aleatória Binomial(n, p), onde p = P(ξi = 1) é a probabilidade de sair
cara em qualquer lançamento† . Temos portanto que E[Sn ] = np, logo E[Sn /n] = p = E[ξi ]. A ley
dos grandes números neste caso afirma que
Sn P
−→ p.
(3)
n
Este resultado é conhecido como a Ley dos Grandes Números para ensaios Bernoulli.
Para visualizar (3) diretamente, a figura 1 apresenta um dos possiveis resultados ao lançar 150
vezes uma moeda viciada com p = 0, 2. Os valores en cada lançamento sao apresentados por circulos,
e Sn /n pela linha continua. Os valores de Sn /n são apresentados para três outras possı́veis realizações
do experimento. Claramente, a figura mostra que Sn /n se aproxima do valor de p a medida que n
aumenta.
É possı́vel obter uma Lei Fraca sem assumir que as variâncias das variáveis Xn sejam finitas.
Esta hipótese é crucial para a Lei Fraca de Chebyshev apresentada no Teorema 2.
2 Qebyxev, matemático Ruso cujo nome tem sido traduzido também como Chebychev, Chebyshov, Tchebychef ou
Tschebyschef!
∗ demonstre esta ultima desigualdade para qualquer duas variáveis aleatórias ξ, η.
† lembre o visto em aula no curso “Introdução a Teoria de Probabilidade”.
3
1.0
0.6
0.8
Sn (ω2 )
n
0.2
0.4
Sn (ω1 )
n
0.0
E[ξ1 ]
0
50
n
100
150
Figura 1: varias simulações de 150 lançamentos de uma moeda viciada com P({cara}) = p = 0, 2.
A sequência de caras e coroas para a primeira simulação, ω 1 , corresponde aos circulos em 0 (coroa)
e em 1 (cara). A linha continua representa os valores de Sn (ω 1 )/n, e as otras linhas correspondem
aos valores para três outras realizações do processo, ω 2 , ω 3 , ω 4 .
Teorema 3 (Lei Fraca dos Grandes Numeros. Khintchin, 1929). Sejam X1 , X2 , . . . variáveis
aleatórias independentes e identicamente distribuı́das com média finita µ. Se Sn denota a soma
parcial de Xn , então
Sn P
−→ µ.
n
Demonstração. Veja [Rao73].
1.1.2
Lei Forte dos Grandes Números
Teorema 4 (Primeira Lei Forte dos Grande Números de
Kolmogorov). Sejam X1 , X2 ,
P∞
. . ., variáveis aleatórias independentes tais que E[Xn ] < ∞, e n=1 Var(Xn )/n2 < ∞. Então a
sequência Xn satisfaze a Lei Forte dos Grande Números, ou seja,
Sn q.c. E[Sn ]
−→
.
n
n
Demonstração. Veja [Jam02], Teorema 5.4, p. 208.
Se as variáveis aleatórias da sequência Xn , além de serem independentes também são identicamente distribuı́das, então obtemos a seguinte verção da Lei Forte, a qual ao igual do que a Lei de
Kinchin, não requer restrições sobre as variâncias.
Teorema 5 (A lei Forte de Kolmogorov). Sejam X1 , X2 , . . . variáveis aleatórias independentes
e identicamente distribuı́das com E[Xn ] = µ. Então
Sn q.c.
−→ µ.
n
Demonstração. Veja [Jam02], Teorema 5.5, p. 212.
4
1.2
Teorema Central do Limite
Passamos agora a estudar a convergência da distribuição de Sn , quando Sn é corretamente rescalada.
Em geral veremos como sob certas hipoteses é possı́vel estabelecer que
Sn − E[Sn ]
≤ x = Φ(x), x ∈ R,
lim P p
n→∞
Var(Sn )
onde
Z
x
2
1
φ(x) = √ e−x /2 .
2π
−∞
isto é, φ denota a densidade de probabilidade normal (com média 0 e variância 1).
Φ(x) =
1.2.1
φ(x),
(4)
Teoremas de De Moivre-Laplace
Consideramos P
novamente a sequência ξ1 , ξ2 , . . . de variáveis aleatórias Bernoulli(p) e a sua soma
n
parcial, Sn = i=1 ξi (veja o Exemplo 1). Em lugar de estudar o comportamento limite de Sn /n,
agora voltamos o interesse na distribuição
limite de Sn (ou uma função de Sn ). Denotamos por
pk = P(Sn = k), ou seja pk = nk pk q n−k , quando k ∈ {0, 1, . . . , n}, e suponhamos que p > q.
Estudamos primeiramente o comportamento das probabilidades pk , em
√ função de k para n grande.
Veremos que existe um dominio para os valores de k, de tamanho n, onde pk é relativamente
grande, e um dominio onde os valores de pk são pequenos. Para definirmos este dominio, encontramos
primeiro o valor km , tal que pkm = maxk pk . Observamos que,
n
k+1 n−k−1
pk+1
n!k!(n − k)!
p
(n − k) p
q
k+1 p
=
=
.
= n
k q n−k
pk
p
(k
+
1)!(n
−
k
−
1)!n!
q
(k + 1) q
k
Encontramos agora os valores para k tais que pk+1 /pk ≥ 1. Assim,
n−kp
≥1
k+1 q
⇒
(n − k)p ≥ q(k + 1)
⇒
np − q ≥ k.
Também, se k > np − q, temos pk+1 /pk < 1. Assim km = [np − q]† . Resulta portanto natural
esperar que os maiores valores para pk ocorrem ao rededor de km = np. O seguinte resultado reforça
este argumento. Sejam a, b dois numeros quaisquer tais que a < b.
√
Teorema
√ 6 (Teorema do Limite Local de De Moivre-Laplace). Seja np + a n ≤ k ≤
np + b n, então
(k−np)2
1
pk = √
e− 2npq 1 + rn (k) ,
2πnpq
onde o ressiduo rn (k) converge a 0 quando n → ∞ uniformemente em k, isto é,
√ max
√ |rn (k)|
np+a n≤k≤np+b n
→ 0,
quando
n → ∞.
Teorema 7 (Teorema Integral do Limite de De Moivre-Laplace). Sejam a, b dois números
reais tais que a < b. Então,
Z b
X
2
1
lim
pk = √
e−u /2 du.
n→∞
√
2π a
np+a npq≤k
√
k≤np+b npq
Corolário 1. Do Teorema 7 para quaisqer a, b ∈ R tais que a < b, tem-se
Sn − np
P a≤ √
≤ b → Φ(b) − Φ(a),
quando n → ∞.
npq
√
D
Assim, em particular (Sn − np)/ npq −→ Z, onde Z é uma variável aleatória normal padrão.
† [x]
denota a função maior enteiro menor que x.
5
1.2.2
O Teorema Central do Limite
Apresentamos agora uma verção geral para a somas de variáveis aleatórias independentes, a qual é
possı́velmente a forma mais conhecida do Teorema Central do Limite.
Teorema 8 (Teorema Central do Limite de Lindenberg-Lévy). Sejam X1 , X2 , . . . variáveis
aleatórias independentes
e identicamente distribuı́das, tais que E[X1 ] = µ, e Var(X1 ) = σ 2 < ∞.
Pn
Seja Sn = i=1 Xi , e Z uma variável aleatória normal com média 0 e variância 1, então
Zn =
Sn − nµ D
√
−→ Z.
σ n
A prova deste Teorema pode ser encontrada em [GS01], p. 194 ou em [Jam02], p. 240.
O seguinte resultado mostra que o Teorema Central do Limite é válido ainda quando as variáveis
aleatórias X1 , X2 , . . ., não apresentam a mesma distribuição.
Teorema 9 (Theorema Central do Limite. Kolmogorov, 1933). Seja X1 , X2 , . . . uma
sequência de variáveis aleatórias independentes,
e seja P
Sn a sua soma parcial. Para cada i sejam
Pn
n
µi = E[Xi ], e σi2 = Var(Xi ), logo mn = i=1 µi e s2n = i=1 σi2 denotam a média e a variância de
Sn , e seja X uma variável aleatória normal com média 0 e variância 1. Sob as seguentes hipóteses
adicionais
(i) s2n → ∞ quando n → ∞,
(ii) existe uma constante K, tal que para todo i, P(|Xi | ≤ K) = 1,
tem-se
Sn − mn D
−→ X.
sn
1.3
Exercı́cios
D
Exercı́cio 1. Suponha que Xn , n ≥ 1 é normal com média 0 e variância 1/n. Mostre que Xn −→
X = 0.
Exercı́cio 2. Seja Xn , n ≥ 1, uma seqüência de variáveis aleatórias tal que Xn é Binomial(n, 1/n2 ).
P
Mostre que Xn − 1/n −→ 0.
Exercı́cio 3. Seja Xn , n ≥ 1, uma seqüência de variáveis aleatórias com E[Xn2 ] < ∞. Mostre que
P
se limn→∞ E[Xn ] = α e limn→∞ Var(Xn ) = 0, então Xn −→ α.
Exercı́cio 4. Este problema apresenta um exemplo de uma sequência de variáveis aleatórias que
satisfaze a Lei Fraca dos Genades Números, embora não satisfaze a Lei Forte. Para n ≥ 1, seja
(
±n2n com probabilidade pn ,
Xn =
0
com probabilidade 1 − 2pn ,
sendo pn uma função a ser escolhida adiante, tal que 0 ≤ pn ≤ 1/2, para n ≥ 1. Se Sn =
X1 + X2 + . . . + Xn , mostre: (i) E[Sn ] = 0 para todo n, (ii) se Xn > 0, então Sn ≥ 2n . (iii) Utilize
a parte (ii) para mostrar que Sn /n → 0 quando n → ∞ se, e somente se existe um inteiro n0 tal
que Xk = 0 para todo k ≥ n0 . Mostre que isto ocorre com probabilidade 0 se pn < 1/2 para todo
n. Isto mostra que a sequência (Xn ) não satisfaze a Lei Forte dos Grandes Números. (iv)
Exercı́cio 5. Seja X1 , X2 , . . . variáveis aleatórias independentes
tais que Xk é Binomial(n
k , p), para
√
Pn
0 < p < 1 constante. (i) Qual a distribuição de Sn = i=1 Xi ? (ii) Se nk ≤ k, mostre que a
sequência Xn satisfaz a Lei Forte.
Exercı́cio 6. Certa marca de sucrilhos faz uma promoção: alguns dos pacotes incluem vales que
podem ser trocados por uma camiseta. O número de pacotes premiados que vendem ao dia em uma
loja é uma variável aleatória com distribuição de Poisson de parâmetro 0,3. Estime a probabilidade
de que em 120 dias se vendam nessa loja mais de 30 pacotes com prêmio. [Sugestão: considere Xi
= ‘número de pacotes premiados vendidos na loja no dia i’. ]
6
Exercı́cio 7. Um dado honesto é lançado repetidas vezes de maneira independente. Seja Xi o
resultado do i-ésimo lançamento e Sn = X1 + X2 · · · Xn , obtenha : (i) limn→∞ P (Sn > 3n); (ii) um
valor aproximado para P (S100 > 320).
Exercı́cio 8. Uma moeda honesta é lançada repetidas vezes de maneira independente. Sejam ξ1 ,
ξ2 , . . . variáveis aleatórias definidas por
(
1 se o i-ésimo e o (i + 1)-ésimo lançamentos são cara
ξi =
0 caso contrário.
(i) Determine E[ξi ], Var(ξi ). (ii) Mostre que
(
1/16
Cov(ξi , ξj ) =
0
se j = i + 1,
se j > i + 1.
P
(iii) Seja Sn a soma parcial de ξi , determine E[Sn ], Var(Sn ). (iv) Mostre que Sn /n −→ 1/4.
1.4
Projeto 1: histogramas
Este projeto tem varios objetivos: apresentar a noção de função de distribuição empirica de uma
amostra, introducir os histogramas e ilustrar o Teorema Central do Limite graficamente utilizando
um histograma. Isto ultimo devera ser realizado ao simular, em R, repetidos lançamentos de uma
moeda (o site do curso já apresenta um código em R para isto, veja abaixo).
Suponhamos que X1 , X2 , . . . , Xn são variáveis aleatórias independentes e identicamente distribuı́das, com função de distribuição F , e densidade f . A função de distribuição empirica da
amostra X1 , X2 , . . . , Xn é definida como
n
1X
1 FbX1 ,...,Xn (x) =
1{Xi ≤x} = # i ∈ {1, 2, . . . , n} : Xi ≤ x
n i=1
n
=
1 # número de elementos na amostra ≤ x .
n
(i) Explique por que
q.c.
FbX1 ,...,Xn (x) −→ F (x).
(5)
Seja a = a1 < a2 < . . . < am = b uma sequência de números (equidistantes), e então Ak = (ak−1 , ak ]
para k = 2, . . . , m. Logo para x ∈ Ak definimos
n
1X
b
hX1 ,...,Xn (x) =
1{a <X ≤a }
n i=1 k−1 i k
=
1 # número de elementos na amostra ∈ (ak−1 , ak ] .
n
A função b
h é conhecida como histograma. (ii) Mostre que se x ∈ Ak , então
Z ak
q.c.
b
hX1 ,...,Xn (x) −→
f (u) du.
(6)
ak−1
R
[Sugestão: utilice (5)] Isto ultimo justifica a utilização dos histogramas como estimadores para as
densidades. (iii) Carregue o código moedaCLT.R (escrito em R)digitando3
3 alternativamente pode baixar este arquivo no seu micro para carrega-lho posteriormente como
source("C://lugar_do_download_no_seu_micro//moedaCLT.R")
assumendo que você trabalha em Windows. Caso você esteja trabalhando em Linux (ou numa Mac) troque o delimitador de pastas “//” por “/”.
7
source("http://dcm.ffclrp.usp.br/~rrosales/aulas/moedaCLT.R")
Este fornece a função moedaCLT(), a qual é uma função de três argumentos N, M e p utilizada para
gerar m amostras (independentes) de n variáveis aleatórias Bernoulli(p) independentes. Pode pensar
que esta função simula o lançamento de uma moeda n vezes e repite isto m vezes. N corresponde a
n, M corresponde a m e p a p, a probabilidade de sair cara em qualquer lançamento. moedaCLT()
retorna o vetor
1 2
Snm
Sn Sn
,
,...,
,
n n
n
onde Sni /n, i = 1, . . . , m, corresponde a proporção de caras após de jogar a moeda n vezes no i-ésimo
experimento. Por exemplo,
v1 <- moedaCLT(N=10000, M=30000, p=0.5);
simula o lançamento de uma moeda (honesta) 10000 vezes, repete isto 30000 vezes calculando de
cada vez a fração relativa de caras, e finalmente guarda estes valores no vetor v1. Digite
hist(v1,breaks=60, main="", ylab="frequencia",xlab="Zn")
A função hist() calcula o histograma de v1, isto é b
hSn1 /n,...,Snm /n , e apresenta o grafico desta função
(breaks determina o numero de intervalos (ai−1 , ai ] nos quais sera avaliado o histograma). Utilice
várias vezes moedaCLT() tentando valores diferentes para M e N de cada vez. Consegue enxergar
o Teorema Central do Limite? Qual dos argumentos N ou M controla a convergência no Teorema
Central do Limite? qual controla a convergência do histograma em (6)?
2
2.1
Estimação pontual
Medidas resumo
Exercı́cio 9. Na linha de produção de uma grande montadora de veı́culos, existem 7 verificações
do controle de qualidade. Sorteamos alguns dias do mês e anotamos o número de OKs recibidos
pelos veı́culos produzidos nesses dias, i.e., em quantos dos controles mencionados o automóvil foi
aprovado. Os resultados foram ((x, y), x =número de aprovações, y =freqüência): (4, 126), (5, 359),
(6, 1685), (7, 4764). (i) Determine a média, moda e mediana do número de aprovações por automóvel
produzido. (ii) Calcule a variância da amostra. (ii) Crie uma nova variável “reprovações”, indicando
o número de verificações não OKs no vehı́culo. Determine média, moda, mediana e variância dessa
variável. Em geral, se uma amostra qualquer esta constituı́da pelas observações z = (z1 , z2 , . . ., zn ),
então
z̄ =
n
X
zi /n
média amostral
i=1
seja z̃1 ≤ z̃2 ≤ · · · ≤ z̃n a amostra ordenada em forma crescente, então
(
z̃(n+1)/2
md = 1
2 (z̃n/2 + z̃n/(2+1) )
se n impar,
se n par
mo = valor mais frequente
n
X
var(z) =
(zi − z̄)2 /n
mediana amostral
moda amostral
variância amostral
i=1
(iv) Cada reprovação implica em custos adicionais para a montadora, tendo em vista a necessidade
de corrigir o defito apontado. Admitindo um valor básico de R$ 200,00 por cada item reprovado
num vehı́culo, calcule a média e a variância da espesa adicional por automóvel produzido
8
2.2
Estimadores
Exercı́cio 10. Foram sorteadas 15 famı́lias com filhos num certo bairro e observado o número de
crianças de cada famı́lia, matriculadas na escola. Os dados foram 1, 1, 2, 0, 2, 0, 2, 3, 4, 1, 1, 2, 0,
0, e 2. Obtenha as estimativas correspondentes aos seguintes estimadores da média de crianças na
escola nesse bairro,
µ
b1 =
mı́nimo + máximo
,
2
µ
b2 =
(X1 + X2 )
,
2
µ
b3 = X̄.
Qual deles é o melhor estimador da média e por quê?
Exercı́cio 11. Seja X1 , X2 , X3 uma amostra aleatória de uma população exponencial com média
θ, isto é, E[Xi ] = θ, i = 1, 2, 3. Cosidere os estimadores
θb1 = X̄,
θb2 = X1 ,
X1 + X2
θb3 =
.
2
(i) Mostrar que nenhum dos três estimadores é viesado. (ii) Qual dos estimadores tem menor
variância? Lembrar que para o modelo exponencial Var(Xi ) = θ2 .
Exercı́cio 12. (Este exercı́cio tem implicações muito importantes para a estatı́stica) Sejam X1 , X2 ,
. . ., Xn variáveis aleatórias independentes e identicamente distribuı́das com média µ e variância σ 2 .
Sejam
n
n
1X
1 X
X̄n =
Xi , e Sn2 =
(Xi − X̄n )2 .
n i=1
n − 1 i=1
q.c.
(i) Determine E[X̄n ] e Var(X̄n ). (ii) Mostre que X̄n −→ µ. (iii) Mostre que
Sn2 =
1
n−1
X
n
Xi2 − n(X̄n )2 .
i=1
q.c.
(iv) Calcule E[Sn2 ]. (v) Mostre que Sn2 −→ σ 2 . [Sugestão: utilice duas vezes a Lei Forte.]
Exercı́cio 13. Seja X1 , X2 , . . ., Xn uma amostra de uma população com distribuição
fX (x) =
2x
,
θ2
0 < x < θ,
θ > 0.
Verifique se θb1 = X̄ e θb2 = max{X1 , X2 , . . . , Xn } são não viciados para θ. (ii) Calcule e compare
os EQM dos estimadores em (i). (iii) Faça um gráfico dos EQM em função de θ. Sugestão: para
(iii) pode utilizar R. O seguinte exemplo ilustra os passos necessários para graficar a função f (x) =
e−x + |x − 1|−1 no dominio x ∈ [−2, 10]. Escreva (ao final de cada linha faça ‘Enter’)
x <- seq(-2,10,by=0.01)
f <- exp(-x)+1/abs(x-1)
plot(x,f, type="l", col="navy", ylim=c(-1,30), lwd=2)
Para sobrepor a função g(x) = 3sen(x3 )/(3 − x) + 10 escreva
g <- 3*sin(x^3)/(3-x) + 10
lines(x, g, col="sandybrown", lwd=2)
Exercı́cio 14. Suponha que Y tem distribuição Binomial-(n, p). (i) Demostre que pb = y/n é um
estimador não viesado para p. Calcule a variância de pb.
9
2.3
Máxima verossimilhança
Exercı́cio 15. Seja X = X1 , X2 , . . . , Xn uma amostra aleatória da uma população com densidade
Gamma-(α, β), com α = 2, e β desconhecido, isto é,

 x e−x/β
se x > 0,
f (x) =
β2

0
se x 6 0.
b É βb viciado para β?
(i) Obtenha o estimador de máxima verosimilhança para β. (ii) Calcular E[β].
Exercı́cio 16. Uma urna contém bolas brancas e pretas. Uma amostra de tamanho n é retirada
com reposição. (i) Qual é o estimador de máxima verossimilhança para a proporção R de bolas
pretas na urna? (ii) Suponha que as bolas são retiradas uma a uma com reposição até aparecer a
primeira bola preta. Seja T o número de retiradas requeridas. Se este procedimento é repetido n
vezes, sejam T1 , T2 , . . ., Tn o número de tentativas de cada vez. Qual é o estimador de máxima
verossimilhança para R baseado nesta amostra?
Exercı́cio 17. Seja X1 , X2 , . . ., Xn , uma amostra de uma população com distribuição fX (x) =
θx (1 − θ)1−x 1{0,1} (x), onde 0 ≤ θ ≤ 12 . (i) Encontre o estimador θb de máxima verossimilhança para
b o erro quadrático médio de θ.
b (iii) Diga se θb é (fracamente) consistente.
θ. (ii) Calcule o EQM(θ),
2.4
Distribuições amostrais
Exercı́cio 18. Uma variável de Bernoulli com probabilidade de sucesso p é amostrada, de forma,
independente, duas vezes. Determine a função de probabilidade da média amostral.
Exercı́cio 19. A variável aleatória ξ assome os valores {−2, −1, 1, 2}, cada um com a mesma probabilidade. Para uma amostra de tamanho dois, obtenha a distribuição de S 2 e verifique se ele é
não viesado para estimar a variância de ξ.
Exercı́cio 20. Coleta-se uma amostra de 10 observações independentes de uma população normal
com média 2 e variância 2. Determine a probabilidade de a média amostral: (i) ser inferior a 1; (ii)
ser superior a 2,5; (iii) estar entre 0 e 2.
Exercı́cio 21. Um fabricante afirma que sua vacina contra gripe imuniza em 80% dos casos. Uma
amostra de 25 indivı́duos que tomaram a vacina foi sorteada e testes foram feitos para verificar
a imunização ou não desses indivı́duos. Se o fabricante estiver correto, qual é a probabilidade da
proporção de imunizados na mostra ser inferior à 0,75? E superior à 0,85?
2.5
2.5.1
Projetos 2 e 3: estimadores
Um estimador para π
Georges-Louis Leclerc (1707-1788), Conde de Buffon, mostrou que vários problemas de probabilidade
podem ser abordados utilizando argumentos de caráter geométrico. Em, particular, o problema
conhecido hoje em dia como a agulha de Buffon permite realizar um experimento para estimar o
valor de π.
Suponhamos que sobre um tabuleiro desenhamos linhas paralelas a distância t uma da outra.
Posteriormente jogamos uma agulha de comprimento l < t e observamos se esta cai ou não sobre
alguma das linhas do tabuleiro. Surge assim naturalmente a seguintre pergunta: qual é a probabilidade de que a agulha esteja sobre uma linha t? Para respondermos esta questão, podemos
parameterizar o espaço amostral (as posições das agulhas) da seguinte maneira. Seja Θ o angulo
formado pela agulha e o conjunto de linhas t, e X = (X1 , X2 ) a posição do centro da agulha sobre o
tabuleiro. Claramente, se ocorre o evento {X(ω) ≤ (l/2) sen(Θ(ω))}, então a agulha corta uma linha
10
t4 . Agora, encontrar a probabilidade deste evento não é difı́cil pois as variáveis aleatórias X e Θ são
independentes e apresentam densidades uniformes nos intervalos [0, t/2] e [0, π/2] respectivamente,
(
(
1/(t/2), se 0 ≤ x ≤ t/2
1/(π/2), se 0 ≤ θ ≤ π/2
fΘ (θ) =
fX (x) =
0,
caso contrário
0,
caso contrário
Portanto a densidade conjunta do vetor (X, Θ) é simplesmente
fX,Θ (x, θ) =
4
tπ
(x, θ) ∈ [0, t/2] × [0, π/2],
quando
e 0 no caso contrário. Logo
Z π/2 Z (l/2)sen(θ) 4
l
p = P X ≤ sen(Θ) =
dxdθ
2
tπ
0
0
Z π/2
4 l
2l
=
sen(θ)dθ = .
tπ
2
tπ
0
(7)
A formula (7) fornece indiretamente um estimador para π. De fato, se conseguimos uma estimativa para a probabilidade p, então (7) mostra como estimar 1/π. Para simplificar a notação, seja
E o evento {X ≤ (l/2) sen(Θ)}, e logo seja ξ(ω) = 1E (ω), uma variável aleatória a qual é igual
a 1 se a agulha touca a linha t e 0 no caso contrário: ξ é Bernoulli com probabilidade de sucesso
p = 2l/(tπ). Seja ξ1 , ξ2 , . . . , ξn , uma amostra desta população. No contexto da aplicação atual, esta
amostra é interpretada como o resultado de jogar a agulha sobre o tabuleiro n vezes.
Pn Seguindo o
procedimento agora ussual, utilizamos esta amostra para propor o estimador pb = i=1 ξi /n para p.
Desta maneira, de acordo com (7), podemos agora considerar o seguinte estimador para 1/π
π
b−1 =
t
pb.
2l
(8)
Exercı́cio
Pn 22. (i) Qual é a distribuição da variável aleatória
Var( i=1 ξi ). (iii) Calcule E[b
p] e Var(b
p).
Pn
i=1 ξi ?
Pn
(ii) Determine E[ i=1 ξi ] e
Exercı́cio 23. (i) Mostre separadamente, mesmo que um dos limites implique o outro, que
t
q.c. 1
pb −→ ,
2l
π
e
t
P 1
pb −→ .
2l
π
(ii) Indique quais dos Teoremas da seção 1 foram utilizados para garantir os limites em (i). Explique
por que estes limites são importantes quando é considerado o estimador π
b−1 .
Exercı́cio 24. (i) Mostre que o estimador em (8) é não viciado, (ii) logo mostre que o EQM deste
estimador é igual a
π − 2l
2lnπ
Desta última expressão podemos ver que o estimador em (8) é mais eficiente a medida que aumenta
o comprimento da augulha l.
Exercı́cio 25. (i) Mostre que o estimador para π,
π
b=
2l 1
t pb
é viciado. Ao igual do que o estimador para 1/π, o estimador proposto para π é mais eficiente
quando o comprimento da agulha aumenta. (ii) Diga se é possı́vel aplicar o Teorema Central do
Limite para caracterizar a distribuição amostral de π
b. A figura 2, no canto inferior direito, sugere
que a distribuição de π
b é normal, embora você pode mostrar isto formalmente.
11
R
Exercı́cio 26. [É necessário fazer primeiro o Projeto 1 para poder entender este exercı́cio!] Inicie
R e carregue o código em Buffon.R fazendo
source("http://dcm.ffclrp.usp.br/~rrosales/aulas/Buffon.R")
Este script fornece três funções, drawBuffon, runavrg, e estPi. drawBuffon mostra uma simulação
do experimeto que consiste em jogar a agulha repetidas vezes (veja a figura 2), runavrg grafica uma
estimativa para π conforme aumenta o número de vezes que é lançada agula (veja a figura 2), e finalmente estPi(N, l, t) fornece uma estimativa de π, onde N corresponde ao número de lançamentos,
l é o comprimento da agulha e t a separação das linhas t. Estes parâmetros são inicializados para os
valores N=100, l=1, e t=2, mas você pode mudar qualquer um a vontade. Por exemplo, os comandos
y <- c(); for (i in 1:10000) y[i] <- estPi(N=300);
geram 10000 estimativas para π guardando-as no vetor y. Cada estimativa é obtida ao simular o
lançamento da agulha 300 vezes. Utilize o código em Buffon.R para estudar as propriedades do
estimador de π para os seguintes valores de l: 0.5, 1 e 1.5. Utilize as funções var, mean e hist para
verificar as conclusões obtidas analiticamente nos exercı́cios anteriores.
2.5.2
O paradoxo de Bertrand
Qual é a probabilidade de que uma corda aleatória sobre um cı́rculo tenha comprimento maior do
que o lado do triângulo equilátero inscrito no cı́rculo? Esta questão, investigada inicialmente por
Joseph Louis Bertrand em 1889, é de caráter probabilı́stico embora o propósito aqui é verificar a
resposta utilizando estimadores apropriados. Essa resposta depende do significado do termo ‘corda
aleatória’. Apresentamos três possı́veis interpretações supondo que, sem perda de generalidade, o
cı́rculo tem centro na origem e apresenta raio de comprimento 1.
Exercı́cio 27 (ponto aleatório). Um ponto A é escolhido uniformemente no interior de um
cı́rculo de
√ raio 1, veja a figura 3(a). Seja X o comprimento da corda com ponto médio A. Calcule
P (X > 3). Sugestão. Pense primeiro na seguinte pergunta: qual é a probabilidade de que A esteja
dentro do cı́rculo inscrito no triângulo equilátero?
Exercı́cio 28 (angulo aleatório). Fixamos um ponto Q sobre a circunferência do cı́rculo com raio
1, por exemplo em (1, 0). Logo escolhemos uniformemente um outro ponto
√A sobre a circunferência,
veja a figura 3(b). Seja X o comprimento da corda QP . Calcule P (X > 3).
Exercı́cio 29 (raio aleatório). Um ponto A é escolhido uniformemente sobre o raio r (qualquer
um) do cı́rculo. Seja
√ X o comprimento da corda a qual tem A como ponto meio, veja a figura 3(c).
Determine P (Z > 3).
R
Exercı́cio 30. Utilice as funções estp rangle,estp rdist e estp rendpoint para verificar o valor
das probabilidades calculadas nos três exercı́cios anteriores. Estas funções se encontram no script
Bertrand.R, o qual pode ser carregado (desde R) como
source("http://dcm.ffclrp.usp.br/~rrosales/aulas/Bertrand.R")
Sugestão: de maneira analoga ao Exercicio 26, digite por exemplo
y <- c(); for (i in 1:5000) y[i] <- estp rangle(N=300);
e estude as propriedades de y utilizando as funções mean, var e hist.
3
Intervalos e testes de hipótese
Alguns dos exercı́cios desta e outras seções devem ser realizados utilizando R. Além de familiarizar
vocês com R, o propósito é apresentar diferentes analises com dados reais. Estes se encontram
identificados com R . Um primeiro exemplo de como carregar os dados de um arquivo (em formato
de texto) é apresentado no Exercicio 51.
4 faça
um desenho!
12
200
400
frequencia
600
800
5
4
3
2
0
0
1
estimativa de pi
0
100
200
300
400
500
2.9
iteracoes
3.0
3.1
3.2
3.3
3.4
3.5
estimativa de pi
Figura 2: As quatro primeiras figuras mostram diversas simulações do experimento da agulha de
Buffon para 30, 300, 3000 e 9000 lançamentos da agulha. As agulhas que toucam uma banda t
são mostradas em verde. Estas figuras foram geradas com drawBuffon. A figura no canto inferior
esquerdo apresenta a convergência de uma estimativa para π gerada com runavrg. O histograma
no canto inferior direto foi gerado com sucessivas chamadas a estPi (veja o texto do Exercicio 26),
sugirindo um Teorema Central do Limite para a distribuição do estimador.
13
√
3
√
3
√
3
A
A
(a)
Q
(b)
r
A
(c)
Figura 3: construção da corda aleatória (em verde) utilizando o método do ponto aleatório (a), o
método do angulo aleatório (b), e o método do raio aleatório (c).
3.1
Intervalos de Confiança
Exercı́cio 31. Por analogı́a a produtos similares, o tempo de reação de um novo medicamento pode
ser considerado como tendo distribuição normal com média µ e variaância 4. Vinte pacientes foram
sorteados, receberam o medicamento e tiveram seu tempo de reação anotado. Os dados foram os
seguintes: 2,9; 3,4; 3,5; 4,1; 4,6; 4,7; 4,5; 3,8; 5,3; 4,9; 4,8; 5,7; 5,8; 5,0; 3,4; 5,9; 6,3; 4,6; 5,5 e 6,2.
Obtenha intervalos de confiança para o tempo médio de reação para: (i) γ=96%, (ii) γ=75%.
Exercı́cio 32. Uma amostra de 25 observações de uma normal Φ(µ, 16) foi coletada e forneceu
uma média amostral de 8. Construa intervalos com confiança 80%, 85%, 90% e 95% para a média
populacional. Comente as diferenças encontradas.
Exercı́cio 33. Será coletada uma amostra de uma população normal com desvio padrão igual a
9. Para uma confiança de γ=90%, determine a amplitude do intervalo de confiança para a média
populacional nos casos em que o tamanho da amostra é 30, 50 ou 100. Comente as diferenças.
Exercı́cio 34. Numa pesquisa com 50 eleitores, o candidato J. J. obteve 0,34 da preferência dos
eleitores. Construa, para a confiança 94%, os intervalos otimista e conservador de confiança para a
proporção de votos a serem recebidos pelo candidato mencionado, supondo que a eleição fosse nesse
momento.
Exercı́cio 35. Desejamos coletar uma amostra de uma variável aleatória X com distribuição normal
de média desconhecida e variância 30. Qual deve ser o tamanho da amostra para que, com 0,92 de
probabilidade, a média amostral não difira da média da população por mais de 3 unidades?
Exercı́cio 36. Interprete e comente as afirmações: (i) A média de salário inicial para recém formados
em Economia está entre 7 e 9 salários mı́nimos com confiança 95%. (ii) Quanto maior for o tamanho
da amostra, maior é a probabilidade da média amostral estar próxima da verdadeira média.
Exercı́cio 37. O intervalo [35,21; 35,99], com confiança 95% foi construı́do a partir de uma amostra
de tamanho 100, para a média µ de uma população normal com desvio padrão igual a 2. (i) Qual
e o valor encontrado para a média dessa amostra? (ii) Se utilizássemos essa mesma amostra, mas
uma confiança de 90%, qual seria o novo intervalo de confiança?
Exercı́cio 38. Antes de uma eleição, um determinado partido está interessado em estimar a probabilidade p de eleitores favoráveis ao seu candidato. Uma amostra piloto de tamanho 100 revelou
que 60% dos eleitores eram favoráveis ao candidato. (i) Utilizando a informação da amostra piloto,
determine o tamanho da amostra para que, com 0,8 de probabilidade, o erro cometido na estimação
seja no máximo 0,05. (ii) Se na amostra final, com tamanho obtido em (i), observou-se que 51% dos
eleitores eram favoráveis ao candidato, construa um intervalo de confiança para p, com confiança
95%.
14
25
20
15
10
indice de trabalho
1995
2000
2005
perı́odo
1992
1993
1995
1996
1997
1998
1999
2001
2002
2003
2004
2005
2006
2007
branca
20.95
19.98
18.95
15.64
15.09
14.16
13.69
11.52
11.6
10.6
10.13
10.45
10.09
9.24
preta
24.99
22.82
20.07
16.43
15.49
17.6
16.92
12.73
10.76
10.43
10.66
10.81
10.89
10.84
periodo
Figura 4: Taxa de trabalho infantil por cor de 1992 até 2007. Os sı́mbolos recheados no gráfico
correspondem aos dados para criaças brancas.
3.2
Intervalo para µ1 − µ2
Exercı́cio 39. A figura 4 apresenta os dados referentes a taxa de trabalho infantil em Brasil para
criaças pretas e crianças brancas durante o perı́odo 1997-20075 . A taxa de trabalho infantil é definida
como o percentual da população residente de 10 a 15 anos de idade que se encontra trabalhando ou
procurando trabalho na semana de referência, em determinado espaço geográfico, no ano considerado.
(i) Construa um intervalo de confiança de 95% para a diferença entre as taxas de trabalho média
durante o perı́odo de 1992-2007 para criançãs brancas e pretas. (ii) Interprete o intervalo obtido em
(i), isto é, qual é o significado deste intervalo? (iii) Quais são os supostos necessários para construir
o intervalo? (iv) Você acredita que os supostos são satisfeitos neste caso?
3.3
Intervalo para p1 − p2
Exercı́cio 40. De acordo com o estudo da pesquisa de mercado dos servı́ços de consultorı́a em
engenharia a empresas industriais no Meio Oeste (USA), quarenta empresas que participaram de
uma enquete (20 grandes e 20 pequenas) indicaram que elas não precisavam dos servı́cios externos
de consultorı́a. A principal ração foi que estas sempre obtinham ajuda de consultarı́a sempre que
necessário. Entretanto, duas vezes mais empresas grandes (12) que pequenas (6) citaram este motivo.
Establecer um intervalo de confiança de 90% para a diferença nas porcentagens das empresas grandes
e as pequenas que citam a ajuda das oficinas corporativas.
3.4
Testes de Hipóteses
Observação (p-valor): R, igualmente a outros pacotes estatı́sticos, reportam o p-valor do teste,
o qual pode ser utilizado para rejeitar ou não a hipótese nula. Suponhamos que o estimador θb
b
é considerado em um teste para o parâmetro θ. Seja θ(x)
a estimativa de θb baseada nos valores
da amostra x = (x1 , x2 , . . . , xn ) (Considere
p por exemplo o estimador T acima para o parametro
b
pertence a
µ1 − µ2 , e a sua estimativa t = (x̄1 − x̄2 )/ s21 /n + s22 /n). Assim, quando o valor de θ(x)
5 Fonte: Instituto Brasileiro de Geografia e Estatı́stica (IBGE). Série: CAJ421 - Taxa de trabalho infantil, por cor
http://seriesestatisticas.ibge.gov.br/series.aspx?vcodigo=CAJ421
15
região crı́tica rejeitamos a hipótese nula. Alternativamente, de forma equivalente, podemos calcular
o p-valor do teste
b
b
p = P {ω : θ(ω)
≥ θ(x)}|H
(9)
0 ,
e rejeitar a hipótese nula quando o valor de p for pequeno, por exemplo p < α, onde α tı́picamete
determina o nivel do teste. Usualmente, o valor p é utilizado seguindo os seguintes criterios
valor p
p < 0.01
0.01 ≤ p < 0.05
0.05 ≤ p < 0.10
0.10 ≤ p
interpretação
evidência forte contra H0
evidência moderada contra H0
sugere evidência contra H0
não a evidência contra H0
b
Destacamos que o valor p de um teste realmente é uma variable aleatória p(ω) = f (θ(X(ω))),
onde
X(ω) = (X1 , . . . Xn )(ω), e f é a função em (9). (Não faremos referência a isto ultimo durante o
curso.)
3.4.1
Testes para µ e p
Exercı́cio 41. Uma variável aleatória tem distribuição normal e desvio padrão igual a 12. Estamos
testando se sua média é igual ou é diferente de 20 e coletamos uma amostra de 100 valores dessa
variável, obtendo uma média amostral de 17,4. (i) Formule as hipóteses. (ii) Obtenha a região
crı́tica e dê a conclusão do teste para os seguintes nı́veis de significância: 1%, 2%, 4%, 6% e 8%.
Exercı́cio 42. Para uma variável aleatória com densidade normal e desvio padrão 5, o teste da
média µ=10 contra µ=14, teve a região crı́tica dada por {x ∈ R : x > 12} para uma amostra de
tamanho 25. Determine as probabilidades dos erros tipo I e II.
Exercı́cio 43. Uma máquina deve produzir peças com diâmetro de 2 cm. Entretanto, variações
acontecem e vamos assumir que o diâmetro dessas peças siga o modelo Normal com variância igual
a 0,09 cm2 . Para testar se a máquina está bem regulada, uma amostra de 100 peças é coletada. (i)
Formule o problema como um teste de hipóteses. (ii) Qual seria a região crı́tica se α = 0, 02? (iii)
se a região de aceitação fosse {x ∈ R|1, 95 6 x 6 2, 05}, qual seria o nı́vel de significância do teste?
Nesse caso, determine a probabilidade do erro tipo II se µ =1,95 cm. (iv) Se para essa amostra
x̄ = 1, 94; qual a decisão em (ii)?, em (iii)?
Exercı́cio 44. A vida média de uma amostra de 100 lâmpadas de certa marca é 1615 horas.
Por similaridade com outros processos de fabricação, supomos o desvio padrão igual a 120 horas.
Utilizando α=5%, desejamos testar se a duração média de todas as lâmpadas dessa marca é igual
ou é diferente de 1600 horas. Qual é a conclusão? Determine também a probabilidade do erro tipo
II, se a média fosse 1620 horas.
Exercı́cio 45. Uma amostra com 10 observações de uma variável aleatória normal forneceu média
de 5,5 e variância de 4. Deseja-se testar, ao nı́vel de significância de 5%, se a média na população é
igual ou é menor que 6. Qual é a conclusão?
Exercı́cio 46. Um criador tem constatado uma proporção de 10% do rebanho com verminose. O
veterinário alterou a dieta dos animais e acredita que a doença diminuiu de intensidade. Um exame
em 100 cabeças do rebanho, escolhidas ao acaso, indicou 8 delas com verminose. Ao nı́vel de 8%, há
indı́cios de que a proporção diminuiu?
Exercı́cio 47. Considere o teste p = 0, 6 contra p 6= 0, 6. Sendo n = 100, indique a probabilidade
de erro tipo I para as seguintes regiões crı́ticas: (i) RC = {x ∈ R|x < 0, 56 ou x > 0, 64}, (ii)
RC = {x ∈ R|x < 0, 54 ou x > 0, 66}.
16
3.4.2
Testes t-Student: teste e intervalo para µ com σ 2 desconhecida
Exercı́cio 48. Com auxı́lio da tabela t-Student calcule (se necessário, aproxime):
(i) P (−3, 365 6 t5 6 3, 365). (ii) P (|t8 | < 1, 4). (iii) P (−1, 1 6 t14 < 2, 15). (iv) a : P (t9 > a) =
0, 02. (v) b : P (t16 6 b) = 0, 05. (vi) c : P (|t11 | 6 c) = 0, 1. (vii) d : P (|t21 | > d) = 0, 05.
Exercı́cio 49. Uma amostra de 20 observações de uma variável com distribuição normal foi colhida,
obtendo-se desvio padrão 1,1. No teste µ=5 contra µ > 5, foi estabelecida a região critica {t ∈ R|t >
2, 033}. Determine a probabilidade do erro tipo I.
Exercı́cio 50. A porcentagem anual média da receita municipal empregada em saneamento básico
em pequenos municı́pios de um estado tem sido 8% (admita que esse ı́ndice se comporte segundo um
modelo normal). O governo pretende melhorar esse ı́ndice e, para isso, ofereceu alguns incentivos.
Para verificar a eficácia dessa atitude, sorteu 10 cidades e observou as porcentagens 8, 12, 16, 9, 11
e 12. Os dados trazem evidência de melhoria, ao nı́vel de 2%? Caso altere a média, dê um intervalo
de confiança para anova média.
R
Exercı́cio 51. Inicie R e carregue os dados energy.txt no site do curso digitando
dt <- read.table(file="http://dcm.ffclrp.usp.br/~rrosales/aulas/energy.txt",
head=TRUE)
attach(dt)
Estes dados contém duas colunas: expend e stature, e representam o consumo energetico de mulheres magras (lean) e obesas (obese). O argumento head=TRUE da função read.table permite Digite
t.test(expend~stature, paired=TRUE)
A função t.test, com a sintaxe acima, permite realizar um teste t utilizando o estimador
X̄2 − X̄1
T =r
S2
S12
+ 2
n
n
(i) No caso dos dados em energy.txt, quais são as hipóteses H0 e Ha que estão sendo testadas?
(ii) Qual é o resultado do teste? (iii) A figura 5 mostra a função poder para o teste em (i), para dois
valores de α, 0.001 e 0.05. Por que o poder do teste para α = 0.05 é maior? (iii) Escreva um código
em R, o qual permita calcular a função poder para testes t-Student. (Sugestão: utilice a função qt.)
R
Exercı́cio 52. Carregue os dados chiken.txt. Estes dados contem o efeito de duas dietas diferentes
no crecimento de perus durante as primeiras semanas de vida. Os dados apresentam quatro colunas:
“weight”, “Time”, “Chick”, e “Diet”. A figura 6 embaixo apresenta um “Box Plot”gerado com
a função boxplot(weight~Diet). Em este gráfico a barra inferior representa a menor observação
não extrema, o borde inferiror da caixa corresponde ao primeiro quartil Q1 (i.e. o valor de x tal
que Fbx1 ,...,xn (x) = 0, 25), a barra cheia é a mediana dos dados, o borde superior da caixa é o
terceiro quartil Q3 = x : Fbx1 ,...,xn (x) = 0, 75, e a barra superior representa a maior observação não
extrema. Os sı́mbolos ◦ representam eventos moderadamente extremos. Um dado é considerado
moderadamente extremo se o seu valor esta entre 1, 5(Q3 − Q1 ) e 3(Q3 − Q1 ). Se o valor de uma
observação é maior do que 3(Q3 − Q1), então esta é representada com o sı́mbolo ∗ e considerado
como um verdadeiro extremo. (i) Em base ao gráfico, diga se os dois tratamentos tem algum efeito
sobre o peso médio dos frangos. (ii) Faça um teste de hipotese para verificar a sua opinião. Qual é
a sua conclusão? [Sugestão: veja o exercı́cio anterior!]
R
Exercı́cio 53. Inicie R e carregue os dados trabalho.txt. Este arquivo contém os dados do
Exercicio 39. (i) Faça um teste para verificar se no Brasil existe diferença na taxa de trabalho de
crianças pretas e crianças brancas. Qual é a sua conclusão? (ii) Os resultados aqui são consistentes
com aqueles obtidos no Exercicio 39?
17
1.0
0.8
0.6
0.4
1 − beta(x)
0.2
0.0
−3
−2
−1
0
1
2
3
x
Figura 5: funções poder para o teste do Exercicio 51 para dois valores de α (0.001 linha pontilhada, e 0.05).
3.4.3
Teste χ2 : Testes e intervalos para a Variância
Exercı́cio 54. Para cada uma das seguintes combinações de a e gl (graus de libertade), calcular o
valor de χ2a que uma área a no extremo direito da distribuição χ2 , i.e., P (X 6) = a.
(i). a = 0, 05, gl = 7 (ii).
(iv). a = 0, 025, gl = 8 (v).
a = 0, 1, gl = 16 (iii).a = 0, 01, gl = 10
a = 0, 005, gl = 5.
Exercı́cio 55. O tempo de certo evento observado em 18 provas forneceu a estimativa para S de
6,3 (ns). Obtenha um intervalo de confiança de 95% para a verdadeira variância, σ 2 , dos tempos.
Suponha que a distribuição dos tempos observados é normal.
O seguinte exercı́cio é mais avanzado e tem como propósito ilustrar a interpretação ussual de um
intervalo de confiança.
R
Exercı́cio 56. Gere uma amostra de tamanho 20 da distribuição normal com média 0 e desvio
padrão 5. Calcule o intervalo de confiança para a variância baseado na amostra com γ = 0, 95.
Repeta estes passos 100 vezes e conte o número de vezes nas quais o intervalo captura o verdadeiro
valor de σ 2 . Divida esta frequencia pelo número total de repetições e compare o valor final com γ.
Sugestão: utilice as funções rnorm, mean.
3.4.4
Teste F (Fisher-Snedecor): σ12 /σ22
Exercı́cio 57. Supondo X ∼ F (a, b), encontre xc tal que: (i) P (X > xc ) = 0, 05 com a=18,
b=3. (ii) P (X > xc ) = 0, 05 com a=3, b=18. (iii) P (X > xc ) = 0, 05 com a=180, b=192. (iv)
P (X > xc ) = 0, 95 com a=5, b=12. (v) P (X > xc ) = 0, 95 com a=30, b=40.
Exercı́cio 58. Uma panificadora produz determinado tipo de pão, cujo peso médio é de 190 gramas,
com desvio padrão de 18 gramas. Devido a mudanças na polı́tica cambial, que ocasionou aumento no
preço do trigo, alguns ingredientes da receita foram substituı́dos. Uma equipe do governo resolveu
verificar se a variabilidade no peso do produto aumentou e escolheu, aleatoriamente, 16 unidades,
medindo o peso de cada uma. O peso médio obtido da amostra foi de 102 gramas e o desvio padrão
foi de 24,5 gramas. Qual é a conclusão para α = 10%.
18
300
250
200
peso (gr)
150
100
50
1
2
tratamento
Figura 6: Box Plots para os dados em chiken.txt.
Exercı́cio 59. Queremos comparar três hospitais, a través da satisfação demonstrada por pacientes
quanto ao atendimento, durante o perı́odo de internação. Para tanto, foram selecionados, aleatoriamente, pacientes com grau de enfermidade semelhante. Cada paciente preencheu um questionário
e as respostas geraram ı́ndices variando de 0 a 100, indicando o grau de satisfação. Os resultados
foram
n
x̄
s2 (x)
A
10
80,7
113,3
Hospital
B
15
59,0
101,4
C
13
72,3
106,5
(i) Baseando-se nos dados apresentados, teste a igualdade das variâncias para os hospitais A e B.
Use α = 0, 10. (ii) Teste se as médias populacionais são iguais. Qual sua conclusão? Use α = 0, 05.
R
Exercı́cio 60. Procure e carregue os dados stroke.txt. Entre outras informações, estes dados fornecem a idade de pessoas de ambos sexos as quais sofreram um enfarto na Estônia, durante o perı́odo
1991-1993. Digite var.test(age~sex). (i) O que esta sendo testado (quais são as hipóteses?) (ii)
Baseado no valor p do teste, qual é a sua conclusão?
Exercı́cio 61. Sejam X̄1 e S12 a média e a variância amostrais de n1 observações de uma população
com média µ1 e variância σ12 . Da forma análoga consideramos X̄2 , S22 , n2 , µ2 e σ22 . (i) Estabeleça
um intervalo de confiança para µ1 + µ2 . Sugestão: considere o estimador
Zn1 ,n2 =
(X̄1 + X̄2 ) − (µ1 + µ2 )
s
.
σ12
σ22
+
n1
n2
D
(ii) Demonstrar que se n1 → ∞ e n2 → ∞, então Zn1 ,n2 −→ Z onde Z é normal padrão.
Exercı́cio 62. Sea X1 , X2 , . . . , Xn uma amostra de uma população Poisson(λ). Se utiliza X̄ como
um estimador para λ. Obtenha um intervalo de confiança de (1 − α)% para λ. [Sugestão, considere
o estimador,
X̄ − λ
Z= p
λ/n
19
e mostre que Z é normal padrão quando n → ∞ (Qual dos resultados da seção de convergência
podem ser utilizados?)]
3.5
R
Projeto 4: Bioinformática
O objetivo deste exercı́cio é aplicar alguns dos métodos utilizados em seções anteriores a uma base
de dados constituı́da pelos valores da expressão genica de pacientes com leucemia linfóide e leucemia
mielóide aguda.
Os dados a serem utilizados foram tomados do pacote multtest, o qual forma parte de Bioconductor: www.bioconductor.org, e estão baseados nas análises em [TRGSA+ 99]. Os dados podem
ser carregados como
library(multtest); data(golub);
caso multtest esteja instalado, ou directamente do site do curso digitando
load(url("http://dcm.ffclrp.usp.br/~rrosales/aulas/r-data-stat-IBM/golub.RData"))
Os dados disponı́veis na matriz golub apresentam os valores da expressão de 3051 genes (filas) de 38
pacientes diagnosticados com leucemia (colunas). Os dados dos primeiros 27 pacientes correspondem
a pessoas com leucemia linfóide (ALL) e os ultimos 11 a pessoas com leucemia mielóide aguda
(AML). O tipo do tumor se encontra indicado pelo vetor numerico golub.cl, onde a condição
ALL é determinada pelo número 0 e AML pelo número 1. Os nomes dos genes se encontram em
golub.gnames, uma matrix com 3 colunas: um ı́ndice para o gene, a identidade do gene, e o nome
do gene. Por exemplo, o gene M92287 at identificado com “CNND3 Cyclin D3” corresponde a file
número 1042 em golub.names,
golub.gnames[1042,]
[1] "2354"
"CCND3 Cyclin D3"
"M92287_at"
Assim,
golub[1042,2]
[1] 1.52405
representa a expressão do gene M92287 at para o paciente 2. golub[,1] representa os valores
da expressão para os 3051 genes do paciente 1, e golub[1024,] os valores da expressão do gene
M92287 at para todos os 38 pacientes,
golub[1024,]
[1] -1.45769 -1.39420
[9] -1.47649 -1.21583
[17] -1.56783 -1.20466
[25] -1.25268 -1.27619
[33] -1.47218 -1.34158
-1.46227
-1.28137
-1.24482
-1.23051
-1.22961
-1.40715
-1.03209
-1.60767
-1.43337
-0.39456
-1.42668
-1.36149
-1.06221
-1.08902
-1.34579
-1.21719
-1.39979
-1.12665
0.40633
-1.32403
-1.37386
-1.39503
-1.20963
-1.26183
-1.36832
-1.40095
-1.48332
-1.44434
Suponhamos que desejamos separar os valores da expressão do gene M92287 at em dois grupos:
ALL, AML (segundo o tipo de tumor). Definimos primeiro uma variável do tipo factor com nome
gol.fact,
gol.fac <- factor(golub.cl, levels=0:1, labels=c("ALL", "AML"))
Agora, para obter os valores de expressão de M92287 at para os pacientes do grupo ALL fazemos
golub[1042, gol.fact=="ALL"]
Esta maneira de organizar os dados permite por exemplo calcular a expressão genica média (para
cada gene) de tudos os pacientes do tipo ALL,
20
mediaALL <- apply(golub[, gol.fac=="ALL"], 1, mean)
(veja help(apply)). A média de cada um dos 3051 genes dos dados do tipo ALL se encontra no
vetor mediaALL. Suponhamos agora que temos interesse em estudar o gene identificado por CD33
(segundo [TRGSA+ 99], este gene pode ser utilizado para identificar células do tipo linfóide das
mielóides!). Para saber o indice da fila de golub para este gene fazemos
grep("CD33", golub.gnames[,2])
[1] 808
isto é, os valore da expressão para o antigeno CD33 se encontram em golum[808, ].
Exercı́cio 63. Digite
mall <- apply(golub[,gol.fac=="ALL"], 1, mean)
maml <- apply(golub[,gol.fac=="AML"], 1, mean)
o <- order(abs(mall-maml), decreasing=TRUE)
print(golub.gnames[o[1:5],2])
Interprete o resultado e diga qual é a sua importância.
Exercı́cio 64. Utilice a função grep para encontrar os oncogenes em golub. (i) Quantos oncogenes
tem a base de dados? (ii) Encontre os nomes dos oncogenes com o maior valor de expressão médio
para os pacientes do tipo ALL. (iii) Faça o mesmo para os pacientes do tipo AML.
Exercı́cio 65. Escolha os dados do gene CD33. (i) Faça um teste para verificar a igualdade das
variâncias na expressão do gene CD33 nos grupos ALL e AML. (ii) Considere um teste para verificar
a igualdade no nı́vel médio da expressão do gene CD33 nos grupos ALL e AML.
Exercı́cio 66. O oncogene “MYBL2 V-myb avian myeloblastosis viral oncogene homolog-like 2” se
encontra na fila 1788 de golub. (i) Utilice um boxplot para comparar os dois grupos ALL e AML.
Você acredita que o nı́vel de expressão médio varia de acordo com o grupo? (ii) Considere um t-teste
para verificar se o valor médio de expressão é igual. (iii) Repita estes analises para o gene “HOXA9
Homeo box A9”, o qual segundo [TRGSA+ 99] causa leucemia.
4
Análise de variância e regressão linear
Exercı́cio 67. Três diferentes bancos possuem agências de mesmo porte em uma avenida no centro
de São Paulo. Para testar se essas agências têm movimento médio equivalente, foi escolhida uma
semana tı́pica de trabalho e o desempenho, nesses dias, foi registrado. Os dados obtı́dos, em milhões
de reais é apresenta na seguinte tabela
1
Banco
2
3
146,4
199,2
179,5
98,4
263,7
194,3
227,2
203,4
111,8
275,0
173,7
246,5
289,8
127,4
265,6
Qual seria a sua conclusão ao nı́vel α =5%?
Exercı́cio 68. Um estudo deseja avaliar o efeito do treinamento no tempo de reação de atletas
submetidos a um certo estı́mulo. O treinamento consiste na repetição de um movimento e foi
utilizada uma amostra de 37 atletas. Para cada atleta foi atribuı́do um certo número de repetições
21
X e, então, foi medido o tempo de reação Y , em milisegundos. Uma reta de mı́nimos quadrados foi
ajustada aos dados, fornecendo a equação
ybi = 80, 5 − 0, 9xi ,
i = 1, . . . , n.
(i) Qual é o significado das estimativas para α e β?
R
Exercı́cio 69. Inicie R e carregue os dados cabbages.txt. Estes dados contem informações sobre
plantios de repolhos e estão constituı́dos por quatro colunas: Cult: origem do cultivo, Date: data da
plantação, HeadWt: peso da cabeça do repolho (em Kg), VitC: conteúdo de ácido ascorbico (vitamina
C, em unidades arbitrárias). Ao digitar
minharegressao <- lm(HeadWt~VitC)
deverá aparecer
Call:
lm(formula = HeadW~VitC)
Coefficients:
(Intercept)
5.92806
VitC
-0.05754
O argumento a lm é a fórmula de um modelo. Na sua forma mais simples, o modelo y~x indica que
y é a variável dependente e x a variável independente (esta última é conhecida em uma regressão
como a variável descritiva). Neste caso, como saı́das de lm obtemos o intercepto (β) com o eixo y e a
inclinação (α) da reta que melhor descreve os dados. A estimativa para a reta de regressão portanto
é
HeadWt = 5.92806 − 0.05754 × VitC.
Maiores informações sobre a regressão são obtidos ao escrever
summary(minharegressao)
o qual gera a seguinte informação
Call:
lm(formula = HeadWt ~ VitC)
Residuals:
Min
1Q Median
-1.0150 -0.5117 -0.1575
3Q
0.4244
Max
1.6095
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.928059
0.505983 11.716 < 2e-16 ***
VitC
-0.057545
0.008603 -6.689 9.75e-09 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6687 on 58 degrees of freedom
Multiple R-squared: 0.4355,
Adjusted R-squared: 0.4257
F-statistic: 44.74 on 1 and 58 DF, p-value: 9.753e-09
Residuals fornece algumas propriedades que resumem a distribuição dos erros ei . Lembramos que a
distribuição de estes apresenta a priori média 0, portanto a mediana dos erros deve estar próxima de
este valor (neste caso -0.1575). Coefficients; mostra novamente as estimativas para β e α e para
22
cada uma o seu erro padrão, testes t, e p-valores. Os sı́mbolos a direita correspondem a um indicador
gráfico do nı́vel do teste; * significa 0, 01 < p < 0, 05 (veja a linha Signif.codes:...). Residual
standard error é a variação residual, uma quantidade que mede a variabilidade das observações
a respeito da reta de regressão, e fornece uma estimativa para σ, a variância dos ei . Multiple
R-squared é o coeficiente de correlação de Pearson. F-statistics corresponde ao resultado do
teste H0 : α = 0, Ha : α 6= 0. Finalmente, os comandos
plot(VitC,HeadWt,xlab="concentracao de vitamina C (unidades
arbitrarias)", ylab="peso da cabeca do repolho (Kg)",
cex=0.9, lwd=0.65)
abline(lm(HeadWt~VitC), lwd=1.5, col="navy", lty=2)
●
1.0 1.5 2.0 2.5 3.0 3.5 4.0
peso da cabeca do repolho (Kg)
produzem a figura 7. (i) Baseado em estes resultados, você acredita que o modelo de regressão linear
é apropriado em este exemplo? Qual dos resultados fornecidos por R levo você a sua conclusão?
(ii) Qual é o peso esperado de uma cabeça de repolho com 60 unidades de vitamina C? e para 100
unidades?
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
40
50
60
70
80
concentracao de vitamina C (unidades arbitrarias)
Figura 7: gráfico tı́pico para uma regressão linear.
Exercı́cio 70. Para verificar o efeito da variável X sobre a variável Y , foi realizado um experimento
que forneceu os pares (xi , yi ) dados por (3; 13,3), (7; 24,3), (5; 15,9), (2; 12,8), (9; 29,6), (7; 29,5),
(3; 14,5), (5; 23,3), (8; 32,6), (2; 12,0) e (1; 4,6). Obtehna a reta ajustada. Construa o diagrama
de despersão, baseando-se nos pares de valores fornecidos e, em seguida, desenhe a reta ajustada.
Baseando-se apenas no gráfico, você diria que o ajuste é adequado? Verificar se o valore de x influi
sobre o valor de y, utilizando α = 5%.
Exercı́cio 71. Para verificar se existe relação entre a renda familiar (em salários mı́nimos) e o
número de filhos, foi coletada uma amostra de 8 famı́lias em uma ciudade. Os resultados obtidos
são apresentados na seguinte tabela, e graficados na figura 8.
Famı́lia
1
2
3
4
5
6
7
8
Renda
Filhos
12
3
14
2
15
2
17
1
23
1
27
0
34
0
43
0
23
3.0
2.5
2.0
1.5
1.0
0.0
0.5
# de filhos
15
20
25
30
35
40
# de salarios minimos
Figura 8: renda e número de filhos
(i) Que conclusões podem ser tiradas, baseando-se em um diagrama de dispersão, apresentado acima,
e no coeficiente de correlação? (ii) Calcule a reta de mı́nimos quadrados e interprete os parâmetros.
(iii) Verifique se a renda influi no número de filhos, utilizando α = 5%.
Exercı́cio 72. Verifique se é razoável considerar um modelo de regressão linear relacionando as
notas de cálculo, Y, e estatı́stica, X, segundo os dados apresentados na tabela a seguir.
Disciplinas
Cálculo
Estatı́stica
Notas
5,5
7,0
3,5
4,5
7,0
8,5
2,5
3,5
8,5
9,0
6,5
4,5
6,0
5,0
4,0
5,5
0,5
1,5
5,0
6,5
Exercı́cio 73. A quantidade de chuva é um fator importante na produtividade agrı́cola. Para medir
esse efeito, foram anotadas, para 8 regiões diferentes produtoras de soja, o ı́ndice pluviométrico e a
produção do último ano.
Chuva (mm)
Produção (ton)
120
40
140
46
122
45
150
37
115
25
190
54
130
33
118
30
(i) Ajuste a reta de regressão. Como você interpretaria o coeficiente β? (ii) Utilizando a reta
ajustada, encontre a produção esperada para uma região com ı́ndice pluviométrico é igual a 160
mm. (iii) Construa uma tabela ANOVA para verificar, ao nı́vel de 5%, se existe evidência estatı́stica
de que o ı́ndice pluvométrico influencia na produção de soja.
Exercı́cio 74. Foi realizado um experimento para comparar as qualidades de desgaste de 3 tipos
de tinta submetidas a ação abrasiva de uma roda forrada que gira lentamente. Foram testadas
10 especı́menes para cada tipo de tinta e foram registrados o número de horas transcoridas até o
aparecimento de uma abrasão visı́vel em cada caso. Os resultados são apresentados na tabela abaixo.
Há provas suficientes de uma diferença no tempo médio até o aparecimento de uma abrasão visı́vel
entre os 3 tipos de pintura? Considere o nı́vel α = 5%.
24
Tipo de tinta
2
3
148
76
393
520
236
134
55
166
415
153
513
264
433
94
535
327
214
135
280
304
335
643
216
536
128
723
258
380
549
465
10
20
30
40
50
60
Exercı́cio 75. Procure e carrege do site do curso os dados Cars93.txt. Utilize a função read.table.
Estes dados contém 93 linhas e 27 colunas, e apresentam diversas caracterı́sticas de vários automóveis
americanos em 1993. Os dados foram tomados do pacote MASS, e podem ser carregados na memória
aos escrever library(MASS)6 , caso este pacote esteja instalado na sua distribuição de R. Uma vez
carregados os dados, digite help(Cars93) e também diretamente Cars93 para obter maiores informações. O boxplot mostrado na figura 9 foi realizado com o comando attach(Cars93); e logo
boxplot(Price~Type,notch=F). (i) Baseado neste gráfico, você acredita que existe evidência para
pensar que os preços médios dos vehı́culos variam de acordo ao tipo? (ii) O teste ANOVA para os
Preco (unidades arbitrarias)
R
1
Compact
Large
Midsize
Small
Sporty
Van
Tipo
Figura 9: preços de diversos tipos de carros americanos em 1993.
preços dos veı́culos de acordo as classes em Types pode ser realizado como
anova(lm(Price~Type))
resultando
6 MASS contém os dados e as funções que acompanham a referéncia: Venables, W. N. e Ripley, B. D. (1999)
Modern Applied Statistics with S-PLUS. Terceira Edição. Springer Verlag.
25
Analysis of Variance Table
Response: Price
Df Sum Sq Mean Sq F value
Pr(>F)
Type
5 3421.4
684.3 11.532 1.477e-08 ***
Residuals 87 5162.6
59.3
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Em base a este teste podemos descartar a hipotese que consiste em pensar que todos os tipos de
carros apresentam o mesmo valor médio? (iii) Faça uma regressão linear utilizando Weight como
variável independente e MPG.highway. Qual é o resultado do teste F associado? (iv) Considere o
teste
t.test(Price~Origin, alternative=two.sided)
onde Origin e uma variável com dois valores USA e non-USA. O que esta sendo testado (quais são
H0 e Ha )? Qual é o resultado do teste? (v) Considere o teste
t.test(Price~Origin, alternative=greather)
Quais são as hipoteses? Qual é o resultado do teste? (veja como muda a conclusão do teste em
alternative hypotesis).
R
Exercı́cio 76. Uma agência de empregos deseja verificar o grau de satisfação de seus clientes. Para
tanto, escolheu domicı́lios de famı́lias de classe A, B e C, que fizeram uso da agência, e solicitou que
um questionário fosse preenchido. Os questionários foram devidamente codificados, a fim de fornecer
um ı́ndice de satisfação que varia de 1 a 5 (insatisfeito a satisfeito). Os resultados do questionario se
encontram no aquivo agencia.txt. Faça um teste ANOVA para verificar se o ı́ndice de satisfação
médio varia ou não de classe a classe. Qual é a conclusão se α =0,05%?
5
5.1
Apêndice
Distribuições amostrais
Esta seção apresenta diversos resultados sobre a origem de varias distribuições amostrais utilizadas
em aula. O seu estudo é opcional e só devera ser considerado numa segunda leitura.
5.1.1
Distribuições Gamma e χ2
Apresentamos dois distribuições essenciais no estudo das distribuições amostrais de X̄ e S 2 .
Se X é normal padrão, qual será a distribuição de X 2 ? Encontraremos primeiro a função de
distribuição de Y = X 2 , FY . Obviamente FY (y) = 0 se y < 0. Se y ≥ 0, então
√
√
FY (y) = P(Y ≤ y) = P(X 2 ≤ y) = P(− y ≤ X ≤ y)
Z +√y
Z √y
2
1 −x2 /2
1
√ e−x /2 dx.
= √ √ e
dx = 2
2π
2π
− y
0
√
Consideramos a seguir a seguinte troca de variável, x = t, então
Z y
1
1
√ t− 2 e−t/2 dt.
FY (y) =
2π
0
A densidade de Y , fY , é a derivada de FY com respeito a y,
(
1
√1 y 2 e−y/2 ,
se y > 0,
2π
fY (y) =
0,
caso contrário.
26
Esta densidade é um membro da “familia de distribuições gamma”. Antes de definirmos esta
famı́lia lembramos a definição da função gamma, muito utilizada em analise. A função Γ : (0, +∞) →
[0, +∞) dada por
Z +∞
Γ(x) =
tx−1 e−t dt, x > 0,
0
é conhecida como a função gamma. Utilizando integração por partes é possı́vel mostrar que Γ(x+1) =
xΓ(x) para qualquer x > 0, e portanto como um caso particular obtemos que Γ(n + 1) = n! para
n ∈ N.
√
Exercı́cio 77. Mostre que Γ(1/2) = π.
Definição 2. A variável aleatória X tem distribuição gamma com parâmetros α e β > 0 se a sua
densidade é dada por

 1 xα−1 e−x/β , se x ≥ 0,
fX (x) = β α Γ(α)

0,
caso contrário.
Segue imediatamente deste definição, do Exercicio 77 é do exposto nesta seção que se X é normal
padrão, então X 2 tem distribuição gamma com parâmetros α = 1/2 e β = 2 (justifique isto!).
Exercı́cio 78. (i) Mostre que a função geradora de momentos de uma variável aleatória gamma é
dada por
1
M (t) =
,
(1 − βt)α
sendo que M (t) esta definida no domı́nio (−∞, β1 ). [Sugestão: considere x = βu e logo a troca de
variável u = v/(1 − βt)]. (ii) Utilizando M (t) mostre que EX = αβ e Var(X) = αβ 2 .
Proposição 1. Sejam X1 , . . . , Xn variáveis aleatórias independentes gamma com parâmetros αi ,
β respectivamente. A variável aleatória X1 + . . . Xn tem distribuição gamma com parâmetros α1 +
. . . + αn e β.
Demonstração. Lembramos que se X1 e X2 são variáveis aleatórias independentes então a função
geradora de Z = X1 + X2 é simplesmente MZ (t) = MX1 (t)MX2 (t). Temos então que
MX1 +...+Xn (t) = MX1 (t) · · · MXn (t) =
=
1
1
···
α
1
(1 − βt)
(1 − βt)αn
1
,
(1 − βt)α1 +...+αn
a qual é a função geradora de uma variável aleatória gamma com parâmetros α1 + . . . + αn e β.
Suponhamos agora que X1 , . . . , Xn é uma amostra i.i.d. de uma população normal padrão.
Neste caso diante ao exposto temos que X12 , . . . , Xn2 são independentes e com distribuição gamma
com α = 1/2 e β = 2. Da proposição acima temos que
n X12 + . . . Xn2 ∼ gamma , 2 .
(10)
2
Exercı́cio 79. (i) Suponha que X e Y são independentes e com distribuição χ2 com n graus de
liberdade e χ2 com m graus de liberdade respectivamente. Mostre que X + Y tem distribuição χ2
com n + m graus de liberdade. (ii) Suponha agora que X e e X + Y são χ2 com m e n, m < n,
graus de liberdade. Mostre que Y é χ2 com n − m graus de liberdade.
Definição 3. Uma variável aleatória tem distribuição χ2 com n graus de liberdade se esta tem
distribuição gamma com parâmetros α = n/2 e β = 2.
27
0.10
0.08
0.06
0.04
0.02
0.00
0
10
20
30
40
50
60
70
Figura 10: densidade χ2 para 10 (linha continua), 30 e 50 graus de liberdade.
Esta terminologia introduzida pelo estatı́stico Britânico K. Pearson (1857-1936) ainda é utilizada
hoje em dia. A figura 10 mostra a densidade χ2 para diferentes graus de liberdade.
O interesse inicial na distribuição χ2 è que esta esta relacionada a distribuição amostral de S 2 .
Com o propósito de mostrarmos esta relação utilizaremos o seguinte resultado.
Teorema 10. Seja X1 , . . . , Xn uma amostra i.i.d. de uma população normal. Os estimadores X̄ e
S 2 são independentes.
Este Teorema permite obter a distribuição amostral de S 2 no caso quando são consideradas
amostras i.i.d. de uma população normal.
Teorema 11. Seja X1 , . . . , Xn , n ≥ 2, uma amostra i.i.d. de uma população normal com média µ
e variância σ 2 . A variável aleatória
(n − 1)S 2
V =
σ2
2
apresenta distribuição χ com n − 1 graus de liberdade.
Demonstração. Observamos que cada uma das variáveis aleatórias (Xi − µ)/σ são independentes e
normais padrão. Neste caso, diretamente de (10) temos que
n X
X i − µ 2
i=1
σ
tem distribuição χ2 com n graus de liberdade.
Se X1 , . . . , Xn é uma amostra i.i.d. de uma população normal√ com média µ e variância σ 2 ,
então das propriedades da distribuição normal, a variável aleatória n(X̄ − µ)/σ é normal padrão.
Portanto n(X̄ − µ)2 /σ 2 tem distribuição χ2 com 1 grau de liberdade.
Observamos agora que
n X
X i − µ 2
i=1
σ
n
X
(Xi − X̄)2
X̄ − µ 2
σ2
σ
i=1
2
(n − 1)S
X̄ − µ 2
=
+n
.
2
σ
σ
=
28
+n
Segue então do Teorema 10 e do Exercicio 79(ii) que (n − 1)S 2 /σ 2 tem distribuição χ2 com n − 1
graus de liberdade.
5.1.2
Distribuição t (t-Student)
Estudamos a continuação a distribuição da variável aleatória
T =
√ X̄ − µ ,
n
S
obtida ao considerar uma amostra i.i.d. de uma população normal. Observamos primeiro a seguinte
representação para T ,
r
X̄ − µ
X̄ − µ σ
X̄ − µ . S 2
√ =
√ · =
√
.
σ2
S/ n
σ/ n S
σ/ n
Se Z =
X̄ − µ
(n − 1)S 2
√ eV =
, então
σ2
σ/ n
X̄ − µ
Z
√ =p
.
S/ n
V /(n − 1)
Observamos que Z tem distribuição N (0, 1) e V tem distribuição χ2 com n − 1 graus de liberdade, e
também que o par de variáveispaleatórias Z, V são independentes. O seguinte resultado determina
a distribuição do quociente Z/ V /n.
Proposição 2. Seja Z com distribuição N (0, 1) e V com distribuição χ2 com n graus de liberdade.
Se Z e V são independentes, então a variável aleatória
Z
T =p
V /n
tem densidade de probabilidade f dada por
n+1
Γ( n+1
x2 − 2
2 )
√
1+
f (x) =
n
πnΓ( n2 )
Demonstração. Calculamos primeiro a densidade de U =
de U é dada por
a2
Z
2
FU (a) = P(U ≤ a) = P(Y ≤ a ) =
0
para todo x ∈ R.
√
V . Temos que a função de distribuição
n
1
x 2 −1 e−x/2 dx se a > 0.
2n/2 Γ(n/2)
Tomando x = u2 obtemos
Z
FU (a) =
0
a
2
2n/2 Γ(n/2)
un−1 e−u
2
/2
du se a > 0.
Se derivamos respeito de a obtemos a densidade de U ,

2
2

un−1 e−u /2 ,
n/2
fU (u) = 2 Γ(n/2)

0,
se u > 0,
se u ≤ 0.
Calculamos agora a distribuição de probabilidade de Z/U . A tal fim observamos que
Z
P
U
≤ a = P(Z ≤ aU ) = P (Z, U ) ∈ Ga ,
29
(11)
onde Ga = {(x, u) ∈ R2 : u > 0 e x ≤ au}. Devido a independência de Z e U , temos que a densidade
conjunta de (Z, U ) é

2
2
fZ (x)fU (u) = √1 e−x2 /2
un−1 e−u /2 , se u > 0,
2n/2 Γ( n2 )
2π
fZ,U (x, u) =

0,
se u ≤ 0.
Conseqüentemente,
Z
P
U
ZZ
≤a =
fZ (x)fU (u) dxdu,
Ga
e trocando a ordem das integrais, para a 6= 0,
Z
Z +∞ Z au
fZ (x)fU (u)dx du
P
≤a =
U
−∞
0
Z au
Z +∞
2
1
√ e−x /2 dx du.
fU (u)
=
2π
−∞
0
Mantendo u fixo e trocando x = ut na integral mais interna resulta em
Z a
Z +∞
Z
1 −(ut)2 /2
√ e
≤a =
fU (u)
P
u dt du
U
2π
0
−∞
Z a Z +∞
2
1
=
fU (u) √ e−(ut) /2 u du dt,
2π
−∞
0
sendo que a ultima igualdade resulta ao trocar novamente a ordem de integração. Temos então, da
última igualdade, que a densidade de Z/U pode ser escrita como
Z
+∞
2
1
fU (u) √ e−(au) /2 u du
2π
0
Z +∞
2
2
2
√
=
un e−(1+a )u /2 du.
n/2 2πΓ( n )
2
0
2
√
Se agora consideramos a troca u = v/ 1 + a2 na ultima integral obtemos
fZ/U (a) =
fZ/U (a) = (1 + a2 )−(n+1)/2
Substituindo v =
√
2n/2
√
2
2πΓ( n2 )
Z
+∞
v n e−v
2
/2
dv.
0
2s, a integral a direita pode ser expressada em termos da função gamma como
√ Z
Z +∞
2
2n/2 2 +∞ n − 1 −s
v n e−v /2 dv =
s 2 2 e ds
2
0
0
√
2n/2 2 n + 1 =
Γ
,
2
2
e assim,
Γ n+1
2
fZ/U (a) = √
(1 + a2 )−(n+1)/2 .
πΓ( n2 )
p
Por ultimo derivamos agora a densidade de Z/ V /n. Observamos que,
√ Z
√ Z
Z
p
= n√ = n ,
U
V
V /n
30
e então finalmente a distribuição de
√
nZ/U é
Γ n+1
2
a2 −(n+1)/2
1+
.
f (a) = √
n
n
πnΓ( 2 )
Definição 4. Uma variável aleatória tem distribuição t com n graus de liberdade se a sua densidade
é dada pela lei em (11).
0.0
−6
−5
0.1
−4
0.2
−3
0.3
−2
−1
0.4
A distribuição t foi descrita inicialmente por William S. Gosset (1876-1937). Gosset trabalhava
na cervejaria Guiness em Dublim a qual proibia que os seus empleados publicassem o seu trabalho
cientı́fico. Devido a isto Gosset publico os seus trabalhos utilizando o pseudônimo “Student”. Em
honra ao seu descobridor hoje em dia a distribuição t também é conhecida como a “distribuição
Student” (ou t-Student). Esta distribuição é apresentada na figura 11.
−4
−2
0
2
4
−4
−2
0
2
4
Figura 11: esquerda: densidade t de Student para 5 (linha continua), 10, 20 e 30 graus de liberdade,
e direita: mesmas densidades com ordenas algorı́tmicas para enfatizar a diferença nas caudas. A fim
de estabelecer uma comparação, a densidade normal padrão também se encontra graficada, sendo
que esta é a densidade com a menor probabilidade nas caudas.
5.1.3
Distribuição F
2
2
Sejam X e Y duas populações e SX
, XY2 os estimadores das variâncias σX
e σY2 . Desejamos estudar
2
2
o quociente σX /σY e a tal fim determinamos a distribuição de
2 2
SX
σX
.
SY2 σY2
Esta variável aleatória tem “distribuição F ”.
Definição 5. A variável aleatória X apresenta distribuição F com m graus de liberdade no numerados e n graus de liberdade no denominador se a sua densidade é dada por

m+n
m+n

 Γ( 2 ) m m/2 x m2 −1 1 + m x − 2 , se x > 0,
n
n
f (x) = Γ( m
2 )Γ( 2 ) n

0,
se x ≤ 0.
31
1.0
0.8
0.6
0.4
0.2
0.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Figura 12: densidades F (m, n) para vários valores de m e n (linha continua (50, 50), ponteada
(30, 30) e linha interrompida (10, 1000)).
A distribuição F é também conhecida como a distribuição de Fisher em honra a Sir Ronald A.
Fisher (1890–1962).
Teorema 12. Sejam U e V duas variáveis aleatórias com distribuição χ2 de m e n graus de liberdade
respectivamente. Se U e V são independentes, então
U/m
V /n
tem distribuição F com m graus de liberdade no numerador e n graus de liberdade no denominador.
Demonstração. Encontramos primeiro a distribuição de U/V . Devido a que U > 0 e V > 0, temos
que
U
P
≤ a = 0, se a ≤ 0.
V
No caso a > 0 temos
U
≤ a = P(U ≤ aV ) = P (U, V ) ∈ A ,
P
V
onde A = {(u, v) : u ≤ av e u, v ≥ 0} ⊂ R2 . Seguindo o mesmo argumento utilizado para derivar a
distribuição de Z/U na Proposição 2, temos
ZZ
m
n
U
1
P
≤a =
u 2 −1 v 2 −1 e−u/2 e−v/2 du dv.
m+n
m
n
V
2 2 Γ( 2 )Γ( 2 )
A
Seja C
−1
=2
m+n
2
n
Γ( m
2 )Γ( 2 ).
Se trocamos a ordem de integração na ultima integral obtemos
Z +∞ Z av
n
m
U
P
≤a =C
u 2 −1 v 2 −1 e−u/2 e−v/2 du dv.
V
0
0
Se deixamos v fixo e consideramos a troca u = vt na integral mais interna obtemos que o lado direito
da ultima igualdade é
Z +∞ Z a
n
m
m
C
v 2 −1 v 2 −1 t 2 −1 e−vt/2 e−v/2 v dt dv
0
0
Z a Z +∞
m+n
m
v 2 −1 t 2 −1 e−(1+t)v/2 dv dt.
=C
0
0
32
Para t fixo consideramos agora a troca v = 2s/(1 + t),
Z a Z +∞ m+n
2 2 m −1 m+n −1 −s
e ds dt
C
t2 s 2
1+t
0
0
Z a
Z +∞
m+n
m+n
2 2 m −1
t 2 dt
=C
s 2 −1 e−s ds
1+t
0
0
Z a
m+n
m
m + n
2 2
2 −1 dt
Γ
.
=C
m+n t
2
0 (1 + t) 2
Desta forma,
Z a
Γ( m+n
m+n
m
U
2 )
t 2 −1 (1 + t)− 2 dt.
P
≤a =
n
)Γ(
)
V
Γ( m
0
2
2
Se derivamos agora respeito de a obtemos a densidade de probabilidade f˜ de U/V ,
( Γ( m+n ) m
m+n
−1
2
(1 + a)− 2 , se a ≥ 0,
m
n a 2
f˜(a) = Γ( 2 )Γ( 2 )
0,
caso contrário.
Num segundo passo, calculamos a distribuição de
U/m
V /n ,
isto é,
U/m
nU
=
.
V /n
mV
Lembramos que se X é uma variável aleatória com densidade fX , então Y = bX, b 6= 0, tem
densidade
1
fY (y) =
fX (y/p)
|p|
Então a densidade f de
f (a) =
U/m
V /n


segue da densidade de U/V ,
Γ( m+n
2 )
n
Γ( m
2 )Γ( 2 )
m2
m
n
m
a 2 −1 1 +
0,
− m+n
2
m
na
,
se a ≥ 0,
caso contrário.
Esta expressão corresponde a densidade F com m graus de liberdade no numerador e n no denominador.
Exercı́cio 80. Mostre o seguinte resultado.
Proposição 3. Seja X uma variável aleatória com distribuição F com m graus de liberdade no
numerador e n graus de liberdade no denominador. A variável aleatória 1/X tem distribuição F
com n graus de liberdade no numerador e m graus de liberdade no denominador.
Referências
[Ber13]
J. Bernoulli. ...Ars conjectandi, opus posthumum. Accedit Tractatus de seriebus infinitis, et epistola gallicé scripta de ludo pilae reticularis. Impensis Thurnisiorum,
fratrum, Basileae, 1713.
Tradução: E. D. Sylla. The Art of Conjecturing, together with Letter to a friend of
Sets in Court Tennis. The Johns Hopkins University Press, 2005.
[GS01]
G. Grimmett and D. Stirzaker. Probability and Random Processes. Oxford University
Press, 3rd edition, 2001.
33
[Jam02]
B. R. James. Probabilidade: um curso em nı́vel intermediário. Projeto Euclides.
Associação Instituto Nacional de Matemática Pura e Aplicada, Rio de Janeiro, 2002.
[Rao73]
C. R. Rao. Linear Statistical Inference and its Applications. Wiley, New York, 1973.
[TRGSA+ 99] T. R. T. R. Golub, D. K. Slonim, P. Amayo, D. Huard, M. Gaasenbeek, J. P. Mesirov,
H. Coller, M. L. Loh, M. R. Downing, M. A. Caligiuri, C. D. Bloomfield, and E. S.
Lander. Molecular classification of cancer: Class discovery and class prediction by
gene expression monitoring. Science, 286(5439):531–537, 1999.
34
6
Tabelas
Tabela 1: valores da distribuição normal padrão. A tabela fornece os valores de z que correspondem
a α, onde α = P(0 ≤ Z < z) . As colunas apresentam a segunda casa decimal de z, e as filas a parte
inteira e a primeira casa decimal.
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
0.00
0.0000
0.0398
0.0793
0.1179
0.1554
0.1915
0.2257
0.2580
0.2881
0.3159
0.3413
0.3643
0.3849
0.4032
0.4192
0.4332
0.4452
0.4554
0.4641
0.4713
0.4772
0.4821
0.4861
0.4893
0.4918
0.4938
0.4953
0.4965
0.4974
0.4981
0.4987
0.01
0.0040
0.0438
0.0832
0.1217
0.1591
0.1950
0.2291
0.2611
0.2910
0.3186
0.3438
0.3665
0.3869
0.4049
0.4207
0.4345
0.4463
0.4564
0.4649
0.4719
0.4778
0.4826
0.4864
0.4896
0.4920
0.4940
0.4955
0.4966
0.4975
0.4982
0.4987
0.02
0.0080
0.0478
0.0871
0.1255
0.1628
0.1985
0.2324
0.2642
0.2939
0.3212
0.3461
0.3686
0.3888
0.4066
0.4222
0.4357
0.4474
0.4573
0.4656
0.4726
0.4783
0.4830
0.4868
0.4898
0.4922
0.4941
0.4956
0.4967
0.4976
0.4982
0.4987
0.03
0.0120
0.0517
0.0910
0.1293
0.1664
0.2019
0.2357
0.2673
0.2967
0.3238
0.3485
0.3708
0.3907
0.4082
0.4236
0.4370
0.4484
0.4582
0.4664
0.4732
0.4788
0.4834
0.4871
0.4901
0.4925
0.4943
0.4957
0.4968
0.4977
0.4983
0.4988
0.04
0.0160
0.0557
0.0948
0.1331
0.1700
0.2054
0.2389
0.2704
0.2995
0.3264
0.3508
0.3729
0.3925
0.4099
0.4251
0.4382
0.4495
0.4591
0.4671
0.4738
0.4793
0.4838
0.4875
0.4904
0.4927
0.4945
0.4959
0.4969
0.4977
0.4984
0.4988
35
0.05
0.0199
0.0596
0.0987
0.1368
0.1736
0.2088
0.2422
0.2734
0.3023
0.3289
0.3531
0.3749
0.3944
0.4115
0.4265
0.4394
0.4505
0.4599
0.4678
0.4744
0.4798
0.4842
0.4878
0.4906
0.4929
0.4946
0.4960
0.4970
0.4978
0.4984
0.4989
0.06
0.0239
0.0636
0.1026
0.1406
0.1772
0.2123
0.2454
0.2764
0.3051
0.3315
0.3554
0.3770
0.3962
0.4131
0.4279
0.4406
0.4515
0.4608
0.4686
0.4750
0.4803
0.4846
0.4881
0.4909
0.4931
0.4948
0.4961
0.4971
0.4979
0.4985
0.4989
0.07
0.0279
0.0675
0.1064
0.1443
0.1808
0.2157
0.2486
0.2794
0.3078
0.3340
0.3577
0.3790
0.3980
0.4147
0.4292
0.4418
0.4525
0.4616
0.4693
0.4756
0.4808
0.4850
0.4884
0.4911
0.4932
0.4949
0.4962
0.4972
0.4979
0.4985
0.4989
0.08
0.0319
0.0714
0.1103
0.1480
0.1844
0.2190
0.2517
0.2823
0.3106
0.3365
0.3599
0.3810
0.3997
0.4162
0.4306
0.4429
0.4535
0.4625
0.4699
0.4761
0.4812
0.4854
0.4887
0.4913
0.4934
0.4951
0.4963
0.4973
0.4980
0.4986
0.4990
0.09
0.0359
0.0753
0.1141
0.1517
0.1879
0.2224
0.2549
0.2852
0.3133
0.3389
0.3621
0.3830
0.4015
0.4177
0.4319
0.4441
0.4545
0.4633
0.4706
0.4767
0.4817
0.4857
0.4890
0.4916
0.4936
0.4952
0.4964
0.4974
0.4981
0.4986
0.4990
Tabela 2: Valores da distribuição t-Student bicaudal. A tabela fornece os valores de x para α, onde
α = P(|T | ≥ x), ou alternativamente para γ onde γ = 1 − α = P(−x < T < x). GL denota os graus
de liberdade.
GL
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
42
44
46
48
50
60
70
80
90
100
120
150
200
300
500
∞
γ
α
0.4
0.6
0.727
0.617
0.584
0.569
0.559
0.553
0.549
0.546
0.544
0.542
0.540
0.539
0.538
0.537
0.536
0.535
0.534
0.534
0.533
0.533
0.532
0.532
0.531
0.531
0.531
0.531
0.530
0.530
0.530
0.530
0.530
0.530
0.529
0.529
0.529
0.529
0.529
0.529
0.529
0.528
0.528
0.528
0.528
0.528
0.527
0.527
0.527
0.526
0.526
0.526
0.526
0.525
0.525
0.525
0.524
0.5
0.5
1.000
0.817
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
0.697
0.696
0.694
0.692
0.691
0.690
0.689
0.688
0.688
0.686
0.686
0.685
0.685
0.684
0.684
0.684
0.683
0.683
0.683
0.683
0.682
0.682
0.682
0.682
0.681
0.681
0.681
0.681
0.681
0.680
0.680
0.680
0.680
0.679
0.679
0.678
0.678
0.677
0.677
0.677
0.676
0.676
0.675
0.675
0.675
0.6
0.4
1.376
1.061
0.979
0.941
0.920
0.910
0.896
0.889
0.883
0.879
0.876
0.873
0.870
0.868
0.866
0.865
0.863
0.862
0.861
0.859
0.858
0.858
0.857
0.856
0.856
0.855
0.855
0.854
0.854
0.853
0.853
0.853
0.852
0.852
0.852
0.851
0.851
0.851
0.851
0.850
0.850
0.850
0.849
0.849
0.848
0.847
0.846
0.846
0.845
0.845
0.844
0.843
0.843
0.842
0.842
0.7
0.3
1.963
1.386
1.250
1.190
1.156
1.134
1.119
1.108
1.100
1.093
1.088
1.083
1.079
1.076
1.074
1.071
1.069
1.067
1.066
1.063
1.061
1.060
1.059
1.058
1.058
1.057
1.056
1.055
1.055
1.054
1.054
1.053
1.052
1.052
1.052
1.051
1.051
1.050
1.050
1.049
1.049
1.048
1.048
1.047
1.045
1.044
1.043
1.042
1.042
1.041
1.040
1.039
1.038
1.038
1.036
0.8
0.2
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.309
1.309
1.308
1.307
1.306
1.306
1.305
1.304
1.304
1.303
1.302
1.301
1.300
1.299
1.299
1.296
1.294
1.292
1.291
1.290
1.289
1.287
1.286
1.284
1.283
1.282
0.9
0.1
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
1.695
1.694
1.692
1.691
1.690
1.688
1.687
1.686
1.685
1.684
1.682
1.680
1.679
1.677
1.676
1.671
1.667
1.664
1.662
1.660
1.658
1.655
1.652
1.650
1.648
1.645
36
0.95
0.05
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.040
2.037
2.035
2.032
2.030
2.028
2.026
2.024
2.023
2.021
2.018
2.015
2.013
2.011
2.009
2.000
1.994
1.990
1.987
1.984
1.980
1.976
1.972
1.968
1.965
1.960
0.98
0.02
31.820
6.965
4.541
3.747
3.365
3.143
2.998
2.897
2.821
2.764
2.718
2.681
2.650
2.625
2.602
2.584
2.567
2.552
2.528
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
2.453
2.449
2.445
2.441
2.438
2.434
2.431
2.429
2.426
2.423
2.418
2.414
2.410
2.407
2.403
2.390
2.381
2.374
2.369
2.364
2.358
2.351
2.345
2.339
2.334
2.326
0.99
0.01
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
2.744
2.738
2.733
2.728
2.724
2.719
2.715
2.712
2.708
2.704
2.698
2.692
2.687
2.682
2.678
2.660
2.648
2.639
2.632
2.626
2.617
2.609
2.601
2.592
2.586
2.576
0.995
0.005
127.321
14.089
7.453
5.598
4.773
4.317
4.029
3.833
3.690
3.581
3.497
3.428
3.372
3.326
3.286
3.252
3.222
3.197
3.153
3.135
3.119
3.104
3.090
3.078
3.067
3.057
3.047
3.038
3.030
3.022
3.015
3.008
3.002
2.996
2.991
2.985
2.980
2.976
2.971
2.963
2.956
2.949
2.943
2.937
2.915
2.899
2.887
2.878
2.871
2.860
2.849
2.839
2.828
2.820
2.807
0.998
0.002
318.309
22.327
10.215
7.173
5.893
5.208
4.785
4.501
4.297
4.144
4.025
3.930
3.852
3.787
3.733
3.686
3.646
3.610
3.552
3.527
3.505
3.485
3.467
3.450
3.435
3.421
3.408
3.396
3.385
3.375
3.365
3.356
3.348
3.340
3.333
3.326
3.319
3.313
3.307
3.296
3.286
3.277
3.269
3.261
3.232
3.211
3.195
3.183
3.174
3.160
3.145
3.131
3.118
3.107
3.090
0.999
0.001
636.619
31.599
12.924
8.610
6.869
5.959
5.408
5.041
4.781
4.587
4.437
4.318
4.221
4.140
4.073
4.015
3.965
3.922
3.850
3.819
3.792
3.768
3.745
3.725
3.707
3.690
3.674
3.659
3.646
3.633
3.622
3.611
3.601
3.591
3.582
3.574
3.566
3.558
3.551
3.538
3.526
3.515
3.505
3.496
3.460
3.435
3.416
3.402
3.391
3.373
3.357
3.340
3.323
3.310
3.291
37
α
GL
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
.98
0.001
0.04
0.185
0.429
0.752
1.134
1.564
2.032
2.532
3.059
3.609
4.178
4.765
5.368
5.985
6.614
7.255
7.906
8.567
9.237
9.915
10.6
11.293
11.992
12.697
13.409
14.125
14.847
15.574
16.306
.99
0
0.02
0.115
0.297
0.554
0.872
1.239
1.646
2.088
2.558
3.053
3.571
4.107
4.66
5.229
5.812
6.408
7.015
7.633
8.26
8.897
9.542
10.196
10.856
11.524
12.198
12.879
13.565
14.256
14.953
0.001
0.051
0.216
0.484
0.831
1.237
1.69
2.18
2.7
3.247
3.816
4.404
5.009
5.629
6.262
6.908
7.564
8.231
8.907
9.591
10.283
10.982
11.689
12.401
13.12
13.844
14.573
15.308
16.047
16.791
.975
0.004
0.103
0.352
0.711
1.145
1.635
2.167
2.733
3.325
3.94
4.575
5.226
5.892
6.571
7.261
7.962
8.672
9.39
10.117
10.851
11.591
12.338
13.091
13.848
14.611
15.379
16.151
16.928
17.708
18.493
.95
0.016
0.211
0.584
1.064
1.61
2.204
2.833
3.49
4.168
4.865
5.578
6.304
7.042
7.79
8.547
9.312
10.085
10.865
11.651
12.443
13.24
14.041
14.848
15.659
16.473
17.292
18.114
18.939
19.768
20.599
.9
0.064
0.446
1.005
1.649
2.343
3.07
3.822
4.594
5.38
6.179
6.989
7.807
8.634
9.467
10.307
11.152
12.002
12.857
13.716
14.578
15.445
16.314
17.187
18.062
18.94
19.82
20.703
21.588
22.475
23.364
.8
0.148
0.713
1.424
2.195
3
3.828
4.671
5.527
6.393
7.267
8.148
9.034
9.926
10.821
11.721
12.624
13.531
14.44
15.352
16.266
17.182
18.101
19.021
19.943
20.867
21.792
22.719
23.647
24.577
25.508
.7
0.455
1.386
2.366
3.357
4.351
5.348
6.346
7.344
8.343
9.342
10.341
11.34
12.34
13.339
14.339
15.338
16.338
17.338
18.338
19.337
20.337
21.337
22.337
23.337
24.337
25.336
26.336
27.336
28.336
29.336
.5
1.074
2.408
3.665
4.878
6.064
7.231
8.383
9.524
10.656
11.781
12.899
14.011
15.119
16.222
17.322
18.418
19.511
20.601
21.689
22.775
23.858
24.939
26.018
27.096
28.172
29.246
30.319
31.391
32.461
33.53
.3
1.642
3.219
4.642
5.989
7.289
8.558
9.803
11.03
12.242
13.442
14.631
15.812
16.985
18.151
19.311
20.465
21.615
22.76
23.9
25.038
26.171
27.301
28.429
29.553
30.675
31.795
32.912
34.027
35.139
36.25
.2
3.841
5.991
7.815
9.488
11.07
12.592
14.067
15.507
16.919
18.307
19.675
21.026
22.362
23.685
24.996
26.296
27.587
28.869
30.144
31.41
32.671
33.924
35.172
36.415
37.652
38.885
40.113
41.337
42.557
43.773
.05
4.218
6.438
8.311
10.026
11.644
13.198
14.703
16.171
17.608
19.021
20.412
21.785
23.142
24.485
25.816
27.136
28.445
29.745
31.037
32.321
33.597
34.867
36.131
37.389
38.642
39.889
41.132
42.37
43.604
44.834
.04
5.024
7.378
9.348
11.143
12.833
14.449
16.013
17.535
19.023
20.483
21.92
23.337
24.736
26.119
27.488
28.845
30.191
31.526
32.852
34.17
35.479
36.781
38.076
39.364
40.646
41.923
43.195
44.461
45.722
46.979
.025
5.412
7.824
9.837
11.668
13.388
15.033
16.622
18.168
19.679
21.161
22.618
24.054
25.472
26.873
28.259
29.633
30.995
32.346
33.687
35.02
36.343
37.659
38.968
40.27
41.566
42.856
44.14
45.419
46.693
47.962
.02
6.635
9.21
11.345
13.277
15.086
16.812
18.475
20.09
21.666
23.209
24.725
26.217
27.688
29.141
30.578
32
33.409
34.805
36.191
37.566
38.932
40.289
41.638
42.98
44.314
45.642
46.963
48.278
49.588
50.892
.01
9.55
12.429
14.796
16.924
18.907
20.791
22.601
24.352
26.056
27.722
29.354
30.957
32.535
34.091
35.628
37.146
38.648
40.136
41.61
43.072
44.522
45.962
47.391
48.812
50.223
51.627
53.023
54.411
55.792
57.167
.002
Tabela 3: Distribuição χ2 . A tabela fornece o valor de x para α de maneira que P(χ2 ≥ x) = α. GL denota graus de liberdade.
10.828
13.816
16.266
18.467
20.515
22.458
24.322
26.124
27.877
29.588
31.264
32.909
34.528
36.123
37.697
39.252
40.79
42.312
43.82
45.315
46.797
48.268
49.728
51.179
52.62
54.052
55.476
56.892
58.301
59.703
.001

Documentos relacionados