Lista de exercicios

Transcrição

Lista de exercicios

USP-FFCLRP
DCM
Prof. Rafael A. Rosales
Introdução a Inferência Estatı́stica
Informática Biomedica
21 de março de 2012
Sumário
1 Convergência de variáveis aleatórias
1.1 Leis dos Grandes Números . . . . . . . .
1.1.1 Lei Fraca dos Grandes Números
1.1.2 Lei Forte dos Grandes Números .
1.2 Teorema Central do Limite . . . . . . .
1.2.1 Teoremas de De Moivre-Laplace
1.2.2 O Teorema Central do Limite . .
1.3 Exercı́cios . . . . . . . . . . . . . . . . .
1.4 Projeto 1: histogramas . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
2
3
4
5
5
6
6
7
2 Estimação pontual
2.1 Medidas resumo . . . . . . . .
2.2 Estimadores . . . . . . . . . . .
2.3 Máxima verossimilhança . . . .
2.4 Distribuições amostrais . . . . .
2.5 Projetos 2 e 3: estimadores . .
2.5.1 Um estimador para π .
2.5.2 O paradoxo de Bertrand
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8
8
9
10
10
10
10
12
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
desconhecida
. . . . . . . .
. . . . . . . .
. . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
12
14
15
15
15
16
17
18
18
20
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Intervalos e testes de hipótese
3.1 Intervalos de Confiança . . . . . . . . . . . . . . . .
3.2 Intervalo para µ1 − µ2 . . . . . . . . . . . . . . . . .
3.3 Intervalo para p1 − p2 . . . . . . . . . . . . . . . . .
3.4 Testes de Hipóteses . . . . . . . . . . . . . . . . . . .
3.4.1 Testes para µ e p . . . . . . . . . . . . . . . .
3.4.2 Testes t-Student: teste e intervalo para µ com
3.4.3 Teste χ2 : Testes e intervalos para a Variância
3.4.4 Teste F (Fisher-Snedecor): σ12 /σ22 . . . . . . .
3.5 Projeto 4: Bioinformática . . . . . . . . . . . . . . .
. .
. .
. .
. .
. .
σ2
. .
. .
. .
4 Análise de variância e regressão linear
5 Apêndice
5.1 Distribuições amostrais . . . . . .
5.1.1 Distribuições Gamma e χ2
5.1.2 Distribuição t (t-Student)
5.1.3 Distribuição F . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
21
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6 Tabelas
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
26
26
26
29
31
35
Convergência de variáveis aleatórias
As notas nesta primeira seção apresentam algumas noções básicas sobre a covergência de variáveis
aleatórias. O propósito é fornecer a linguagem necessária para abordar corretamente dois resultados
1
clásicos: a Lei dos Grandes Números e o Teorema Central do Limite1 . Estes resultados constituem
a base do curso a ser apresentado durante o semestre.
Definição 1. Sejam (Xn ), n ≥ 1, e X, variáveis aleatórias definidas no mesmo espaço de probabilidade (Ω, B, P), e sejam FXn e FX as suas funções de distribuição.
q.c.
(i) Xn converge quase certamente a X, denotado por Xn −→ X, se
P {ω ∈ Ω : Xn (ω) → X(ω) quando n → ∞} = 1.
r
(ii) Seja r um intero positivo. Xn converge a X no r-ésimo momento, denotado Xn −→ X, se
E[Xnr ] < ∞ e
E |Xn − X|r → 0, quando n → ∞.
P
(iii) Xn converge a X em probabilidade, denotado Xn −→ X, se para todo ε > 0,
P {ω ∈ Ω : |Xn (ω) − X(ω)| > ε → 0, quando n → ∞.
D
(iv) Xn converge em distribuição, denotado Xn −→ X, se
Fn (x) → F (x)
quando n → ∞, para todo x ∈ R onde F (x) é continua.
Observamos que o último tipo de convergência corresponde a convergência das funções de distribuição Fn (x) = P (Xn ≤ x) a função de distribuição F (x) = P (X ≤ x), e não diretamenta da
sequência de variáveis aleatórias Xn a variável aleatória X, portanto para este tipo de converg ência,
Ω e B são irrelevantes.
Teorema 1. Sejam Xn , n ≥ 1 e X variáveis aleatórias definidas em (Ω, B, P). Para todo inteiro
positivo r, temos que
q.c.
Xn −→ X V V
V VV &.
r
Xn −→ X
P
08 Xn −→ X
hhhhh
+3
D
Xn −→ X
Se r > s ≥ 1, então
s
+3 X −→
X.
n
r
Xn −→ X
Não existem outras implicações em geral.
A prova deste Teorema pode ser encontrada em [GS01], na seção 7.2.
1.1
Leis dos Grandes Números
Pn
Seja Xn , n ∈ N uma sequência de variáveis aleatórias, e seja Sn = i=0 Xi a sua soma parcial.
Em esta seção estudaremos o comportamento de Sn no limite quando n → ∞. Em geral, é possı́vel
formular o problema da seguinte maneira. Se an e bn são duas sequências de númeors reais, quais
são as condições que garantem o limite
Sn /bn − an −→ S
quando
n → ∞,
(1)
onde “−→” denota uma das formas de convergência definidas na definição 1. Esta seção descreve
dois resultados fundamentais conhecidos como a Lei Fraca e a Lei Forte dos Grandes Números. No
primeiro caso a convergência é em probabilidade, e no segundo a convergência é quase certa.
1 as
vezes também conhecido como Teorema do Limite Central, veja o prefácio em [Jam02].
2
1.1.1
Lei Fraca dos Grandes Números
Lema 1 (Desigualdade de Chebyshev2 ). Se X é uma variável aleatória integrável, então para
qualquer constante k > 0
Var(X)
P |X − E[X]| ≥ k ≤
k2
Demonstração. Seja ξ = k1{X≥k} , assim 0 ≤ ξ ≤ X, portanto E[ξ] ≤ E[X]∗ . Por outro lado, temos
que E[ξ] = 0 · P(ξ = 0) + k · P(ξ = k) = k · P(X ≥ k), o qual permite chegar a desigualdade
P(X ≥ k) ≤ E[X]/k.
2
(2)
2
Observamos agora que P(|X − E[X]| ≥ k) = P((X − E[X]) ≥ k ), logo de (2) concluimos que
E[(X − E[X])2 ]
Var(X)
=
.
P (X − E[X])2 ≥ k 2 ≤
k2
k2
A desigualdade em (2) é conhecida como a desigualdade básica ou desigualdade generalizada de
Chebyshev, já a desigualdade do Lema é conhecida como a desigualdade clássica de Chebyshev ou
de Bienaymé-Chebyshev.
Teorema 2 (Lei Fraca dos Grandes Números. Chebyshev, 1867). Seja X1 , X2 , . . . uma
sequência de variáveis aleatórias independentes, e seja Sn a sua soma parcial até n. Se para todo
n, Var(Xn ) ≤ K onde K é uma constante finita, então
Sn − E[Sn ] P
−→ 0.
n
Demonstração. Devemos mostrar que para qualquer ε >
Pn0, P(|Sn − E[Sn ]|/n ≥ ε) → 0 quando
n → ∞. Pelas hipóteses do enunciado temos Var(Sn ) = i=1 Var(Xi ) ≤ nK, logo da desigualdade
(clássica) de Chebyshev
Var(Sn )
K
≤ 2 → 0.
P |Sn − E[Sn ]| ≥ εn ≤
ε2 n2
ε n
Exemplo 1 (Ensaios Bernoulli). Apresentamos um exemplo simples porem importante para
desenvolver a nossa intuição. O seguinte exemplo é de fato a primeira Lei dos Grandes Números
publicada em 1713, após de 8 anos da morte de J. Bernoulli, [Ber13]. Suponhamos que lançamos
uma moeda n vezes, e neste caso consideramos a sequencia de variáveis aleatórias ξ1 , . . ., ξn , tais
que para 1 ≤ i ≤ n, ξi (ω) = 1Cara (ωi ), ou seja, ξi = 1 se o i-ésimo
Pn lançamento resulta em cara, e
ξi = 0 no caso contrário (se o resultado é coroa). Assim Sn = i=1 ξi , o número de caras em n
lançamentos, é uma variável aleatória Binomial(n, p), onde p = P(ξi = 1) é a probabilidade de sair
cara em qualquer lançamento† . Temos portanto que E[Sn ] = np, logo E[Sn /n] = p = E[ξi ]. A ley
dos grandes números neste caso afirma que
Sn P
−→ p.
(3)
n
Este resultado é conhecido como a Ley dos Grandes Números para ensaios Bernoulli.
Para visualizar (3) diretamente, a figura 1 apresenta um dos possiveis resultados ao lançar 150
vezes uma moeda viciada com p = 0, 2. Os valores en cada lançamento sao apresentados por circulos,
e Sn /n pela linha continua. Os valores de Sn /n são apresentados para três outras possı́veis realizações
do experimento. Claramente, a figura mostra que Sn /n se aproxima do valor de p a medida que n
aumenta.
É possı́vel obter uma Lei Fraca sem assumir que as variâncias das variáveis Xn sejam finitas.
Esta hipótese é crucial para a Lei Fraca de Chebyshev apresentada no Teorema 2.
2 Qebyxev, matemático Ruso cujo nome tem sido traduzido também como Chebychev, Chebyshov, Tchebychef ou
Tschebyschef!
∗ demonstre esta ultima desigualdade para qualquer duas variáveis aleatórias ξ, η.
† lembre o visto em aula no curso “Introdução a Teoria de Probabilidade”.
3
1.0
0.6
0.8
Sn (ω2 )
n
0.2
0.4
Sn (ω1 )
n
0.0
E[ξ1 ]
0
50
n
100
150
Figura 1: varias simulações de 150 lançamentos de uma moeda viciada com P({cara}) = p = 0, 2.
A sequência de caras e coroas para a primeira simulação, ω 1 , corresponde aos circulos em 0 (coroa)
e em 1 (cara). A linha continua representa os valores de Sn (ω 1 )/n, e as otras linhas correspondem
aos valores para três outras realizações do processo, ω 2 , ω 3 , ω 4 .
Teorema 3 (Lei Fraca dos Grandes Numeros. Khintchin, 1929). Sejam X1 , X2 , . . . variáveis
aleatórias independentes e identicamente distribuı́das com média finita µ. Se Sn denota a soma
parcial de Xn , então
Sn P
−→ µ.
n
Demonstração. Veja [Rao73].
1.1.2
Lei Forte dos Grandes Números
Teorema 4 (Primeira Lei Forte dos Grande Números de
Kolmogorov). Sejam X1 , X2 ,
P∞
. . ., variáveis aleatórias independentes tais que E[Xn ] < ∞, e n=1 Var(Xn )/n2 < ∞. Então a
sequência Xn satisfaze a Lei Forte dos Grande Números, ou seja,
Sn q.c. E[Sn ]
−→
.
n
n
Demonstração. Veja [Jam02], Teorema 5.4, p. 208.
Se as variáveis aleatórias da sequência Xn , além de serem independentes também são identicamente distribuı́das, então obtemos a seguinte verção da Lei Forte, a qual ao igual do que a Lei de
Kinchin, não requer restrições sobre as variâncias.
Teorema 5 (A lei Forte de Kolmogorov). Sejam X1 , X2 , . . . variáveis aleatórias independentes
e identicamente distribuı́das com E[Xn ] = µ. Então
Sn q.c.
−→ µ.
n
Demonstração. Veja [Jam02], Teorema 5.5, p. 212.
4
1.2
Teorema Central do Limite
Passamos agora a estudar a convergência da distribuição de Sn , quando Sn é corretamente rescalada.
Em geral veremos como sob certas hipoteses é possı́vel estabelecer que
Sn − E[Sn ]
≤ x = Φ(x), x ∈ R,
lim P p
n→∞
Var(Sn )
onde
Z
x
2
1
φ(x) = √ e−x /2 .
2π
−∞
isto é, φ denota a densidade de probabilidade normal (com média 0 e variância 1).
Φ(x) =
1.2.1
φ(x),
(4)
Teoremas de De Moivre-Laplace
Consideramos P
novamente a sequência ξ1 , ξ2 , . . . de variáveis aleatórias Bernoulli(p) e a sua soma
n
parcial, Sn = i=1 ξi (veja o Exemplo 1). Em lugar de estudar o comportamento limite de Sn /n,
agora voltamos o interesse na distribuição
limite de Sn (ou uma função de Sn ). Denotamos por
pk = P(Sn = k), ou seja pk = nk pk q n−k , quando k ∈ {0, 1, . . . , n}, e suponhamos que p > q.
Estudamos primeiramente o comportamento das probabilidades pk , em
√ função de k para n grande.
Veremos que existe um dominio para os valores de k, de tamanho n, onde pk é relativamente
grande, e um dominio onde os valores de pk são pequenos. Para definirmos este dominio, encontramos
primeiro o valor km , tal que pkm = maxk pk . Observamos que,
n
k+1 n−k−1
pk+1
n!k!(n − k)!
p
(n − k) p
q
k+1 p
=
=
.
= n
k q n−k
pk
p
(k
+
1)!(n
−
k
−
1)!n!
q
(k + 1) q
k
Encontramos agora os valores para k tais que pk+1 /pk ≥ 1. Assim,
n−kp
≥1
k+1 q
⇒
(n − k)p ≥ q(k + 1)
⇒
np − q ≥ k.
Também, se k > np − q, temos pk+1 /pk < 1. Assim km = [np − q]† . Resulta portanto natural
esperar que os maiores valores para pk ocorrem ao rededor de km = np. O seguinte resultado reforça
este argumento. Sejam a, b dois numeros quaisquer tais que a < b.
√
Teorema
√ 6 (Teorema do Limite Local de De Moivre-Laplace). Seja np + a n ≤ k ≤
np + b n, então
(k−np)2
1
pk = √
e− 2npq 1 + rn (k) ,
2πnpq
onde o ressiduo rn (k) converge a 0 quando n → ∞ uniformemente em k, isto é,
√ max
√ |rn (k)|
np+a n≤k≤np+b n
→ 0,
quando
n → ∞.
Teorema 7 (Teorema Integral do Limite de De Moivre-Laplace). Sejam a, b dois números
reais tais que a < b. Então,
Z b
X
2
1
lim
pk = √
e−u /2 du.
n→∞
√
2π a
np+a npq≤k
√
k≤np+b npq
Corolário 1. Do Teorema 7 para quaisqer a, b ∈ R tais que a < b, tem-se
Sn − np
P a≤ √
≤ b → Φ(b) − Φ(a),
quando n → ∞.
npq
√
D
Assim, em particular (Sn − np)/ npq −→ Z, onde Z é uma variável aleatória normal padrão.
† [x]
denota a função maior enteiro menor que x.
5
1.2.2
O Teorema Central do Limite
Apresentamos agora uma verção geral para a somas de variáveis aleatórias independentes, a qual é
possı́velmente a forma mais conhecida do Teorema Central do Limite.
Teorema 8 (Teorema Central do Limite de Lindenberg-Lévy). Sejam X1 , X2 , . . . variáveis
aleatórias independentes
e identicamente distribuı́das, tais que E[X1 ] = µ, e Var(X1 ) = σ 2 < ∞.
Pn
Seja Sn = i=1 Xi , e Z uma variável aleatória normal com média 0 e variância 1, então
Zn =
Sn − nµ D
√
−→ Z.
σ n
A prova deste Teorema pode ser encontrada em [GS01], p. 194 ou em [Jam02], p. 240.
O seguinte resultado mostra que o Teorema Central do Limite é válido ainda quando as variáveis
aleatórias X1 , X2 , . . ., não apresentam a mesma distribuição.
Teorema 9 (Theorema Central do Limite. Kolmogorov, 1933). Seja X1 , X2 , . . . uma
sequência de variáveis aleatórias independentes,
e seja P
Sn a sua soma parcial. Para cada i sejam
Pn
n
µi = E[Xi ], e σi2 = Var(Xi ), logo mn = i=1 µi e s2n = i=1 σi2 denotam a média e a variância de
Sn , e seja X uma variável aleatória normal com média 0 e variância 1. Sob as seguentes hipóteses
adicionais
(i) s2n → ∞ quando n → ∞,
(ii) existe uma constante K, tal que para todo i, P(|Xi | ≤ K) = 1,
tem-se
Sn − mn D
−→ X.
sn
1.3
Exercı́cios
D
Exercı́cio 1. Suponha que Xn , n ≥ 1 é normal com média 0 e variância 1/n. Mostre que Xn −→
X = 0.
Exercı́cio 2. Seja Xn , n ≥ 1, uma seqüência de variáveis aleatórias tal que Xn é Binomial(n, 1/n2 ).
P
Mostre que Xn − 1/n −→ 0.
Exercı́cio 3. Seja Xn , n ≥ 1, uma seqüência de variáveis aleatórias com E[Xn2 ] < ∞. Mostre que
P
se limn→∞ E[Xn ] = α e limn→∞ Var(Xn ) = 0, então Xn −→ α.
Exercı́cio 4. Este problema apresenta um exemplo de uma sequência de variáveis aleatórias que
satisfaze a Lei Fraca dos Genades Números, embora não satisfaze a Lei Forte. Para n ≥ 1, seja
(
±n2n com probabilidade pn ,
Xn =
0
com probabilidade 1 − 2pn ,
sendo pn uma função a ser escolhida adiante, tal que 0 ≤ pn ≤ 1/2, para n ≥ 1. Se Sn =
X1 + X2 + . . . + Xn , mostre: (i) E[Sn ] = 0 para todo n, (ii) se Xn > 0, então Sn ≥ 2n . (iii) Utilize
a parte (ii) para mostrar que Sn /n → 0 quando n → ∞ se, e somente se existe um inteiro n0 tal
que Xk = 0 para todo k ≥ n0 . Mostre que isto ocorre com probabilidade 0 se pn < 1/2 para todo
n. Isto mostra que a sequência (Xn ) não satisfaze a Lei Forte dos Grandes Números. (iv)
Exercı́cio 5. Seja X1 , X2 , . . . variáveis aleatórias independentes
tais que Xk é Binomial(n
k , p), para
√
Pn
0 < p < 1 constante. (i) Qual a distribuição de Sn = i=1 Xi ? (ii) Se nk ≤ k, mostre que a
sequência Xn satisfaz a Lei Forte.
Exercı́cio 6. Certa marca de sucrilhos faz uma promoção: alguns dos pacotes incluem vales que
podem ser trocados por uma camiseta. O número de pacotes premiados que vendem ao dia em uma
loja é uma variável aleatória com distribuição de Poisson de parâmetro 0,3. Estime a probabilidade
de que em 120 dias se vendam nessa loja mais de 30 pacotes com prêmio. [Sugestão: considere Xi
= ‘número de pacotes premiados vendidos na loja no dia i’. ]
6
Exercı́cio 7. Um dado honesto é lançado repetidas vezes de maneira independente. Seja Xi o
resultado do i-ésimo lançamento e Sn = X1 + X2 · · · Xn , obtenha : (i) limn→∞ P (Sn > 3n); (ii) um
valor aproximado para P (S100 > 320).
Exercı́cio 8. Uma moeda honesta é lançada repetidas vezes de maneira independente. Sejam ξ1 ,
ξ2 , . . . variáveis aleatórias definidas por
(
1 se o i-ésimo e o (i + 1)-ésimo lançamentos são cara
ξi =
0 caso contrário.
(i) Determine E[ξi ], Var(ξi ). (ii) Mostre que
(
1/16
Cov(ξi , ξj ) =
0
se j = i + 1,
se j > i + 1.
P
(iii) Seja Sn a soma parcial de ξi , determine E[Sn ], Var(Sn ). (iv) Mostre que Sn /n −→ 1/4.
1.4
Projeto 1: histogramas
Este projeto tem varios objetivos: apresentar a noção de função de distribuição empirica de uma
amostra, introducir os histogramas e ilustrar o Teorema Central do Limite graficamente utilizando
um histograma. Isto ultimo devera ser realizado ao simular, em R, repetidos lançamentos de uma
moeda (o site do curso já apresenta um código em R para isto, veja abaixo).
Suponhamos que X1 , X2 , . . . , Xn são variáveis aleatórias independentes e identicamente distribuı́das, com função de distribuição F , e densidade f . A função de distribuição empirica da
amostra X1 , X2 , . . . , Xn é definida como
n
1X
1 FbX1 ,...,Xn (x) =
1{Xi ≤x} = # i ∈ {1, 2, . . . , n} : Xi ≤ x
n i=1
n
=
1 # número de elementos na amostra ≤ x .
n
(i) Explique por que
q.c.
FbX1 ,...,Xn (x) −→ F (x).
(5)
Seja a = a1 < a2 < . . . < am = b uma sequência de números (equidistantes), e então Ak = (ak−1 , ak ]
para k = 2, . . . , m. Logo para x ∈ Ak definimos
n
1X
b
hX1 ,...,Xn (x) =
1{a <X ≤a }
n i=1 k−1 i k
=
1 # número de elementos na amostra ∈ (ak−1 , ak ] .
n
A função b
h é conhecida como histograma. (ii) Mostre que se x ∈ Ak , então
Z ak
q.c.
b
hX1 ,...,Xn (x) −→
f (u) du.
(6)
ak−1
R
[Sugestão: utilice (5)] Isto ultimo justifica a utilização dos histogramas como estimadores para as
densidades. (iii) Carregue o código moedaCLT.R (escrito em R)digitando3
3 alternativamente pode baixar este arquivo no seu micro para carrega-lho posteriormente como
source("C://lugar_do_download_no_seu_micro//moedaCLT.R")
assumendo que você trabalha em Windows. Caso você esteja trabalhando em Linux (ou numa Mac) troque o delimitador de pastas “//” por “/”.
7
source("http://dcm.ffclrp.usp.br/~rrosales/aulas/moedaCLT.R")
Este fornece a função moedaCLT(), a qual é uma função de três argumentos N, M e p utilizada para
gerar m amostras (independentes) de n variáveis aleatórias Bernoulli(p) independentes. Pode pensar
que esta função simula o lançamento de uma moeda n vezes e repite isto m vezes. N corresponde a
n, M corresponde a m e p a p, a probabilidade de sair cara em qualquer lançamento. moedaCLT()
retorna o vetor
1 2
Snm
Sn Sn
,
,...,
,
n n
n
onde Sni /n, i = 1, . . . , m, corresponde a proporção de caras após de jogar a moeda n vezes no i-ésimo
experimento. Por exemplo,
v1 <- moedaCLT(N=10000, M=30000, p=0.5);
simula o lançamento de uma moeda (honesta) 10000 vezes, repete isto 30000 vezes calculando de
cada vez a fração relativa de caras, e finalmente guarda estes valores no vetor v1. Digite
hist(v1,breaks=60, main="", ylab="frequencia",xlab="Zn")
A função hist() calcula o histograma de v1, isto é b
hSn1 /n,...,Snm /n , e apresenta o grafico desta função
(breaks determina o numero de intervalos (ai−1 , ai ] nos quais sera avaliado o histograma). Utilice
várias vezes moedaCLT() tentando valores diferentes para M e N de cada vez. Consegue enxergar
o Teorema Central do Limite? Qual dos argumentos N ou M controla a convergência no Teorema
Central do Limite? qual controla a convergência do histograma em (6)?
2
2.1
Estimação pontual
Medidas resumo
Exercı́cio 9. Na linha de produção de uma grande montadora de veı́culos, existem 7 verificações
do controle de qualidade. Sorteamos alguns dias do mês e anotamos o número de OKs recibidos
pelos veı́culos produzidos nesses dias, i.e., em quantos dos controles mencionados o automóvil foi
aprovado. Os resultados foram ((x, y), x =número de aprovações, y =freqüência): (4, 126), (5, 359),
(6, 1685), (7, 4764). (i) Determine a média, moda e mediana do número de aprovações por automóvel
produzido. (ii) Calcule a variância da amostra. (ii) Crie uma nova variável “reprovações”, indicando
o número de verificações não OKs no vehı́culo. Determine média, moda, mediana e variância dessa
variável. Em geral, se uma amostra qualquer esta constituı́da pelas observações z = (z1 , z2 , . . ., zn ),
então
z̄ =
n
X
zi /n
média amostral
i=1
seja z̃1 ≤ z̃2 ≤ · · · ≤ z̃n a amostra ordenada em forma crescente, então
(
z̃(n+1)/2
md = 1
2 (z̃n/2 + z̃n/(2+1) )
se n impar,
se n par
mo = valor mais frequente
n
X
var(z) =
(zi − z̄)2 /n
mediana amostral
moda amostral
variância amostral
i=1
(iv) Cada reprovação implica em custos adicionais para a montadora, tendo em vista a necessidade
de corrigir o defito apontado. Admitindo um valor básico de R$ 200,00 por cada item reprovado
num vehı́culo, calcule a média e a variância da espesa adicional por automóvel produzido
8
2.2
Estimadores
Exercı́cio 10. Foram sorteadas 15 famı́lias com filhos num certo bairro e observado o número de
crianças de cada famı́lia, matriculadas na escola. Os dados foram 1, 1, 2, 0, 2, 0, 2, 3, 4, 1, 1, 2, 0,
0, e 2. Obtenha as estimativas correspondentes aos seguintes estimadores da média de crianças na
escola nesse bairro,
µ
b1 =
mı́nimo + máximo
,
2
µ
b2 =
(X1 + X2 )
,
2
µ
b3 = X̄.
Qual deles é o melhor estimador da média e por quê?
Exercı́cio 11. Seja X1 , X2 , X3 uma amostra aleatória de uma população exponencial com média
θ, isto é, E[Xi ] = θ, i = 1, 2, 3. Cosidere os estimadores
θb1 = X̄,
θb2 = X1 ,
X1 + X2
θb3 =
.
2
(i) Mostrar que nenhum dos três estimadores é viesado. (ii) Qual dos estimadores tem menor
variância? Lembrar que para o modelo exponencial Var(Xi ) = θ2 .
Exercı́cio 12. (Este exercı́cio tem implicações muito importantes para a estatı́stica) Sejam X1 , X2 ,
. . ., Xn variáveis aleatórias independentes e identicamente distribuı́das com média µ e variância σ 2 .
Sejam
n
n
1X
1 X
X̄n =
Xi , e Sn2 =
(Xi − X̄n )2 .
n i=1
n − 1 i=1
q.c.
(i) Determine E[X̄n ] e Var(X̄n ). (ii) Mostre que X̄n −→ µ. (iii) Mostre que
Sn2 =
1
n−1
X
n
Xi2 − n(X̄n )2 .
i=1
q.c.
(iv) Calcule E[Sn2 ]. (v) Mostre que Sn2 −→ σ 2 . [Sugestão: utilice duas vezes a Lei Forte.]
Exercı́cio 13. Seja X1 , X2 , . . ., Xn uma amostra de uma população com distribuição
fX (x) =
2x
,
θ2
0 < x < θ,
θ > 0.
Verifique se θb1 = X̄ e θb2 = max{X1 , X2 , . . . , Xn } são não viciados para θ. (ii) Calcule e compare
os EQM dos estimadores em (i). (iii) Faça um gráfico dos EQM em função de θ. Sugestão: para
(iii) pode utilizar R. O seguinte exemplo ilustra os passos necessários para graficar a função f (x) =
e−x + |x − 1|−1 no dominio x ∈ [−2, 10]. Escreva (ao final de cada linha faça ‘Enter’)
x <- seq(-2,10,by=0.01)
f <- exp(-x)+1/abs(x-1)
plot(x,f, type="l", col="navy", ylim=c(-1,30), lwd=2)
Para sobrepor a função g(x) = 3sen(x3 )/(3 − x) + 10 escreva
g <- 3*sin(x^3)/(3-x) + 10
lines(x, g, col="sandybrown", lwd=2)
Exercı́cio 14. Suponha que Y tem distribuição Binomial-(n, p). (i) Demostre que pb = y/n é um
estimador não viesado para p. Calcule a variância de pb.
9
2.3
Máxima verossimilhança
Exercı́cio 15. Seja X = X1 , X2 , . . . , Xn uma amostra aleatória da uma população com densidade
Gamma-(α, β), com α = 2, e β desconhecido, isto é,

 x e−x/β
se x > 0,
f (x) =
β2

0
se x 6 0.
b É βb viciado para β?
(i) Obtenha o estimador de máxima verosimilhança para β. (ii) Calcular E[β].
Exercı́cio 16. Uma urna contém bolas brancas e pretas. Uma amostra de tamanho n é retirada
com reposição. (i) Qual é o estimador de máxima verossimilhança para a proporção R de bolas
pretas na urna? (ii) Suponha que as bolas são retiradas uma a uma com reposição até aparecer a
primeira bola preta. Seja T o número de retiradas requeridas. Se este procedimento é repetido n
vezes, sejam T1 , T2 , . . ., Tn o número de tentativas de cada vez. Qual é o estimador de máxima
verossimilhança para R baseado nesta amostra?
Exercı́cio 17. Seja X1 , X2 , . . ., Xn , uma amostra de uma população com distribuição fX (x) =
θx (1 − θ)1−x 1{0,1} (x), onde 0 ≤ θ ≤ 12 . (i) Encontre o estimador θb de máxima verossimilhança para
b o erro quadrático médio de θ.
b (iii) Diga se θb é (fracamente) consistente.
θ. (ii) Calcule o EQM(θ),
2.4
Distribuições amostrais
Exercı́cio 18. Uma variável de Bernoulli com probabilidade de sucesso p é amostrada, de forma,
independente, duas vezes. Determine a função de probabilidade da média amostral.
Exercı́cio 19. A variável aleatória ξ assome os valores {−2, −1, 1, 2}, cada um com a mesma probabilidade. Para uma amostra de tamanho dois, obtenha a distribuição de S 2 e verifique se ele é
não viesado para estimar a variância de ξ.
Exercı́cio 20. Coleta-se uma amostra de 10 observações independentes de uma população normal
com média 2 e variância 2. Determine a probabilidade de a média amostral: (i) ser inferior a 1; (ii)
ser superior a 2,5; (iii) estar entre 0 e 2.
Exercı́cio 21. Um fabricante afirma que sua vacina contra gripe imuniza em 80% dos casos. Uma
amostra de 25 indivı́duos que tomaram a vacina foi sorteada e testes foram feitos para verificar
a imunização ou não desses indivı́duos. Se o fabricante estiver correto, qual é a probabilidade da
proporção de imunizados na mostra ser inferior à 0,75? E superior à 0,85?
2.5
2.5.1
Projetos 2 e 3: estimadores
Um estimador para π
Georges-Louis Leclerc (1707-1788), Conde de Buffon, mostrou que vários problemas de probabilidade
podem ser abordados utilizando argumentos de caráter geométrico. Em, particular, o problema
conhecido hoje em dia como a agulha de Buffon permite realizar um experimento para estimar o
valor de π.
Suponhamos que sobre um tabuleiro desenhamos linhas paralelas a distância t uma da outra.
Posteriormente jogamos uma agulha de comprimento l < t e observamos se esta cai ou não sobre
alguma das linhas do tabuleiro. Surge assim naturalmente a seguintre pergunta: qual é a probabilidade de que a agulha esteja sobre uma linha t? Para respondermos esta questão, podemos
parameterizar o espaço amostral (as posições das agulhas) da seguinte maneira. Seja Θ o angulo
formado pela agulha e o conjunto de linhas t, e X = (X1 , X2 ) a posição do centro da agulha sobre o
tabuleiro. Claramente, se ocorre o evento {X(ω) ≤ (l/2) sen(Θ(ω))}, então a agulha corta uma linha
10
t4 . Agora, encontrar a probabilidade deste evento não é difı́cil pois as variáveis aleatórias X e Θ são
independentes e apresentam densidades uniformes nos intervalos [0, t/2] e [0, π/2] respectivamente,
(
(
1/(t/2), se 0 ≤ x ≤ t/2
1/(π/2), se 0 ≤ θ ≤ π/2
fΘ (θ) =
fX (x) =
0,
caso contrário
0,
caso contrário
Portanto a densidade conjunta do vetor (X, Θ) é simplesmente
fX,Θ (x, θ) =
4
tπ
(x, θ) ∈ [0, t/2] × [0, π/2],
quando
e 0 no caso contrário. Logo
Z π/2 Z (l/2)sen(θ) 4
l
p = P X ≤ sen(Θ) =
dxdθ
2
tπ
0
0
Z π/2
4 l
2l
=
sen(θ)dθ = .
tπ
2
tπ
0
(7)
A formula (7) fornece indiretamente um estimador para π. De fato, se conseguimos uma estimativa para a probabilidade p, então (7) mostra como estimar 1/π. Para simplificar a notação, seja
E o evento {X ≤ (l/2) sen(Θ)}, e logo seja ξ(ω) = 1E (ω), uma variável aleatória a qual é igual
a 1 se a agulha touca a linha t e 0 no caso contrário: ξ é Bernoulli com probabilidade de sucesso
p = 2l/(tπ). Seja ξ1 , ξ2 , . . . , ξn , uma amostra desta população. No contexto da aplicação atual, esta
amostra é interpretada como o resultado de jogar a agulha sobre o tabuleiro n vezes.
Pn Seguindo o
procedimento agora ussual, utilizamos esta amostra para propor o estimador pb = i=1 ξi /n para p.
Desta maneira, de acordo com (7), podemos agora considerar o seguinte estimador para 1/π
π
b−1 =
t
pb.
2l
(8)
Exercı́cio
Pn 22. (i) Qual é a distribuição da variável aleatória
Var( i=1 ξi ). (iii) Calcule E[b
p] e Var(b
p).
Pn
i=1 ξi ?
Pn
(ii) Determine E[ i=1 ξi ] e
Exercı́cio 23. (i) Mostre separadamente, mesmo que um dos limites implique o outro, que
t
q.c. 1
pb −→ ,
2l
π
e
t
P 1
pb −→ .
2l
π
(ii) Indique quais dos Teoremas da seção 1 foram utilizados para garantir os limites em (i). Explique
por que estes limites são importantes quando é considerado o estimador π
b−1 .
Exercı́cio 24. (i) Mostre que o estimador em (8) é não viciado, (ii) logo mostre que o EQM deste
estimador é igual a
π − 2l
2lnπ
Desta última expressão podemos ver que o estimador em (8) é mais eficiente a medida que aumenta
o comprimento da augulha l.
Exercı́cio 25. (i) Mostre que o estimador para π,
π
b=
2l 1
t pb
é viciado. Ao igual do que o estimador para 1/π, o estimador proposto para π é mais eficiente
quando o comprimento da agulha aumenta. (ii) Diga se é possı́vel aplicar o Teorema Central do
Limite para caracterizar a distribuição amostral de π
b. A figura 2, no canto inferior direito, sugere
que a distribuição de π
b é normal, embora você pode mostrar isto formalmente.
11
R
Exercı́cio 26. [É necessário fazer primeiro o Projeto 1 para poder entender este exercı́cio!] Inicie
R e carregue o código em Buffon.R fazendo
source("http://dcm.ffclrp.usp.br/~rrosales/aulas/Buffon.R")
Este script fornece três funções, drawBuffon, runavrg, e estPi. drawBuffon mostra uma simulação
do experimeto que consiste em jogar a agulha repetidas vezes (veja a figura 2), runavrg grafica uma
estimativa para π conforme aumenta o número de vezes que é lançada agula (veja a figura 2), e finalmente estPi(N, l, t) fornece uma estimativa de π, onde N corresponde ao número de lançamentos,
l é o comprimento da agulha e t a separação das linhas t. Estes parâmetros são inicializados para os
valores N=100, l=1, e t=2, mas você pode mudar qualquer um a vontade. Por exemplo, os comandos
y <- c(); for (i in 1:10000) y[i] <- estPi(N=300);
geram 10000 estimativas para π guardando-as no vetor y. Cada estimativa é obtida ao simular o
lançamento da agulha 300 vezes. Utilize o código em Buffon.R para estudar as propriedades do
estimador de π para os seguintes valores de l: 0.5, 1 e 1.5. Utilize as funções var, mean e hist para
verificar as conclusões obtidas analiticamente nos exercı́cios anteriores.
2.5.2
O paradoxo de Bertrand
Qual é a probabilidade de que uma corda aleatória sobre um cı́rculo tenha comprimento maior do
que o lado do triângulo equilátero inscrito no cı́rculo? Esta questão, investigada inicialmente por
Joseph Louis Bertrand em 1889, é de caráter probabilı́stico embora o propósito aqui é verificar a
resposta utilizando estimadores apropriados. Essa resposta depende do significado do termo ‘corda
aleatória’. Apresentamos três possı́veis interpretações supondo que, sem perda de generalidade, o
cı́rculo tem centro na origem e apresenta raio de comprimento 1.
Exercı́cio 27 (ponto aleatório). Um ponto A é escolhido uniformemente no interior de um
cı́rculo de
√ raio 1, veja a figura 3(a). Seja X o comprimento da corda com ponto médio A. Calcule
P (X > 3). Sugestão. Pense primeiro na seguinte pergunta: qual é a probabilidade de que A esteja
dentro do cı́rculo inscrito no triângulo equilátero?
Exercı́cio 28 (angulo aleatório). Fixamos um ponto Q sobre a circunferência do cı́rculo com raio
1, por exemplo em (1, 0). Logo escolhemos uniformemente um outro ponto
√A sobre a circunferência,
veja a figura 3(b). Seja X o comprimento da corda QP . Calcule P (X > 3).
Exercı́cio 29 (raio aleatório). Um ponto A é escolhido uniformemente sobre o raio r (qualquer
um) do cı́rculo. Seja
√ X o comprimento da corda a qual tem A como ponto meio, veja a figura 3(c).
Determine P (Z > 3).
R
Exercı́cio 30. Utilice as funções estp rangle,estp rdist e estp rendpoint para verificar o valor
das probabilidades calculadas nos três exercı́cios anteriores. Estas funções se encontram no script
Bertrand.R, o qual pode ser carregado (desde R) como
source("http://dcm.ffclrp.usp.br/~rrosales/aulas/Bertrand.R")
Sugestão: de maneira analoga ao Exercicio 26, digite por exemplo
y <- c(); for (i in 1:5000) y[i] <- estp rangle(N=300);
e estude as propriedades de y utilizando as funções mean, var e hist.
3
Intervalos e testes de hipótese
Alguns dos exercı́cios desta e outras seções devem ser realizados utilizando R. Além de familiarizar
vocês com R, o propósito é apresentar diferentes analises com dados reais. Estes se encontram
identificados com R . Um primeiro exemplo de como carregar os dados de um arquivo (em formato
de texto) é apresentado no Exercicio 51.
4 faça
um desenho!
12
200
400
frequencia
600
800
5
4
3
2
0
0
1
estimativa de pi
0
100
200
300
400
500
2.9
iteracoes
3.0
3.1
3.2
3.3
3.4
3.5
estimativa de pi
Figura 2: As quatro primeiras figuras mostram diversas simulações do experimento da agulha de
Buffon para 30, 300, 3000 e 9000 lançamentos da agulha. As agulhas que toucam uma banda t
são mostradas em verde. Estas figuras foram geradas com drawBuffon. A figura no canto inferior
esquerdo apresenta a convergência de uma estimativa para π gerada com runavrg. O histograma
no canto inferior direto foi gerado com sucessivas chamadas a estPi (veja o texto do Exercicio 26),
sugirindo um Teorema Central do Limite para a distribuição do estimador.
13
√
3
√
3
√
3
A
A
(a)
Q
(b)
r
A
(c)
Figura 3: construção da corda aleatória (em verde) utilizando o método do ponto aleatório (a), o
método do angulo aleatório (b), e o método do raio aleatório (c).
3.1
Intervalos de Confiança
Exercı́cio 31. Por analogı́a a produtos similares, o tempo de reação de um novo medicamento pode
ser considerado como tendo distribuição normal com média µ e variaância 4. Vinte pacientes foram
sorteados, receberam o medicamento e tiveram seu tempo de reação anotado. Os dados foram os
seguintes: 2,9; 3,4; 3,5; 4,1; 4,6; 4,7; 4,5; 3,8; 5,3; 4,9; 4,8; 5,7; 5,8; 5,0; 3,4; 5,9; 6,3; 4,6; 5,5 e 6,2.
Obtenha intervalos de confiança para o tempo médio de reação para: (i) γ=96%, (ii) γ=75%.
Exercı́cio 32. Uma amostra de 25 observações de uma normal Φ(µ, 16) foi coletada e forneceu
uma média amostral de 8. Construa intervalos com confiança 80%, 85%, 90% e 95% para a média
populacional. Comente as diferenças encontradas.
Exercı́cio 33. Será coletada uma amostra de uma população normal com desvio padrão igual a
9. Para uma confiança de γ=90%, determine a amplitude do intervalo de confiança para a média
populacional nos casos em que o tamanho da amostra é 30, 50 ou 100. Comente as diferenças.
Exercı́cio 34. Numa pesquisa com 50 eleitores, o candidato J. J. obteve 0,34 da preferência dos
eleitores. Construa, para a confiança 94%, os intervalos otimista e conservador de confiança para a
proporção de votos a serem recebidos pelo candidato mencionado, supondo que a eleição fosse nesse
momento.
Exercı́cio 35. Desejamos coletar uma amostra de uma variável aleatória X com distribuição normal
de média desconhecida e variância 30. Qual deve ser o tamanho da amostra para que, com 0,92 de
probabilidade, a média amostral não difira da média da população por mais de 3 unidades?
Exercı́cio 36. Interprete e comente as afirmações: (i) A média de salário inicial para recém formados
em Economia está entre 7 e 9 salários mı́nimos com confiança 95%. (ii) Quanto maior for o tamanho
da amostra, maior é a probabilidade da média amostral estar próxima da verdadeira média.
Exercı́cio 37. O intervalo [35,21; 35,99], com confiança 95% foi construı́do a partir de uma amostra
de tamanho 100, para a média µ de uma população normal com desvio padrão igual a 2. (i) Qual
e o valor encontrado para a média dessa amostra? (ii) Se utilizássemos essa mesma amostra, mas
uma confiança de 90%, qual seria o novo intervalo de confiança?
Exercı́cio 38. Antes de uma eleição, um determinado partido está interessado em estimar a probabilidade p de eleitores favoráveis ao seu candidato. Uma amostra piloto de tamanho 100 revelou
que 60% dos eleitores eram favoráveis ao candidato. (i) Utilizando a informação da amostra piloto,
determine o tamanho da amostra para que, com 0,8 de probabilidade, o erro cometido na estimação
seja no máximo 0,05. (ii) Se na amostra final, com tamanho obtido em (i), observou-se que 51% dos
eleitores eram favoráveis ao candidato, construa um intervalo de confiança para p, com confiança
95%.
14
25
20
15
10
indice de trabalho
1995
2000
2005
perı́odo
1992
1993
1995
1996
1997
1998
1999
2001
2002
2003
2004
2005
2006
2007
branca
20.95
19.98
18.95
15.64
15.09
14.16
13.69
11.52
11.6
10.6
10.13
10.45
10.09
9.24
preta
24.99
22.82
20.07
16.43
15.49
17.6
16.92
12.73
10.76
10.43
10.66
10.81
10.89
10.84
periodo
Figura 4: Taxa de trabalho infantil por cor de 1992 até 2007. Os sı́mbolos recheados no gráfico
correspondem aos dados para criaças brancas.
3.2
Intervalo para µ1 − µ2
Exercı́cio 39. A figura 4 apresenta os dados referentes a taxa de trabalho infantil em Brasil para
criaças pretas e crianças brancas durante o perı́odo 1997-20075 . A taxa de trabalho infantil é definida
como o percentual da população residente de 10 a 15 anos de idade que se encontra trabalhando ou
procurando trabalho na semana de referência, em determinado espaço geográfico, no ano considerado.
(i) Construa um intervalo de confiança de 95% para a diferença entre as taxas de trabalho média
durante o perı́odo de 1992-2007 para criançãs brancas e pretas. (ii) Interprete o intervalo obtido em
(i), isto é, qual é o significado deste intervalo? (iii) Quais são os supostos necessários para construir
o intervalo? (iv) Você acredita que os supostos são satisfeitos neste caso?
3.3
Intervalo para p1 − p2
Exercı́cio 40. De acordo com o estudo da pesquisa de mercado dos servı́ços de consultorı́a em
engenharia a empresas industriais no Meio Oeste (USA), quarenta empresas que participaram de
uma enquete (20 grandes e 20 pequenas) indicaram que elas não precisavam dos servı́cios externos
de consultorı́a. A principal ração foi que estas sempre obtinham ajuda de consultarı́a sempre que
necessário. Entretanto, duas vezes mais empresas grandes (12) que pequenas (6) citaram este motivo.
Establecer um intervalo de confiança de 90% para a diferença nas porcentagens das empresas grandes
e as pequenas que citam a ajuda das oficinas corporativas.
3.4
Testes de Hipóteses
Observação (p-valor): R, igualmente a outros pacotes estatı́sticos, reportam o p-valor do teste,
o qual pode ser utilizado para rejeitar ou não a hipótese nula. Suponhamos que o estimador θb
b
é considerado em um teste para o parâmetro θ. Seja θ(x)
a estimativa de θb baseada nos valores
da amostra x = (x1 , x2 , . . . , xn ) (Considere
p por exemplo o estimador T acima para o parametro
b
pertence a
µ1 − µ2 , e a sua estimativa t = (x̄1 − x̄2 )/ s21 /n + s22 /n). Assim, quando o valor de θ(x)
5 Fonte: Instituto Brasileiro de Geografia e Estatı́stica (IBGE). Série: CAJ421 - Taxa de trabalho infantil, por cor
http://seriesestatisticas.ibge.gov.br/series.aspx?vcodigo=CAJ421
15
região crı́tica rejeitamos a hipótese nula. Alternativamente, de forma equivalente, podemos calcular
o p-valor do teste
b
b
p = P {ω : θ(ω)
≥ θ(x)}|H
(9)
0 ,
e rejeitar a hipótese nula quando o valor de p for pequeno, por exemplo p < α, onde α tı́picamete
determina o nivel do teste. Usualmente, o valor p é utilizado seguindo os seguintes criterios
valor p
p < 0.01
0.01 ≤ p < 0.05
0.05 ≤ p < 0.10
0.10 ≤ p
interpretação
evidência forte contra H0
evidência moderada contra H0
sugere evidência contra H0
não a evidência contra H0
b
Destacamos que o valor p de um teste realmente é uma variable aleatória p(ω) = f (θ(X(ω))),
onde
X(ω) = (X1 , . . . Xn )(ω), e f é a função em (9). (Não faremos referência a isto ultimo durante o
curso.)
3.4.1
Testes para µ e p
Exercı́cio 41. Uma variável aleatória tem distribuição normal e desvio padrão igual a 12. Estamos
testando se sua média é igual ou é diferente de 20 e coletamos uma amostra de 100 valores dessa
variável, obtendo uma média amostral de 17,4. (i) Formule as hipóteses. (ii) Obtenha a região
crı́tica e dê a conclusão do teste para os seguintes nı́veis de significância: 1%, 2%, 4%, 6% e 8%.
Exercı́cio 42. Para uma variável aleatória com densidade normal e desvio padrão 5, o teste da
média µ=10 contra µ=14, teve a região crı́tica dada por {x ∈ R : x > 12} para uma amostra de
tamanho 25. Determine as probabilidades dos erros tipo I e II.
Exercı́cio 43. Uma máquina deve produzir peças com diâmetro de 2 cm. Entretanto, variações
acontecem e vamos assumir que o diâmetro dessas peças siga o modelo Normal com variância igual
a 0,09 cm2 . Para testar se a máquina está bem regulada, uma amostra de 100 peças é coletada. (i)
Formule o problema como um teste de hipóteses. (ii) Qual seria a região crı́tica se α = 0, 02? (iii)
se a região de aceitação fosse {x ∈ R|1, 95 6 x 6 2, 05}, qual seria o nı́vel de significância do teste?
Nesse caso, determine a probabilidade do erro tipo II se µ =1,95 cm. (iv) Se para essa amostra
x̄ = 1, 94; qual a decisão em (ii)?, em (iii)?
Exercı́cio 44. A vida média de uma amostra de 100 lâmpadas de certa marca é 1615 horas.
Por similaridade com outros processos de fabricação, supomos o desvio padrão igual a 120 horas.
Utilizando α=5%, desejamos testar se a duração média de todas as lâmpadas dessa marca é igual
ou é diferente de 1600 horas. Qual é a conclusão? Determine também a probabilidade do erro tipo
II, se a média fosse 1620 horas.
Exercı́cio 45. Uma amostra com 10 observações de uma variável aleatória normal forneceu média
de 5,5 e variância de 4. Deseja-se testar, ao nı́vel de significância de 5%, se a média na população é
igual ou é menor que 6. Qual é a conclusão?
Exercı́cio 46. Um criador tem constatado uma proporção de 10% do rebanho com verminose. O
veterinário alterou a dieta dos animais e acredita que a doença diminuiu de intensidade. Um exame
em 100 cabeças do rebanho, escolhidas ao acaso, indicou 8 delas com verminose. Ao nı́vel de 8%, há
indı́cios de que a proporção diminuiu?
Exercı́cio 47. Considere o teste p = 0, 6 contra p 6= 0, 6. Sendo n = 100, indique a probabilidade
de erro tipo I para as seguintes regiões crı́ticas: (i) RC = {x ∈ R|x < 0, 56 ou x > 0, 64}, (ii)
RC = {x ∈ R|x < 0, 54 ou x > 0, 66}.
16
3.4.2
Testes t-Student: teste e intervalo para µ com σ 2 desconhecida
Exercı́cio 48. Com auxı́lio da tabela t-Student calcule (se necessário, aproxime):
(i) P (−3, 365 6 t5 6 3, 365). (ii) P (|t8 | < 1, 4). (iii) P (−1, 1 6 t14 < 2, 15). (iv) a : P (t9 > a) =
0, 02. (v) b : P (t16 6 b) = 0, 05. (vi) c : P (|t11 | 6 c) = 0, 1. (vii) d : P (|t21 | > d) = 0, 05.
Exercı́cio 49. Uma amostra de 20 observações de uma variável com distribuição normal foi colhida,
obtendo-se desvio padrão 1,1. No teste µ=5 contra µ > 5, foi estabelecida a região critica {t ∈ R|t >
2, 033}. Determine a probabilidade do erro tipo I.
Exercı́cio 50. A porcentagem anual média da receita municipal empregada em saneamento básico
em pequenos municı́pios de um estado tem sido 8% (admita que esse ı́ndice se comporte segundo um
modelo normal). O governo pretende melhorar esse ı́ndice e, para isso, ofereceu alguns incentivos.
Para verificar a eficácia dessa atitude, sorteu 10 cidades e observou as porcentagens 8, 12, 16, 9, 11
e 12. Os dados trazem evidência de melhoria, ao nı́vel de 2%? Caso altere a média, dê um intervalo
de confiança para anova média.
R
Exercı́cio 51. Inicie R e carregue os dados energy.txt no site do curso digitando
dt <- read.table(file="http://dcm.ffclrp.usp.br/~rrosales/aulas/energy.txt",
head=TRUE)
attach(dt)
Estes dados contém duas colunas: expend e stature, e representam o consumo energetico de mulheres magras (lean) e obesas (obese). O argumento head=TRUE da função read.table permite Digite
t.test(expend~stature, paired=TRUE)
A função t.test, com a sintaxe acima, permite realizar um teste t utilizando o estimador
X̄2 − X̄1
T =r
S2
S12
+ 2
n
n
(i) No caso dos dados em energy.txt, quais são as hipóteses H0 e Ha que estão sendo testadas?
(ii) Qual é o resultado do teste? (iii) A figura 5 mostra a função poder para o teste em (i), para dois
valores de α, 0.001 e 0.05. Por que o poder do teste para α = 0.05 é maior? (iii) Escreva um código
em R, o qual permita calcular a função poder para testes t-Student. (Sugestão: utilice a função qt.)
R
Exercı́cio 52. Carregue os dados chiken.txt. Estes dados contem o efeito de duas dietas diferentes
no crecimento de perus durante as primeiras semanas de vida. Os dados apresentam quatro colunas:
“weight”, “Time”, “Chick”, e “Diet”. A figura 6 embaixo apresenta um “Box Plot”gerado com
a função boxplot(weight~Diet). Em este gráfico a barra inferior representa a menor observação
não extrema, o borde inferiror da caixa corresponde ao primeiro quartil Q1 (i.e. o valor de x tal
que Fbx1 ,...,xn (x) = 0, 25), a barra cheia é a mediana dos dados, o borde superior da caixa é o
terceiro quartil Q3 = x : Fbx1 ,...,xn (x) = 0, 75, e a barra superior representa a maior observação não
extrema. Os sı́mbolos ◦ representam eventos moderadamente extremos. Um dado é considerado
moderadamente extremo se o seu valor esta entre 1, 5(Q3 − Q1 ) e 3(Q3 − Q1 ). Se o valor de uma
observação é maior do que 3(Q3 − Q1), então esta é representada com o sı́mbolo ∗ e considerado
como um verdadeiro extremo. (i) Em base ao gráfico, diga se os dois tratamentos tem algum efeito
sobre o peso médio dos frangos. (ii) Faça um teste de hipotese para verificar a sua opinião. Qual é
a sua conclusão? [Sugestão: veja o exercı́cio anterior!]
R
Exercı́cio 53. Inicie R e carregue os dados trabalho.txt. Este arquivo contém os dados do
Exercicio 39. (i) Faça um teste para verificar se no Brasil existe diferença na taxa de trabalho de
crianças pretas e crianças brancas. Qual é a sua conclusão? (ii) Os resultados aqui são consistentes
com aqueles obtidos no Exercicio 39?
17
1.0
0.8
0.6
0.4
1 − beta(x)
0.2
0.0
−3
−2
−1
0
1
2
3
x
Figura 5: funções poder para o teste do Exercicio 51 para dois valores de α (0.001 linha pontilhada, e 0.05).
3.4.3
Teste χ2 : Testes e intervalos para a Variância
Exercı́cio 54. Para cada uma das seguintes combinações de a e gl (graus de libertade), calcular o
valor de χ2a que uma área a no extremo direito da distribuição χ2 , i.e., P (X 6) = a.
(i). a = 0, 05, gl = 7 (ii).
(iv). a = 0, 025, gl = 8 (v).
a = 0, 1, gl = 16 (iii).a = 0, 01, gl = 10
a = 0, 005, gl = 5.
Exercı́cio 55. O tempo de certo evento observado em 18 provas forneceu a estimativa para S de
6,3 (ns). Obtenha um intervalo de confiança de 95% para a verdadeira variância, σ 2 , dos tempos.
Suponha que a distribuição dos tempos observados é normal.
O seguinte exercı́cio é mais avanzado e tem como propósito ilustrar a interpretação ussual de um
intervalo de confiança.
R
Exercı́cio 56. Gere uma amostra de tamanho 20 da distribuição normal com média 0 e desvio
padrão 5. Calcule o intervalo de confiança para a variância baseado na amostra com γ = 0, 95.
Repeta estes passos 100 vezes e conte o número de vezes nas quais o intervalo captura o verdadeiro
valor de σ 2 . Divida esta frequencia pelo número total de repetições e compare o valor final com γ.
Sugestão: utilice as funções rnorm, mean.
3.4.4
Teste F (Fisher-Snedecor): σ12 /σ22
Exercı́cio 57. Supondo X ∼ F (a, b), encontre xc tal que: (i) P (X > xc ) = 0, 05 com a=18,
b=3. (ii) P (X > xc ) = 0, 05 com a=3, b=18. (iii) P (X > xc ) = 0, 05 com a=180, b=192. (iv)
P (X > xc ) = 0, 95 com a=5, b=12. (v) P (X > xc ) = 0, 95 com a=30, b=40.
Exercı́cio 58. Uma panificadora produz determinado tipo de pão, cujo peso médio é de 190 gramas,
com desvio padrão de 18 gramas. Devido a mudanças na polı́tica cambial, que ocasionou aumento no
preço do trigo, alguns ingredientes da receita foram substituı́dos. Uma equipe do governo resolveu
verificar se a variabilidade no peso do produto aumentou e escolheu, aleatoriamente, 16 unidades,
medindo o peso de cada uma. O peso médio obtido da amostra foi de 102 gramas e o desvio padrão
foi de 24,5 gramas. Qual é a conclusão para α = 10%.
18
300
250
200
peso (gr)
150
100
50
1
2
tratamento
Figura 6: Box Plots para os dados em chiken.txt.
Exercı́cio 59. Queremos comparar três hospitais, a través da satisfação demonstrada por pacientes
quanto ao atendimento, durante o perı́odo de internação. Para tanto, foram selecionados, aleatoriamente, pacientes com grau de enfermidade semelhante. Cada paciente preencheu um questionário
e as respostas geraram ı́ndices variando de 0 a 100, indicando o grau de satisfação. Os resultados
foram
n
x̄
s2 (x)
A
10
80,7
113,3
Hospital
B
15
59,0
101,4
C
13
72,3
106,5
(i) Baseando-se nos dados apresentados, teste a igualdade das variâncias para os hospitais A e B.
Use α = 0, 10. (ii) Teste se as médias populacionais são iguais. Qual sua conclusão? Use α = 0, 05.
R
Exercı́cio 60. Procure e carregue os dados stroke.txt. Entre outras informações, estes dados fornecem a idade de pessoas de ambos sexos as quais sofreram um enfarto na Estônia, durante o perı́odo
1991-1993. Digite var.test(age~sex). (i) O que esta sendo testado (quais são as hipóteses?) (ii)
Baseado no valor p do teste, qual é a sua conclusão?
Exercı́cio 61. Sejam X̄1 e S12 a média e a variância amostrais de n1 observações de uma população
com média µ1 e variância σ12 . Da forma análoga consideramos X̄2 , S22 , n2 , µ2 e σ22 . (i) Estabeleça
um intervalo de confiança para µ1 + µ2 . Sugestão: considere o estimador
Zn1 ,n2 =
(X̄1 + X̄2 ) − (µ1 + µ2 )
s
.
σ12
σ22
+
n1
n2
D
(ii) Demonstrar que se n1 → ∞ e n2 → ∞, então Zn1 ,n2 −→ Z onde Z é normal padrão.
Exercı́cio 62. Sea X1 , X2 , . . . , Xn uma amostra de uma população Poisson(λ). Se utiliza X̄ como
um estimador para λ. Obtenha um intervalo de confiança de (1 − α)% para λ. [Sugestão, considere
o estimador,
X̄ − λ
Z= p
λ/n
19
e mostre que Z é normal padrão quando n → ∞ (Qual dos resultados da seção de convergência
podem ser utilizados?)]
3.5
R
Projeto 4: Bioinformática
O objetivo deste exercı́cio é aplicar alguns dos métodos utilizados em seções anteriores a uma base
de dados constituı́da pelos valores da expressão genica de pacientes com leucemia linfóide e leucemia
mielóide aguda.
Os dados a serem utilizados foram tomados do pacote multtest, o qual forma parte de Bioconductor: www.bioconductor.org, e estão baseados nas análises em [TRGSA+ 99]. Os dados podem
ser carregados como
library(multtest); data(golub);
caso multtest esteja instalado, ou directamente do site do curso digitando
load(url("http://dcm.ffclrp.usp.br/~rrosales/aulas/r-data-stat-IBM/golub.RData"))
Os dados disponı́veis na matriz golub apresentam os valores da expressão de 3051 genes (filas) de 38
pacientes diagnosticados com leucemia (colunas). Os dados dos primeiros 27 pacientes correspondem
a pessoas com leucemia linfóide (ALL) e os ultimos 11 a pessoas com leucemia mielóide aguda
(AML). O tipo do tumor se encontra indicado pelo vetor numerico golub.cl, onde a condição
ALL é determinada pelo número 0 e AML pelo número 1. Os nomes dos genes se encontram em
golub.gnames, uma matrix com 3 colunas: um ı́ndice para o gene, a identidade do gene, e o nome
do gene. Por exemplo, o gene M92287 at identificado com “CNND3 Cyclin D3” corresponde a file
número 1042 em golub.names,
golub.gnames[1042,]
[1] "2354"
"CCND3 Cyclin D3"
"M92287_at"
Assim,
golub[1042,2]
[1] 1.52405
representa a expressão do gene M92287 at para o paciente 2. golub[,1] representa os valores
da expressão para os 3051 genes do paciente 1, e golub[1024,] os valores da expressão do gene
M92287 at para todos os 38 pacientes,
golub[1024,]
[1] -1.45769 -1.39420
[9] -1.47649 -1.21583
[17] -1.56783 -1.20466
[25] -1.25268 -1.27619
[33] -1.47218 -1.34158
-1.46227
-1.28137
-1.24482
-1.23051
-1.22961
-1.40715
-1.03209
-1.60767
-1.43337
-0.39456
-1.42668
-1.36149
-1.06221
-1.08902
-1.34579
-1.21719
-1.39979
-1.12665
0.40633
-1.32403
-1.37386
-1.39503
-1.20963
-1.26183
-1.36832
-1.40095
-1.48332
-1.44434
Suponhamos que desejamos separar os valores da expressão do gene M92287 at em dois grupos:
ALL, AML (segundo o tipo de tumor). Definimos primeiro uma variável do tipo factor com nome
gol.fact,
gol.fac <- factor(golub.cl, levels=0:1, labels=c("ALL", "AML"))
Agora, para obter os valores de expressão de M92287 at para os pacientes do grupo ALL fazemos
golub[1042, gol.fact=="ALL"]
Esta maneira de organizar os dados permite por exemplo calcular a expressão genica média (para
cada gene) de tudos os pacientes do tipo ALL,
20
mediaALL <- apply(golub[, gol.fac=="ALL"], 1, mean)
(veja help(apply)). A média de cada um dos 3051 genes dos dados do tipo ALL se encontra no
vetor mediaALL. Suponhamos agora que temos interesse em estudar o gene identificado por CD33
(segundo [TRGSA+ 99], este gene pode ser utilizado para identificar células do tipo linfóide das
mielóides!). Para saber o indice da fila de golub para este gene fazemos
grep("CD33", golub.gnames[,2])
[1] 808
isto é, os valore da expressão para o antigeno CD33 se encontram em golum[808, ].
Exercı́cio 63. Digite
mall <- apply(golub[,gol.fac=="ALL"], 1, mean)
maml <- apply(golub[,gol.fac=="AML"], 1, mean)
o <- order(abs(mall-maml), decreasing=TRUE)
print(golub.gnames[o[1:5],2])
Interprete o resultado e diga qual é a sua importância.
Exercı́cio 64. Utilice a função grep para encontrar os oncogenes em golub. (i) Quantos oncogenes
tem a base de dados? (ii) Encontre os nomes dos oncogenes com o maior valor de expressão médio
para os pacientes do tipo ALL. (iii) Faça o mesmo para os pacientes do tipo AML.
Exercı́cio 65. Escolha os dados do gene CD33. (i) Faça um teste para verificar a igualdade das
variâncias na expressão do gene CD33 nos grupos ALL e AML. (ii) Considere um teste para verificar
a igualdade no nı́vel médio da expressão do gene CD33 nos grupos ALL e AML.
Exercı́cio 66. O oncogene “MYBL2 V-myb avian myeloblastosis viral oncogene homolog-like 2” se
encontra na fila 1788 de golub. (i) Utilice um boxplot para comparar os dois grupos ALL e AML.
Você acredita que o nı́vel de expressão médio varia de acordo com o grupo? (ii) Considere um t-teste
para verificar se o valor médio de expressão é igual. (iii) Repita estes analises para o gene “HOXA9
Homeo box A9”, o qual segundo [TRGSA+ 99] causa leucemia.
4
Análise de variância e regressão linear
Exercı́cio 67. Três diferentes bancos possuem agências de mesmo porte em uma avenida no centro
de São Paulo. Para testar se essas agências têm movimento médio equivalente, foi escolhida uma
semana tı́pica de trabalho e o desempenho, nesses dias, foi registrado. Os dados obtı́dos, em milhões
de reais é apresenta na seguinte tabela
1
Banco
2
3
146,4
199,2
179,5
98,4
263,7
194,3
227,2
203,4
111,8
275,0
173,7
246,5
289,8
127,4
265,6
Qual seria a sua conclusão ao nı́vel α =5%?
Exercı́cio 68. Um estudo deseja avaliar o efeito do treinamento no tempo de reação de atletas
submetidos a um certo estı́mulo. O treinamento consiste na repetição de um movimento e foi
utilizada uma amostra de 37 atletas. Para cada atleta foi atribuı́do um certo número de repetições
21
X e, então, foi medido o tempo de reação Y , em milisegundos. Uma reta de mı́nimos quadrados foi
ajustada aos dados, fornecendo a equação
ybi = 80, 5 − 0, 9xi ,
i = 1, . . . , n.
(i) Qual é o significado das estimativas para α e β?
R
Exercı́cio 69. Inicie R e carregue os dados cabbages.txt. Estes dados contem informações sobre
plantios de repolhos e estão constituı́dos por quatro colunas: Cult: origem do cultivo, Date: data da
plantação, HeadWt: peso da cabeça do repolho (em Kg), VitC: conteúdo de ácido ascorbico (vitamina
C, em unidades arbitrárias). Ao digitar
minharegressao <- lm(HeadWt~VitC)
deverá aparecer
Call:
lm(formula = HeadW~VitC)
Coefficients:
(Intercept)
5.92806
VitC
-0.05754
O argumento a lm é a fórmula de um modelo. Na sua forma mais simples, o modelo y~x indica que
y é a variável dependente e x a variável independente (esta última é conhecida em uma regressão
como a variável descritiva). Neste caso, como saı́das de lm obtemos o intercepto (β) com o eixo y e a
inclinação (α) da reta que melhor descreve os dados. A estimativa para a reta de regressão portanto
é
HeadWt = 5.92806 − 0.05754 × VitC.
Maiores informações sobre a regressão são obtidos ao escrever
summary(minharegressao)
o qual gera a seguinte informação
Call:
lm(formula = HeadWt ~ VitC)
Residuals:
Min
1Q Median
-1.0150 -0.5117 -0.1575
3Q
0.4244
Max
1.6095
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.928059
0.505983 11.716 < 2e-16 ***
VitC
-0.057545
0.008603 -6.689 9.75e-09 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6687 on 58 degrees of freedom
Multiple R-squared: 0.4355,
Adjusted R-squared: 0.4257
F-statistic: 44.74 on 1 and 58 DF, p-value: 9.753e-09
Residuals fornece algumas propriedades que resumem a distribuição dos erros ei . Lembramos que a
distribuição de estes apresenta a priori média 0, portanto a mediana dos erros deve estar próxima de
este valor (neste caso -0.1575). Coefficients; mostra novamente as estimativas para β e α e para
22
cada uma o seu erro padrão, testes t, e p-valores. Os sı́mbolos a direita correspondem a um indicador
gráfico do nı́vel do teste; * significa 0, 01 < p < 0, 05 (veja a linha Signif.codes:...). Residual
standard error é a variação residual, uma quantidade que mede a variabilidade das observações
a respeito da reta de regressão, e fornece uma estimativa para σ, a variância dos ei . Multiple
R-squared é o coeficiente de correlação de Pearson. F-statistics corresponde ao resultado do
teste H0 : α = 0, Ha : α 6= 0. Finalmente, os comandos
plot(VitC,HeadWt,xlab="concentracao de vitamina C (unidades
arbitrarias)", ylab="peso da cabeca do repolho (Kg)",
cex=0.9, lwd=0.65)
abline(lm(HeadWt~VitC), lwd=1.5, col="navy", lty=2)
●
1.0 1.5 2.0 2.5 3.0 3.5 4.0
peso da cabeca do repolho (Kg)
produzem a figura 7. (i) Baseado em estes resultados, você acredita que o modelo de regressão linear
é apropriado em este exemplo? Qual dos resultados fornecidos por R levo você a sua conclusão?
(ii) Qual é o peso esperado de uma cabeça de repolho com 60 unidades de vitamina C? e para 100
unidades?
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
40
50
60
70
80
concentracao de vitamina C (unidades arbitrarias)
Figura 7: gráfico tı́pico para uma regressão linear.
Exercı́cio 70. Para verificar o efeito da variável X sobre a variável Y , foi realizado um experimento
que forneceu os pares (xi , yi ) dados por (3; 13,3), (7; 24,3), (5; 15,9), (2; 12,8), (9; 29,6), (7; 29,5),
(3; 14,5), (5; 23,3), (8; 32,6), (2; 12,0) e (1; 4,6). Obtehna a reta ajustada. Construa o diagrama
de despersão, baseando-se nos pares de valores fornecidos e, em seguida, desenhe a reta ajustada.
Baseando-se apenas no gráfico, você diria que o ajuste é adequado? Verificar se o valore de x influi
sobre o valor de y, utilizando α = 5%.
Exercı́cio 71. Para verificar se existe relação entre a renda familiar (em salários mı́nimos) e o
número de filhos, foi coletada uma amostra de 8 famı́lias em uma ciudade. Os resultados obtidos
são apresentados na seguinte tabela, e graficados na figura 8.
Famı́lia
1
2
3
4
5
6
7
8
Renda
Filhos
12
3
14
2
15
2
17
1
23
1
27
0
34
0
43
0
23
3.0
2.5
2.0
1.5
1.0
0.0
0.5
# de filhos
15
20
25
30
35
40
# de salarios minimos
Figura 8: renda e número de filhos
(i) Que conclusões podem ser tiradas, baseando-se em um diagrama de dispersão, apresentado acima,
e no coeficiente de correlação? (ii) Calcule a reta de mı́nimos quadrados e interprete os parâmetros.
(iii) Verifique se a renda influi no número de filhos, utilizando α = 5%.
Exercı́cio 72. Verifique se é razoável considerar um modelo de regressão linear relacionando as
notas de cálculo, Y, e estatı́stica, X, segundo os dados apresentados na tabela a seguir.
Disciplinas
Cálculo
Estatı́stica
Notas
5,5
7,0
3,5
4,5
7,0
8,5
2,5
3,5
8,5
9,0
6,5
4,5
6,0
5,0
4,0
5,5
0,5
1,5
5,0
6,5
Exercı́cio 73. A quantidade de chuva é um fator importante na produtividade agrı́cola. Para medir
esse efeito, foram anotadas, para 8 regiões diferentes produtoras de soja, o ı́ndice pluviométrico e a
produção do último ano.
Chuva (mm)
Produção (ton)
120
40
140
46
122
45
150
37
115
25
190
54
130
33
118
30
(i) Ajuste a reta de regressão. Como você interpretaria o coeficiente β? (ii) Utilizando a reta
ajustada, encontre a produção esperada para uma região com ı́ndice pluviométrico é igual a 160
mm. (iii) Construa uma tabela ANOVA para verificar, ao nı́vel de 5%, se existe evidência estatı́stica
de que o ı́ndice pluvométrico influencia na produção de soja.
Exercı́cio 74. Foi realizado um experimento para comparar as qualidades de desgaste de 3 tipos
de tinta submetidas a ação abrasiva de uma roda forrada que gira lentamente. Foram testadas
10 especı́menes para cada tipo de tinta e foram registrados o número de horas transcoridas até o
aparecimento de uma abrasão visı́vel em cada caso. Os resultados são apresentados na tabela abaixo.
Há provas suficientes de uma diferença no tempo médio até o aparecimento de uma abrasão visı́vel
entre os 3 tipos de pintura? Considere o nı́vel α = 5%.
24
Tipo de tinta
2
3
148
76
393
520
236
134
55
166
415
153
513
264
433
94
535
327
214
135
280
304
335
643
216
536
128
723
258
380
549
465
10
20
30
40
50
60
Exercı́cio 75. Procure e carrege do site do curso os dados Cars93.txt. Utilize a função read.table.
Estes dados contém 93 linhas e 27 colunas, e apresentam diversas caracterı́sticas de vários automóveis
americanos em 1993. Os dados foram tomados do pacote MASS, e podem ser carregados na memória
aos escrever library(MASS)6 , caso este pacote esteja instalado na sua distribuição de R. Uma vez
carregados os dados, digite help(Cars93) e também diretamente Cars93 para obter maiores informações. O boxplot mostrado na figura 9 foi realizado com o comando attach(Cars93); e logo
boxplot(Price~Type,notch=F). (i) Baseado neste gráfico, você acredita que existe evidência para
pensar que os preços médios dos vehı́culos variam de acordo ao tipo? (ii) O teste ANOVA para os
Preco (unidades arbitrarias)
R
1
Compact
Large
Midsize
Small
Sporty
Van
Tipo
Figura 9: preços de diversos tipos de carros americanos em 1993.
preços dos veı́culos de acordo as classes em Types pode ser realizado como
anova(lm(Price~Type))
resultando
6 MASS contém os dados e as funções que acompanham a referéncia: Venables, W. N. e Ripley, B. D. (1999)
Modern Applied Statistics with S-PLUS. Terceira Edição. Springer Verlag.
25
Analysis of Variance Table
Response: Price
Df Sum Sq Mean Sq F value
Pr(>F)
Type
5 3421.4
684.3 11.532 1.477e-08 ***
Residuals 87 5162.6
59.3
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Em base a este teste podemos descartar a hipotese que consiste em pensar que todos os tipos de
carros apresentam o mesmo valor médio? (iii) Faça uma regressão linear utilizando Weight como
variável independente e MPG.highway. Qual é o resultado do teste F associado? (iv) Considere o
teste
t.test(Price~Origin, alternative=two.sided)
onde Origin e uma variável com dois valores USA e non-USA. O que esta sendo testado (quais são
H0 e Ha )? Qual é o resultado do teste? (v) Considere o teste
t.test(Price~Origin, alternative=greather)
Quais são as hipoteses? Qual é o resultado do teste? (veja como muda a conclusão do teste em
alternative hypotesis).
R
Exercı́cio 76. Uma agência de empregos deseja verificar o grau de satisfação de seus clientes. Para
tanto, escolheu domicı́lios de famı́lias de classe A, B e C, que fizeram uso da agência, e solicitou que
um questionário fosse preenchido. Os questionários foram devidamente codificados, a fim de fornecer
um ı́ndice de satisfação que varia de 1 a 5 (insatisfeito a satisfeito). Os resultados do questionario se
encontram no aquivo agencia.txt. Faça um teste ANOVA para verificar se o ı́ndice de satisfação
médio varia ou não de classe a classe. Qual é a conclusão se α =0,05%?
5
5.1
Apêndice
Distribuições amostrais
Esta seção apresenta diversos resultados sobre a origem de varias distribuições amostrais utilizadas
em aula. O seu estudo é opcional e só devera ser considerado numa segunda leitura.
5.1.1
Distribuições Gamma e χ2
Apresentamos dois distribuições essenciais no estudo das distribuições amostrais de X̄ e S 2 .
Se X é normal padrão, qual será a distribuição de X 2 ? Encontraremos primeiro a função de
distribuição de Y = X 2 , FY . Obviamente FY (y) = 0 se y < 0. Se y ≥ 0, então
√
√
FY (y) = P(Y ≤ y) = P(X 2 ≤ y) = P(− y ≤ X ≤ y)
Z +√y
Z √y
2
1 −x2 /2
1
√ e−x /2 dx.
= √ √ e
dx = 2
2π
2π
− y
0
√
Consideramos a seguir a seguinte troca de variável, x = t, então
Z y
1
1
√ t− 2 e−t/2 dt.
FY (y) =
2π
0
A densidade de Y , fY , é a derivada de FY com respeito a y,
(
1
√1 y 2 e−y/2 ,
se y > 0,
2π
fY (y) =
0,
caso contrário.
26
Esta densidade é um membro da “familia de distribuições gamma”. Antes de definirmos esta
famı́lia lembramos a definição da função gamma, muito utilizada em analise. A função Γ : (0, +∞) →
[0, +∞) dada por
Z +∞
Γ(x) =
tx−1 e−t dt, x > 0,
0
é conhecida como a função gamma. Utilizando integração por partes é possı́vel mostrar que Γ(x+1) =
xΓ(x) para qualquer x > 0, e portanto como um caso particular obtemos que Γ(n + 1) = n! para
n ∈ N.
√
Exercı́cio 77. Mostre que Γ(1/2) = π.
Definição 2. A variável aleatória X tem distribuição gamma com parâmetros α e β > 0 se a sua
densidade é dada por

 1 xα−1 e−x/β , se x ≥ 0,
fX (x) = β α Γ(α)

0,
caso contrário.
Segue imediatamente deste definição, do Exercicio 77 é do exposto nesta seção que se X é normal
padrão, então X 2 tem distribuição gamma com parâmetros α = 1/2 e β = 2 (justifique isto!).
Exercı́cio 78. (i) Mostre que a função geradora de momentos de uma variável aleatória gamma é
dada por
1
M (t) =
,
(1 − βt)α
sendo que M (t) esta definida no domı́nio (−∞, β1 ). [Sugestão: considere x = βu e logo a troca de
variável u = v/(1 − βt)]. (ii) Utilizando M (t) mostre que EX = αβ e Var(X) = αβ 2 .
Proposição 1. Sejam X1 , . . . , Xn variáveis aleatórias independentes gamma com parâmetros αi ,
β respectivamente. A variável aleatória X1 + . . . Xn tem distribuição gamma com parâmetros α1 +
. . . + αn e β.
Demonstração. Lembramos que se X1 e X2 são variáveis aleatórias independentes então a função
geradora de Z = X1 + X2 é simplesmente MZ (t) = MX1 (t)MX2 (t). Temos então que
MX1 +...+Xn (t) = MX1 (t) · · · MXn (t) =
=
1
1
···
α
1
(1 − βt)
(1 − βt)αn
1
,
(1 − βt)α1 +...+αn
a qual é a função geradora de uma variável aleatória gamma com parâmetros α1 + . . . + αn e β.
Suponhamos agora que X1 , . . . , Xn é uma amostra i.i.d. de uma população normal padrão.
Neste caso diante ao exposto temos que X12 , . . . , Xn2 são independentes e com distribuição gamma
com α = 1/2 e β = 2. Da proposição acima temos que
n X12 + . . . Xn2 ∼ gamma , 2 .
(10)
2
Exercı́cio 79. (i) Suponha que X e Y são independentes e com distribuição χ2 com n graus de
liberdade e χ2 com m graus de liberdade respectivamente. Mostre que X + Y tem distribuição χ2
com n + m graus de liberdade. (ii) Suponha agora que X e e X + Y são χ2 com m e n, m < n,
graus de liberdade. Mostre que Y é χ2 com n − m graus de liberdade.
Definição 3. Uma variável aleatória tem distribuição χ2 com n graus de liberdade se esta tem
distribuição gamma com parâmetros α = n/2 e β = 2.
27
0.10
0.08
0.06
0.04
0.02
0.00
0
10
20
30
40
50
60
70
Figura 10: densidade χ2 para 10 (linha continua), 30 e 50 graus de liberdade.
Esta terminologia introduzida pelo estatı́stico Britânico K. Pearson (1857-1936) ainda é utilizada
hoje em dia. A figura 10 mostra a densidade χ2 para diferentes graus de liberdade.
O interesse inicial na distribuição χ2 è que esta esta relacionada a distribuição amostral de S 2 .
Com o propósito de mostrarmos esta relação utilizaremos o seguinte resultado.
Teorema 10. Seja X1 , . . . , Xn uma amostra i.i.d. de uma população normal. Os estimadores X̄ e
S 2 são independentes.
Este Teorema permite obter a distribuição amostral de S 2 no caso quando são consideradas
amostras i.i.d. de uma população normal.
Teorema 11. Seja X1 , . . . , Xn , n ≥ 2, uma amostra i.i.d. de uma população normal com média µ
e variância σ 2 . A variável aleatória
(n − 1)S 2
V =
σ2
2
apresenta distribuição χ com n − 1 graus de liberdade.
Demonstração. Observamos que cada uma das variáveis aleatórias (Xi − µ)/σ são independentes e
normais padrão. Neste caso, diretamente de (10) temos que
n X
X i − µ 2
i=1
σ
tem distribuição χ2 com n graus de liberdade.
Se X1 , . . . , Xn é uma amostra i.i.d. de uma população normal√ com média µ e variância σ 2 ,
então das propriedades da distribuição normal, a variável aleatória n(X̄ − µ)/σ é normal padrão.
Portanto n(X̄ − µ)2 /σ 2 tem distribuição χ2 com 1 grau de liberdade.
Observamos agora que
n X
X i − µ 2
i=1
σ
n
X
(Xi − X̄)2
X̄ − µ 2
σ2
σ
i=1
2
(n − 1)S
X̄ − µ 2
=
+n
.
2
σ
σ
=
28
+n
Segue então do Teorema 10 e do Exercicio 79(ii) que (n − 1)S 2 /σ 2 tem distribuição χ2 com n − 1
graus de liberdade.
5.1.2
Distribuição t (t-Student)
Estudamos a continuação a distribuição da variável aleatória
T =
√ X̄ − µ ,
n
S
obtida ao considerar uma amostra i.i.d. de uma população normal. Observamos primeiro a seguinte
representação para T ,
r
X̄ − µ
X̄ − µ σ
X̄ − µ . S 2
√ =
√ · =
√
.
σ2
S/ n
σ/ n S
σ/ n
Se Z =
X̄ − µ
(n − 1)S 2
√ eV =
, então
σ2
σ/ n
X̄ − µ
Z
√ =p
.
S/ n
V /(n − 1)
Observamos que Z tem distribuição N (0, 1) e V tem distribuição χ2 com n − 1 graus de liberdade, e
também que o par de variáveispaleatórias Z, V são independentes. O seguinte resultado determina
a distribuição do quociente Z/ V /n.
Proposição 2. Seja Z com distribuição N (0, 1) e V com distribuição χ2 com n graus de liberdade.
Se Z e V são independentes, então a variável aleatória
Z
T =p
V /n
tem densidade de probabilidade f dada por
n+1
Γ( n+1
x2 − 2
2 )
√
1+
f (x) =
n
πnΓ( n2 )
Demonstração. Calculamos primeiro a densidade de U =
de U é dada por
a2
Z
2
FU (a) = P(U ≤ a) = P(Y ≤ a ) =
0
para todo x ∈ R.
√
V . Temos que a função de distribuição
n
1
x 2 −1 e−x/2 dx se a > 0.
2n/2 Γ(n/2)
Tomando x = u2 obtemos
Z
FU (a) =
0
a
2
2n/2 Γ(n/2)
un−1 e−u
2
/2
du se a > 0.
Se derivamos respeito de a obtemos a densidade de U ,

2
2

un−1 e−u /2 ,
n/2
fU (u) = 2 Γ(n/2)

0,
se u > 0,
se u ≤ 0.
Calculamos agora a distribuição de probabilidade de Z/U . A tal fim observamos que
Z
P
U
≤ a = P(Z ≤ aU ) = P (Z, U ) ∈ Ga ,
29
(11)
onde Ga = {(x, u) ∈ R2 : u > 0 e x ≤ au}. Devido a independência de Z e U , temos que a densidade
conjunta de (Z, U ) é

2
2
fZ (x)fU (u) = √1 e−x2 /2
un−1 e−u /2 , se u > 0,
2n/2 Γ( n2 )
2π
fZ,U (x, u) =

0,
se u ≤ 0.
Conseqüentemente,
Z
P
U
ZZ
≤a =
fZ (x)fU (u) dxdu,
Ga
e trocando a ordem das integrais, para a 6= 0,
Z
Z +∞ Z au
fZ (x)fU (u)dx du
P
≤a =
U
−∞
0
Z au
Z +∞
2
1
√ e−x /2 dx du.
fU (u)
=
2π
−∞
0
Mantendo u fixo e trocando x = ut na integral mais interna resulta em
Z a
Z +∞
Z
1 −(ut)2 /2
√ e
≤a =
fU (u)
P
u dt du
U
2π
0
−∞
Z a Z +∞
2
1
=
fU (u) √ e−(ut) /2 u du dt,
2π
−∞
0
sendo que a ultima igualdade resulta ao trocar novamente a ordem de integração. Temos então, da
última igualdade, que a densidade de Z/U pode ser escrita como
Z
+∞
2
1
fU (u) √ e−(au) /2 u du
2π
0
Z +∞
2
2
2
√
=
un e−(1+a )u /2 du.
n/2 2πΓ( n )
2
0
2
√
Se agora consideramos a troca u = v/ 1 + a2 na ultima integral obtemos
fZ/U (a) =
fZ/U (a) = (1 + a2 )−(n+1)/2
Substituindo v =
√
2n/2
√
2
2πΓ( n2 )
Z
+∞
v n e−v
2
/2
dv.
0
2s, a integral a direita pode ser expressada em termos da função gamma como
√ Z
Z +∞
2
2n/2 2 +∞ n − 1 −s
v n e−v /2 dv =
s 2 2 e ds
2
0
0
√
2n/2 2 n + 1 =
Γ
,
2
2
e assim,
Γ n+1
2
fZ/U (a) = √
(1 + a2 )−(n+1)/2 .
πΓ( n2 )
p
Por ultimo derivamos agora a densidade de Z/ V /n. Observamos que,
√ Z
√ Z
Z
p
= n√ = n ,
U
V
V /n
30
e então finalmente a distribuição de
√
nZ/U é
Γ n+1
2
a2 −(n+1)/2
1+
.
f (a) = √
n
n
πnΓ( 2 )
Definição 4. Uma variável aleatória tem distribuição t com n graus de liberdade se a sua densidade
é dada pela lei em (11).
0.0
−6
−5
0.1
−4
0.2
−3
0.3
−2
−1
0.4
A distribuição t foi descrita inicialmente por William S. Gosset (1876-1937). Gosset trabalhava
na cervejaria Guiness em Dublim a qual proibia que os seus empleados publicassem o seu trabalho
cientı́fico. Devido a isto Gosset publico os seus trabalhos utilizando o pseudônimo “Student”. Em
honra ao seu descobridor hoje em dia a distribuição t também é conhecida como a “distribuição
Student” (ou t-Student). Esta distribuição é apresentada na figura 11.
−4
−2
0
2
4
−4
−2
0
2
4
Figura 11: esquerda: densidade t de Student para 5 (linha continua), 10, 20 e 30 graus de liberdade,
e direita: mesmas densidades com ordenas algorı́tmicas para enfatizar a diferença nas caudas. A fim
de estabelecer uma comparação, a densidade normal padrão também se encontra graficada, sendo
que esta é a densidade com a menor probabilidade nas caudas.
5.1.3
Distribuição F
2
2
Sejam X e Y duas populações e SX
, XY2 os estimadores das variâncias σX
e σY2 . Desejamos estudar
2
2
o quociente σX /σY e a tal fim determinamos a distribuição de
2 2
SX
σX
.
SY2 σY2
Esta variável aleatória tem “distribuição F ”.
Definição 5. A variável aleatória X apresenta distribuição F com m graus de liberdade no numerados e n graus de liberdade no denominador se a sua densidade é dada por

m+n
m+n

 Γ( 2 ) m m/2 x m2 −1 1 + m x − 2 , se x > 0,
n
n
f (x) = Γ( m
2 )Γ( 2 ) n

0,
se x ≤ 0.
31
1.0
0.8
0.6
0.4
0.2
0.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Figura 12: densidades F (m, n) para vários valores de m e n (linha continua (50, 50), ponteada
(30, 30) e linha interrompida (10, 1000)).
A distribuição F é também conhecida como a distribuição de Fisher em honra a Sir Ronald A.
Fisher (1890–1962).
Teorema 12. Sejam U e V duas variáveis aleatórias com distribuição χ2 de m e n graus de liberdade
respectivamente. Se U e V são independentes, então
U/m
V /n
tem distribuição F com m graus de liberdade no numerador e n graus de liberdade no denominador.
Demonstração. Encontramos primeiro a distribuição de U/V . Devido a que U > 0 e V > 0, temos
que
U
P
≤ a = 0, se a ≤ 0.
V
No caso a > 0 temos
U
≤ a = P(U ≤ aV ) = P (U, V ) ∈ A ,
P
V
onde A = {(u, v) : u ≤ av e u, v ≥ 0} ⊂ R2 . Seguindo o mesmo argumento utilizado para derivar a
distribuição de Z/U na Proposição 2, temos
ZZ
m
n
U
1
P
≤a =
u 2 −1 v 2 −1 e−u/2 e−v/2 du dv.
m+n
m
n
V
2 2 Γ( 2 )Γ( 2 )
A
Seja C
−1
=2
m+n
2
n
Γ( m
2 )Γ( 2 ).
Se trocamos a ordem de integração na ultima integral obtemos
Z +∞ Z av
n
m
U
P
≤a =C
u 2 −1 v 2 −1 e−u/2 e−v/2 du dv.
V
0
0
Se deixamos v fixo e consideramos a troca u = vt na integral mais interna obtemos que o lado direito
da ultima igualdade é
Z +∞ Z a
n
m
m
C
v 2 −1 v 2 −1 t 2 −1 e−vt/2 e−v/2 v dt dv
0
0
Z a Z +∞
m+n
m
v 2 −1 t 2 −1 e−(1+t)v/2 dv dt.
=C
0
0
32
Para t fixo consideramos agora a troca v = 2s/(1 + t),
Z a Z +∞ m+n
2 2 m −1 m+n −1 −s
e ds dt
C
t2 s 2
1+t
0
0
Z a
Z +∞
m+n
m+n
2 2 m −1
t 2 dt
=C
s 2 −1 e−s ds
1+t
0
0
Z a
m+n
m
m + n
2 2
2 −1 dt
Γ
.
=C
m+n t
2
0 (1 + t) 2
Desta forma,
Z a
Γ( m+n
m+n
m
U
2 )
t 2 −1 (1 + t)− 2 dt.
P
≤a =
n
)Γ(
)
V
Γ( m
0
2
2
Se derivamos agora respeito de a obtemos a densidade de probabilidade f˜ de U/V ,
( Γ( m+n ) m
m+n
−1
2
(1 + a)− 2 , se a ≥ 0,
m
n a 2
f˜(a) = Γ( 2 )Γ( 2 )
0,
caso contrário.
Num segundo passo, calculamos a distribuição de
U/m
V /n ,
isto é,
U/m
nU
=
.
V /n
mV
Lembramos que se X é uma variável aleatória com densidade fX , então Y = bX, b 6= 0, tem
densidade
1
fY (y) =
fX (y/p)
|p|
Então a densidade f de
f (a) =
U/m
V /n


segue da densidade de U/V ,
Γ( m+n
2 )
n
Γ( m
2 )Γ( 2 )
m2
m
n
m
a 2 −1 1 +
0,
− m+n
2
m
na
,
se a ≥ 0,
caso contrário.
Esta expressão corresponde a densidade F com m graus de liberdade no numerador e n no denominador.
Exercı́cio 80. Mostre o seguinte resultado.
Proposição 3. Seja X uma variável aleatória com distribuição F com m graus de liberdade no
numerador e n graus de liberdade no denominador. A variável aleatória 1/X tem distribuição F
com n graus de liberdade no numerador e m graus de liberdade no denominador.
Referências
[Ber13]
J. Bernoulli. ...Ars conjectandi, opus posthumum. Accedit Tractatus de seriebus infinitis, et epistola gallicé scripta de ludo pilae reticularis. Impensis Thurnisiorum,
fratrum, Basileae, 1713.
Tradução: E. D. Sylla. The Art of Conjecturing, together with Letter to a friend of
Sets in Court Tennis. The Johns Hopkins University Press, 2005.
[GS01]
G. Grimmett and D. Stirzaker. Probability and Random Processes. Oxford University
Press, 3rd edition, 2001.
33
[Jam02]
B. R. James. Probabilidade: um curso em nı́vel intermediário. Projeto Euclides.
Associação Instituto Nacional de Matemática Pura e Aplicada, Rio de Janeiro, 2002.
[Rao73]
C. R. Rao. Linear Statistical Inference and its Applications. Wiley, New York, 1973.
[TRGSA+ 99] T. R. T. R. Golub, D. K. Slonim, P. Amayo, D. Huard, M. Gaasenbeek, J. P. Mesirov,
H. Coller, M. L. Loh, M. R. Downing, M. A. Caligiuri, C. D. Bloomfield, and E. S.
Lander. Molecular classification of cancer: Class discovery and class prediction by
gene expression monitoring. Science, 286(5439):531–537, 1999.
34
6
Tabelas
Tabela 1: valores da distribuição normal padrão. A tabela fornece os valores de z que correspondem
a α, onde α = P(0 ≤ Z < z) . As colunas apresentam a segunda casa decimal de z, e as filas a parte
inteira e a primeira casa decimal.
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
0.00
0.0000
0.0398
0.0793
0.1179
0.1554
0.1915
0.2257
0.2580
0.2881
0.3159
0.3413
0.3643
0.3849
0.4032
0.4192
0.4332
0.4452
0.4554
0.4641
0.4713
0.4772
0.4821
0.4861
0.4893
0.4918
0.4938
0.4953
0.4965
0.4974
0.4981
0.4987
0.01
0.0040
0.0438
0.0832
0.1217
0.1591
0.1950
0.2291
0.2611
0.2910
0.3186
0.3438
0.3665
0.3869
0.4049
0.4207
0.4345
0.4463
0.4564
0.4649
0.4719
0.4778
0.4826
0.4864
0.4896
0.4920
0.4940
0.4955
0.4966
0.4975
0.4982
0.4987
0.02
0.0080
0.0478
0.0871
0.1255
0.1628
0.1985
0.2324
0.2642
0.2939
0.3212
0.3461
0.3686
0.3888
0.4066
0.4222
0.4357
0.4474
0.4573
0.4656
0.4726
0.4783
0.4830
0.4868
0.4898
0.4922
0.4941
0.4956
0.4967
0.4976
0.4982
0.4987
0.03
0.0120
0.0517
0.0910
0.1293
0.1664
0.2019
0.2357
0.2673
0.2967
0.3238
0.3485
0.3708
0.3907
0.4082
0.4236
0.4370
0.4484
0.4582
0.4664
0.4732
0.4788
0.4834
0.4871
0.4901
0.4925
0.4943
0.4957
0.4968
0.4977
0.4983
0.4988
0.04
0.0160
0.0557
0.0948
0.1331
0.1700
0.2054
0.2389
0.2704
0.2995
0.3264
0.3508
0.3729
0.3925
0.4099
0.4251
0.4382
0.4495
0.4591
0.4671
0.4738
0.4793
0.4838
0.4875
0.4904
0.4927
0.4945
0.4959
0.4969
0.4977
0.4984
0.4988
35
0.05
0.0199
0.0596
0.0987
0.1368
0.1736
0.2088
0.2422
0.2734
0.3023
0.3289
0.3531
0.3749
0.3944
0.4115
0.4265
0.4394
0.4505
0.4599
0.4678
0.4744
0.4798
0.4842
0.4878
0.4906
0.4929
0.4946
0.4960
0.4970
0.4978
0.4984
0.4989
0.06
0.0239
0.0636
0.1026
0.1406
0.1772
0.2123
0.2454
0.2764
0.3051
0.3315
0.3554
0.3770
0.3962
0.4131
0.4279
0.4406
0.4515
0.4608
0.4686
0.4750
0.4803
0.4846
0.4881
0.4909
0.4931
0.4948
0.4961
0.4971
0.4979
0.4985
0.4989
0.07
0.0279
0.0675
0.1064
0.1443
0.1808
0.2157
0.2486
0.2794
0.3078
0.3340
0.3577
0.3790
0.3980
0.4147
0.4292
0.4418
0.4525
0.4616
0.4693
0.4756
0.4808
0.4850
0.4884
0.4911
0.4932
0.4949
0.4962
0.4972
0.4979
0.4985
0.4989
0.08
0.0319
0.0714
0.1103
0.1480
0.1844
0.2190
0.2517
0.2823
0.3106
0.3365
0.3599
0.3810
0.3997
0.4162
0.4306
0.4429
0.4535
0.4625
0.4699
0.4761
0.4812
0.4854
0.4887
0.4913
0.4934
0.4951
0.4963
0.4973
0.4980
0.4986
0.4990
0.09
0.0359
0.0753
0.1141
0.1517
0.1879
0.2224
0.2549
0.2852
0.3133
0.3389
0.3621
0.3830
0.4015
0.4177
0.4319
0.4441
0.4545
0.4633
0.4706
0.4767
0.4817
0.4857
0.4890
0.4916
0.4936
0.4952
0.4964
0.4974
0.4981
0.4986
0.4990
Tabela 2: Valores da distribuição t-Student bicaudal. A tabela fornece os valores de x para α, onde
α = P(|T | ≥ x), ou alternativamente para γ onde γ = 1 − α = P(−x < T < x). GL denota os graus
de liberdade.
GL
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
42
44
46
48
50
60
70
80
90
100
120
150
200
300
500
∞
γ
α
0.4
0.6
0.727
0.617
0.584
0.569
0.559
0.553
0.549
0.546
0.544
0.542
0.540
0.539
0.538
0.537
0.536
0.535
0.534
0.534
0.533
0.533
0.532
0.532
0.531
0.531
0.531
0.531
0.530
0.530
0.530
0.530
0.530
0.530
0.529
0.529
0.529
0.529
0.529
0.529
0.529
0.528
0.528
0.528
0.528
0.528
0.527
0.527
0.527
0.526
0.526
0.526
0.526
0.525
0.525
0.525
0.524
0.5
0.5
1.000
0.817
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
0.697
0.696
0.694
0.692
0.691
0.690
0.689
0.688
0.688
0.686
0.686
0.685
0.685
0.684
0.684
0.684
0.683
0.683
0.683
0.683
0.682
0.682
0.682
0.682
0.681
0.681
0.681
0.681
0.681
0.680
0.680
0.680
0.680
0.679
0.679
0.678
0.678
0.677
0.677
0.677
0.676
0.676
0.675
0.675
0.675
0.6
0.4
1.376
1.061
0.979
0.941
0.920
0.910
0.896
0.889
0.883
0.879
0.876
0.873
0.870
0.868
0.866
0.865
0.863
0.862
0.861
0.859
0.858
0.858
0.857
0.856
0.856
0.855
0.855
0.854
0.854
0.853
0.853
0.853
0.852
0.852
0.852
0.851
0.851
0.851
0.851
0.850
0.850
0.850
0.849
0.849
0.848
0.847
0.846
0.846
0.845
0.845
0.844
0.843
0.843
0.842
0.842
0.7
0.3
1.963
1.386
1.250
1.190
1.156
1.134
1.119
1.108
1.100
1.093
1.088
1.083
1.079
1.076
1.074
1.071
1.069
1.067
1.066
1.063
1.061
1.060
1.059
1.058
1.058
1.057
1.056
1.055
1.055
1.054
1.054
1.053
1.052
1.052
1.052
1.051
1.051
1.050
1.050
1.049
1.049
1.048
1.048
1.047
1.045
1.044
1.043
1.042
1.042
1.041
1.040
1.039
1.038
1.038
1.036
0.8
0.2
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.309
1.309
1.308
1.307
1.306
1.306
1.305
1.304
1.304
1.303
1.302
1.301
1.300
1.299
1.299
1.296
1.294
1.292
1.291
1.290
1.289
1.287
1.286
1.284
1.283
1.282
0.9
0.1
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
1.695
1.694
1.692
1.691
1.690
1.688
1.687
1.686
1.685
1.684
1.682
1.680
1.679
1.677
1.676
1.671
1.667
1.664
1.662
1.660
1.658
1.655
1.652
1.650
1.648
1.645
36
0.95
0.05
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.040
2.037
2.035
2.032
2.030
2.028
2.026
2.024
2.023
2.021
2.018
2.015
2.013
2.011
2.009
2.000
1.994
1.990
1.987
1.984
1.980
1.976
1.972
1.968
1.965
1.960
0.98
0.02
31.820
6.965
4.541
3.747
3.365
3.143
2.998
2.897
2.821
2.764
2.718
2.681
2.650
2.625
2.602
2.584
2.567
2.552
2.528
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
2.453
2.449
2.445
2.441
2.438
2.434
2.431
2.429
2.426
2.423
2.418
2.414
2.410
2.407
2.403
2.390
2.381
2.374
2.369
2.364
2.358
2.351
2.345
2.339
2.334
2.326
0.99
0.01
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
2.744
2.738
2.733
2.728
2.724
2.719
2.715
2.712
2.708
2.704
2.698
2.692
2.687
2.682
2.678
2.660
2.648
2.639
2.632
2.626
2.617
2.609
2.601
2.592
2.586
2.576
0.995
0.005
127.321
14.089
7.453
5.598
4.773
4.317
4.029
3.833
3.690
3.581
3.497
3.428
3.372
3.326
3.286
3.252
3.222
3.197
3.153
3.135
3.119
3.104
3.090
3.078
3.067
3.057
3.047
3.038
3.030
3.022
3.015
3.008
3.002
2.996
2.991
2.985
2.980
2.976
2.971
2.963
2.956
2.949
2.943
2.937
2.915
2.899
2.887
2.878
2.871
2.860
2.849
2.839
2.828
2.820
2.807
0.998
0.002
318.309
22.327
10.215
7.173
5.893
5.208
4.785
4.501
4.297
4.144
4.025
3.930
3.852
3.787
3.733
3.686
3.646
3.610
3.552
3.527
3.505
3.485
3.467
3.450
3.435
3.421
3.408
3.396
3.385
3.375
3.365
3.356
3.348
3.340
3.333
3.326
3.319
3.313
3.307
3.296
3.286
3.277
3.269
3.261
3.232
3.211
3.195
3.183
3.174
3.160
3.145
3.131
3.118
3.107
3.090
0.999
0.001
636.619
31.599
12.924
8.610
6.869
5.959
5.408
5.041
4.781
4.587
4.437
4.318
4.221
4.140
4.073
4.015
3.965
3.922
3.850
3.819
3.792
3.768
3.745
3.725
3.707
3.690
3.674
3.659
3.646
3.633
3.622
3.611
3.601
3.591
3.582
3.574
3.566
3.558
3.551
3.538
3.526
3.515
3.505
3.496
3.460
3.435
3.416
3.402
3.391
3.373
3.357
3.340
3.323
3.310
3.291
37
α
GL
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
.98
0.001
0.04
0.185
0.429
0.752
1.134
1.564
2.032
2.532
3.059
3.609
4.178
4.765
5.368
5.985
6.614
7.255
7.906
8.567
9.237
9.915
10.6
11.293
11.992
12.697
13.409
14.125
14.847
15.574
16.306
.99
0
0.02
0.115
0.297
0.554
0.872
1.239
1.646
2.088
2.558
3.053
3.571
4.107
4.66
5.229
5.812
6.408
7.015
7.633
8.26
8.897
9.542
10.196
10.856
11.524
12.198
12.879
13.565
14.256
14.953
0.001
0.051
0.216
0.484
0.831
1.237
1.69
2.18
2.7
3.247
3.816
4.404
5.009
5.629
6.262
6.908
7.564
8.231
8.907
9.591
10.283
10.982
11.689
12.401
13.12
13.844
14.573
15.308
16.047
16.791
.975
0.004
0.103
0.352
0.711
1.145
1.635
2.167
2.733
3.325
3.94
4.575
5.226
5.892
6.571
7.261
7.962
8.672
9.39
10.117
10.851
11.591
12.338
13.091
13.848
14.611
15.379
16.151
16.928
17.708
18.493
.95
0.016
0.211
0.584
1.064
1.61
2.204
2.833
3.49
4.168
4.865
5.578
6.304
7.042
7.79
8.547
9.312
10.085
10.865
11.651
12.443
13.24
14.041
14.848
15.659
16.473
17.292
18.114
18.939
19.768
20.599
.9
0.064
0.446
1.005
1.649
2.343
3.07
3.822
4.594
5.38
6.179
6.989
7.807
8.634
9.467
10.307
11.152
12.002
12.857
13.716
14.578
15.445
16.314
17.187
18.062
18.94
19.82
20.703
21.588
22.475
23.364
.8
0.148
0.713
1.424
2.195
3
3.828
4.671
5.527
6.393
7.267
8.148
9.034
9.926
10.821
11.721
12.624
13.531
14.44
15.352
16.266
17.182
18.101
19.021
19.943
20.867
21.792
22.719
23.647
24.577
25.508
.7
0.455
1.386
2.366
3.357
4.351
5.348
6.346
7.344
8.343
9.342
10.341
11.34
12.34
13.339
14.339
15.338
16.338
17.338
18.338
19.337
20.337
21.337
22.337
23.337
24.337
25.336
26.336
27.336
28.336
29.336
.5
1.074
2.408
3.665
4.878
6.064
7.231
8.383
9.524
10.656
11.781
12.899
14.011
15.119
16.222
17.322
18.418
19.511
20.601
21.689
22.775
23.858
24.939
26.018
27.096
28.172
29.246
30.319
31.391
32.461
33.53
.3
1.642
3.219
4.642
5.989
7.289
8.558
9.803
11.03
12.242
13.442
14.631
15.812
16.985
18.151
19.311
20.465
21.615
22.76
23.9
25.038
26.171
27.301
28.429
29.553
30.675
31.795
32.912
34.027
35.139
36.25
.2
3.841
5.991
7.815
9.488
11.07
12.592
14.067
15.507
16.919
18.307
19.675
21.026
22.362
23.685
24.996
26.296
27.587
28.869
30.144
31.41
32.671
33.924
35.172
36.415
37.652
38.885
40.113
41.337
42.557
43.773
.05
4.218
6.438
8.311
10.026
11.644
13.198
14.703
16.171
17.608
19.021
20.412
21.785
23.142
24.485
25.816
27.136
28.445
29.745
31.037
32.321
33.597
34.867
36.131
37.389
38.642
39.889
41.132
42.37
43.604
44.834
.04
5.024
7.378
9.348
11.143
12.833
14.449
16.013
17.535
19.023
20.483
21.92
23.337
24.736
26.119
27.488
28.845
30.191
31.526
32.852
34.17
35.479
36.781
38.076
39.364
40.646
41.923
43.195
44.461
45.722
46.979
.025
5.412
7.824
9.837
11.668
13.388
15.033
16.622
18.168
19.679
21.161
22.618
24.054
25.472
26.873
28.259
29.633
30.995
32.346
33.687
35.02
36.343
37.659
38.968
40.27
41.566
42.856
44.14
45.419
46.693
47.962
.02
6.635
9.21
11.345
13.277
15.086
16.812
18.475
20.09
21.666
23.209
24.725
26.217
27.688
29.141
30.578
32
33.409
34.805
36.191
37.566
38.932
40.289
41.638
42.98
44.314
45.642
46.963
48.278
49.588
50.892
.01
9.55
12.429
14.796
16.924
18.907
20.791
22.601
24.352
26.056
27.722
29.354
30.957
32.535
34.091
35.628
37.146
38.648
40.136
41.61
43.072
44.522
45.962
47.391
48.812
50.223
51.627
53.023
54.411
55.792
57.167
.002
Tabela 3: Distribuição χ2 . A tabela fornece o valor de x para α de maneira que P(χ2 ≥ x) = α. GL denota graus de liberdade.
10.828
13.816
16.266
18.467
20.515
22.458
24.322
26.124
27.877
29.588
31.264
32.909
34.528
36.123
37.697
39.252
40.79
42.312
43.82
45.315
46.797
48.268
49.728
51.179
52.62
54.052
55.476
56.892
58.301
59.703
.001

Lista de exercicios

Transcrição

Documentos relacionados

Plano de Disciplina - divisão de engenharia mecânica

A distribuiç ˜ao Weibull inversa generalizada na modelagem de

PSub-1B

A distribuiç ˜ao Weibull inversa generalizada na

Nota de Alta

Lista de exercícios 03

Variáveis Aleatórias

TEORIA ELEMENTAR DAS MARTINGALAS A TEMPO DISCRETO 1

PADRÃO GEOGRÁFICO DA COLORAÇÃO DO JAGUARUNDI

Terrorismo Poético