Formalismo das Probabilidades

Transcrição

Formalismo das Probabilidades
Formalismo das Probabilidades
FCT/UNL, Inferência e Modelação estatı́stica
MLE
1 Introdução
A teoria das probabilidades evoluiu recentemente – se considerarmos a escala de tempo
definida pela evolução da geometria – tomando-se como ponto de partida as contribuições
iniciais de Girolamo Cardamo (1501–1576), Pierre de Fermat (1601–1665) e Blaise Pascal (1623 – 1662). Foi Andrei Kolmogorov (1903–1987) quem em 1933 publicou no livro
Foundations of Probability Theory – ver [Kol56] – uma interpretação da teoria das probabilidades que, pela sua simplicidade – apesar de requerer a teoria do integral de Lebesgue
– e eficácia, permitiu o extraordinário desenvolvimento desta teoria e das suas aplicações,
em particular, à estatı́stica. A obra de Kolmogorov é ainda hoje uma referência clássica
que importa conhecer. Uma apresentação com desenvolvimentos mais recentes da teoria
das probabilidades encontra-se na obra Probability de Albert Shiryaev – ver [Shi96] –
matemático Russo que sucedeu a Kolmogorov como professor no Instituto Steklov. Na
obra de William Feller (1906 – 1970), em dois volumes. An introduction to probability
theory and its applications – ver [Fel68] e [Fel71] – o leitor interessado encontrará uma
exposição das probabilidades rigorosa, técnicamente exigente mas muito próxima das
intuições originais.
A introdução à moderna teoria das probabilidades pode ser feita no inı́cio dos estudos universitários – logo após o estudo do cálculo diferencial; na unidade curricular
Probabilidades e Estatı́stica I 1 são apresentados os resultados principais necessários a
uma primeira abordagem da estatı́stica. Em particular, as leis dos grandes números e
o teorema do limite central – sem recorrer às funções caracterı́sticas – podem ser completamente estudados desde que se restrinja o estudo às variáveis aleatórias cujas leis
admitem função geradora de momentos.
Uma apresentação mais completa do modelo de Kolmogorov para a teoria das probabilidades requer a teoria do integral de Lebesgue. Na unidade curricular Medida
Integração e Probabilidades 2 são estudados os principais resultados destas teorias com
especial relevo para os teoremas de convergência, resultados estes de utilização constante.
Na sequência imediata do estudo inicial da teoria das probabilidades pode fazer-se o
estudo dos processos estocásticos. O livro de David Williams Probability with Martingales
– ver [Wil91] – contem, a par de uma apresentação completa mas muito expedita das
probabilidades, uma introdução a um dos principais exemplos de processos estocásticos,
1
2
Ver http://ferrari.dmat.fct.unl.pt/personal/mle/DocPrSt1/2011-2012/PE1-20112012.html
Ver na página http://ferrari.dmat.fct.unl.pt/personal/mle/DocMIP/1415/MIP-20142015.html
1
Capı́tulo I
Formalismo das Probabilidades
Secção: 2
as martingalas. Na unidade curricular Processos Estocásticos 3 são também estudados
outros exemplos de processos estocásticos tais como as cadeias de Markov e os processos
de Wiener e Poisson.
São muitos e por vezes muito profundos os desenvolvimentos mais actuais da teoria
das probabilidades. No livro Foundations of Modern Probability – ver [Kal02] – de Olav
Kallemberg pode ter-se uma ideia da variedade dos temas e resultados actuais da teoria
das probabilidades e das suas muitas extensões, em particular aos processos estocásticos.
2 O modelo das probabilidades segundo Kolmogorov
Nesta secção sumariamos os principais conceitos e resultados relativos ao modelo das
probabilidades de Kolmogorov. Para complementos de informação sobre esta secção
vejam-se as referências indicadas na secção introdutória.
Definição 1 (Espaço de Probabilidade). Um espaço de probabilidade é um trio
(Ω, A, P) em que:
1. Ω é um conjunto;
2. A ⊆ P é uma álgebra-σ;
3.
P é uma probabilidade definida sobre A.
Observação 1 (Interpretação de Kolmogorov). O conjunto Ω é o conjunto das realizações do fenómeno aleatório em estudo ou o conjunto dos estados do mundo. Um
elemento A ∈ A ⊆ P é um acontecimento, ou seja é um subconjunto do conjunto de
estados do mundo ou de realizações do fenómeno. A probabilidade P é uma medida definida em A tomando valores em [0, 1] e é tal que para cada A ∈ A se tem que P[A] ∈ [0, 1]
nos dá o grau de confiança na realização do acontecimento A.
Exemplo 1 (Espaço de Steinhauss). (Ver [MKAL12, p. 224]) Todo o espaço de
probabilidade – completo e sem átomos – é isomorfo ao espaço de probabilidade
([0, 1], L([0, 1]), λ) em que a álgebra-σ de Lebesgue L([0, 1]) é a álgebra-σ completada
de B([0, 1]) – que, por sua vez, é a álgebra-σ de Borel sobre [0, 1] – e λ é a medida
de Lebesgue sobre L([0, 1]).
Definição 2 (Variável aleatória). Uma função X definida em Ω e tomando valores
em R é uma variável aleatória se se verificar que:
∀B ∈ B([0, 1]) X −1 (B) := {ω ∈ Ω : X(ω) ∈ B} ∈ A .
As funções elementares que tomam apenas um número finito de valores – denominadas funções simples – são as funções que se podem representar como combinações
3
Ver http://ferrari.dmat.fct.unl.pt/personal/mle/DocPE/PE1314/PE 2013-2014.html
IME
2
11 de Novembro de 2015
Capı́tulo I
Formalismo das Probabilidades
Secção: 2
lineares de indicatrizes. As funções indicatrizes são funções simples que tomam apenas
os valores 0 e 1. Estas funções mostram que existem muitos exemplos e contra-exemplos
de variáveis aleatórias.
Exemplo 2 (Funções indicatrizes). Dado A ⊆ P(Ω) a função indicatriz de A
definida por:
(
1 se ω ∈ A
1IA (ω) =
(1)
0 se ω ∈ Ω \ A ,
é uma variável aleatória se e só se A ∈ A.
Um resultado notável, com consequências para a definição do integral de Lebesgue,
é que todas as variáveis aleatórias podem representar-se como limite pontual – isto é, na
convergência simples ou pontual – de uma sucessão de funções simples.
Teorema 1 (Teorema de Lebesgue: aproximação por funções simples). Seja X ≥ 0
uma variável aleatória. Então a sucessão (sX
n )n≥1 definida por:
sX
n (ω)
=
n −1
n2
X
k=0
k n
o (ω) + n1I
1I
X≥n (ω)
2n 2kn ≤X< k+1
2n
(2)
é uma sucessão crescente de funções simples mensuráveis não negativas que converge
pontualmente – ou simplesmente – para X.
Observação 2. Se a variável aleatória X ≥ 0 for limitada então a convergência é uniforme.
Para uma variável aleatória não necessariamente não negativa considera-se a decomposição de X nas suas partes positiva X + e e parte negativa X − tais que X = X + − X − ,
definidas por
X + = max (X, 0) =
|X| + X
|X| − X
e X − = max (−X, 0) =
,
2
2
(3)
e aplicando o teorema a cada uma dessas partes obtém-se uma sucessão de funções
simples mensuráveis que converge pontualmente para X.
Observação 3. Uma variável aleatória X tomando valores em Rd pode considerar-se
como um d-uplo de variáveis aleatórias tomando valores em R bastando para tal considerar as coordenadas de X, por exemplo, na base canónica de Rd . Assim, X =
(X1 , X2 , . . . Xd ) : Ω 7→ Rd é uma variável aleatória se e só se
∀j = 1, 2, . . . , d ∀B ∈ B([0, 1]) Xj−1 (B) ∈ A.
Tal como para o caso univariado, está aqui implı́cito que a álgebra-σ sobre Rd é B(Rd )
a álgebra-σ de Borel sobre Rd , isto é, a álgebra-σ gerada pela topologia usual sobre Rd .
Ou seja, B(Rd ) é a álgebra-σ produto de d cópias de B(R).
Para o conhecimento de uma variável aleatória não importa tanto a representação
analı́tica desta ou até a descrição da corrrespondência que a um ponto do conjunto de
IME
3
11 de Novembro de 2015
Capı́tulo I
Formalismo das Probabilidades
Secção: 2
partida associa a imagem deste ponto no conjunto de chegada; antes, é crucial conhecer
a distribuição dos valores da variável aleatória.
Definição 3 (Lei de uma variável aleatória). Seja X uma variável aleatória com
valores em R. A lei ou distribuição de X é a medida de probabilidade LX definida
em B(R), a álgebra-σ de Borel sobre R, por:
∀B ∈ B(R) , LX (B) = P X −1 (B) .
Observação 4. Na especificação dos modelos estatı́sticos por meio de variáveis aleatórias
é usualmente especificada a lei ou distribuição da variável aleatória sendo irrelevante o
espaço de probabilidade em que a variável aleatória está definida. Dada uma medida de
probabilidade sobre (R, B(R)) existe sempre um espaço de probabilidade e uma variável
aleatória cuja lei coincide com essa medida de probabilidade dada (veja-se, por exemplo,
[Wil91, p. 34]).
A integração de uma função mensurável – de sinal constante – relativamente a uma
medida de probabilidade é sempre possı́vel no quadro do integral de Lebesgue. Tal
como no caso do integral de Riemann, o integral de Lebesgue é um funcional linear
contı́nuo só que os domı́nios de definição naturais deste funcional são espaços de Banach
– espaços vectoriais normados completos – de funções mensuráveis. A definição seguinte
vai introduzindo as diferentes propriedades pretendidas para o integral de Lebesgue,
alargando progressivamente o domı́nio de definição deste integral.
Definição 4 (Integral de Lebesgue – I). Seja (Ω, A, P) um espaço de probabilidade.
1. Seja 1IA com A ∈ A uma função indicatriz mensurável (veja-se o exemplo 2).
Então:
Z
1IA dP := P[A] ∈ [0, 1] ;
Ω
Pm
2. Seja s = k=1 αk 1IAk com Ak ∈ A e αk ≥ 0 uma função simples mensurável
positiva. Então:
!
Z
Z
m
m
X
X
sdP =
αk 1IAk dP :=
αk P [Ak ] ∈ [0, +∞[ ;
Ω
Ω
k=1
k=1
3. Seja X : Ω 7→ [0, ∞] uma variável aleatória. Então:
Z
Z
XdP = sup
sdP : s simples mensurável, 0 ≤ s ≤ X ∈ [0, +∞].
Ω
Ω
Com a definição 4, o integral de Lebesgue já tem propriedades de continuidade
notáveis atestadas pela proposição 1 a seguir. Versões plenas de resultados de continuidade do integral de Lebesgue são dadas pelos teoremas de convergência: lema de Fatou,
teorema da convergência monótona de Lebesgue e teorema da convergência monótona
de Lebesgue.
IME
4
11 de Novembro de 2015
Capı́tulo I
Formalismo das Probabilidades
Secção: 2
Proposição 1 (Integral de Lebesgue – II). Seja X ≥ 0 uma variável aleatória e
seja (sm )m≥1 a sucessão crescente de funções simples mensuráveis positivas dadas
pelo teorema 1. Então:
Z
Z
XdP = lim
sm dP .
m→+∞ Ω
Ω
Contrastando com o que ocorre para as funções mensuráveis não negativas, o integral
de Lebesgue de funções mensuráveis com sinal qualquer só existe – e nesse caso é um
número real – quando estas funções são integráveis.
Definição 5 (Integral de Lebesgue – III). Seja X uma variável aleatória. Sejam X +
e X − as partes positiva e negativa, respectivamente, definidas acima nas fórmulas 3
da observação 2. X é integrável se e só se
Z
Z
X − dP < +∞ ,
X + dP < +∞ e
Ω
Ω
e neste caso o integral de Lebesgue de X é dado por:
Z
Z
Z
+
XdP :=
X dP −
X − dP .
Ω
Ω
Ω
Observação 5. Na prática, os integrais de Lebesgue que se calculam são aqueles que
coincidem com o integral de Riemann no caso das funções ou variáveis aleatórias que
são Riemann integráveis. O resultado de integração relativamente à lei de probabilidade
– que é implicitamente referido na definição 7 adiante – justifica esta prática. Também
se calculam os integrais de combinações lineares de medidas de Dirac que mais não são
que somas finitas.
Observação 6 (Leis definidas por densidades). As leis contı́nuas mais usadas na prática
são definidas por densidades – relativamente à medida de Lebesgue – ou seja por
funções f : R 7→ R+ = [0, +∞[ tais que:
1. f é mensurável, isto é:
∀B ∈ B(R) f −1 (B) ∈ B(R) ;
2. o integral de Lebesgue de f sobre
R vale um, ou seja,
Z
R
Então Lf definida por:
f dλ = 1 .
∀B ∈ B(R) Lf (B) =
Z
f dλ ,
B
é uma medida de probabilidade que, em consequência, define uma lei de probabilidade.
IME
5
11 de Novembro de 2015
Capı́tulo I
Formalismo das Probabilidades
Secção: 2
Exemplo 3 (Lei normal). Seja X uma variável aleatória cuja lei é definida pela
µ,σ 2
densidade fX
, dada por:
!
1
(x − µ)2
µ,σ 2
fX (x) = √
exp −
,
2σ 2
2πσ 2
isto é tal que
∀B ∈ B(R) LX (B) =
Z
B
2
µ,σ
fX
dλ .
Então X tem distribuição normal de parâmetros µ – a média – e σ 2 – a variância
– o que representamos por X _ N(µ, σ 2 ).
A distribuição dos valores tomados por uma variável aleatória pode ser completamente descrita pela sua função de distribuição.
Definição 6 (Função de Distribuição). Seja X uma variável aleatória com lei de
probabilidade LX . Então FX : R 7→ [0, 1] a função de distribução de X é definida
por
FX (x) = LX (] − ∞, x]) = P X −1 (] − ∞, x] ) = P [X ≤ x]] .
Observação 7 (Funções de distribuição de leis definidas por densidades). Atendendo à
observação 6 e à definição 6, a função de distribuição de uma variável aleatória X cuja
lei admita uma densidade fX , que seja Riemann integrável é dada por:
Z
Z x
FX (x) = P [X ≤ x] =
fX dλ =
fX (t)dt ,
−∞
]−∞,x]
fórmula que é conhecida de estudos anteriores.
Proposição 2 (Caracterização das funções de distribuição). Uma função de distribuição FX de uma variável aleatória X verifica as seguintes propriedades.
1. FX é crescente (x ≤ y ⇒ FX (x) ≤ FX (y)).
2. FX é contı́nua à direita (limh→0,h>0 FX (x + h) = FX (x)).
3. Tem-se os seguintes limites
lim FX (x) = 0 e
x→−∞
lim FX (x) = 1 .
x→+∞
Reciprocamente, para cada função F : R 7→ [0, 1] verificando as três propriedades
acima, existe um espaço de probabilidade e uma variável aleatória X definida nesse
espaço, com função de distribuição FX tal que F ≡ FX (isto é, tal que para qualquer
x ∈ R se tenha que F (x) = FX (x)).
IME
6
11 de Novembro de 2015
Capı́tulo I
Formalismo das Probabilidades
Secção: 3
O integral de Lebesgue de funções mensuráveis positivas – ou de funções integráveis
– permite a definição de operadores lineares importantes definidos sobre os espaços de
variáveis aleatórias. Um desses operadores é o valor esperado.
Definição 7 (Valor Esperado). Seja X uma variável aleatória. E[X], o valor
esperado de X é, quando os integrais a seguir existam como valores em R,
Z
Z
Z
Z +∞
E[X] = XdP = xdLX (x) = xfX (x)dλ(x) =
xfX (x)dx ,
R
Ω
R
−∞
e, no caso em que a lei de X admite a densidade fX relativamente à medida de
Lebesgue que seja Riemann integrável.
Observação 8. Pode acontecer que para variáveis aleatórias relevantes para a modelação
estatı́stica o valor esperado não exista porque os integrais acima ou não estão definidos
ou não são finitos; é o caso das variáveis aleatórias com lei de Cauchy.
3 Leis dos grandes números
As leis dos grandes números são resultados essenciais na teoria das probabilidades e da
estatı́stica. A lei fraca recorre à convergência em probabilidade e a lei forte à convergência
quase certa. O contexto em que vamos prosseguir é dado por um espaço de probabilidade
(Ω, A, P).
A definição formal da convergência em probabilidade é a seguinte.
Definição 8 (Convergência em probabilidade). Seja (Xn )n≥1 uma sucessão de
variáveis aleatórias definidas sobre (Ω, A). A sucessão converge em probabilidade
para uma variável aleatória X∞ – e escrevemos limn→+∞ Xn =Prob. X∞ – se e só se:
∀ > 0 lim
n→+∞
P [|Xn − X∞| ≥ ] = 0 .
(4)
A desigualdade seguinte descreve o comportamento de cauda – tail behaviour – de
uma variável aleatória integrável.
Proposição 3 (Desigualdade de Tchebyshev). Seja X ≥ 0 uma variável aleatória
tal que E[X] < +∞. Tem-se então que:
∀ > 0
P [X ≥ ] ≤ E[X]
.
(5)
Demonstração. Com efeito tem-se, em resultado das propriedades de monotonia do integral de Lebesgue, que:
Z
Z
Z
XdP ≥
XdP ≥ dP = · P [X ≥ ] ,
+∞ > E[X] =
Ω
{X≥}
{X≥}
o que demonstra o resultado anunciado.
IME
7
11 de Novembro de 2015
Capı́tulo I
Formalismo das Probabilidades
Secção: 3
Teorema 2 (Lei fraca dos grandes números). Seja X uma variável aleatória tal que
E[X 2] < +∞. Seja X = (X1, X2, . . . Xm, . . . ) uma amostra de X. Tem-se então
que:
m
1 X
lim
Xj =Prob. E[X] .
m→+∞ m
j=1
Demonstração. Resulta da desigualdade de Tchebychev na proposição 3. Note-se que
podemos supor, sem perda de generalidade que E[X] = 0. Com efeito, se for para cada
0 = X − E[X] tem-se que (X 0 , X 0 , . . . X 0 , . . . ) é uma amostra
m ≥ 1 por definição Xm
m
m
1
2
de X 0 = X − E[X] e E[X 0 ] = 0. Tem-se que para qualquer > 0 que,




2

2 
m
m
m
X
X
X
1
1
P  m Xj ≥  = P  Xj  ≥ m22 ≤ m22 E  Xj   .
j=1
j=1
Agora como

2 

m
m
X
X
E  Xj   = E  Xj2 +
j=1
j=1
m
X
j=1

Xi Xj  =
m
X
j=1
i,j=1,i6=j
m
X
E[X 2] +
i,j
distintos
E[XiXj ] ,
i,j=1
e, pela independência, E[Xi Xj ] = E[Xi ]E[Xj ] = 0, tem-se que:


m
X
[X 2 ]
1
,
P  m Xj ≥  ≤ m122 mE[X 2] =≤ Em
2
j=1
o que pela fórmula (4) da definição 8, conduz à conclusão pretendida.
Observação 9. A lei fraca é válida com a hipótese mais menos restritiva E[|X|] < +∞; é
um resultado que se deve a Aleksandr Khintchin (1894–1959) . A demonstração baseia-se
num processo de truncatura das variáveis aleatórias (veja-se [Res99, p. 205]).
Definição 9 (Convergência quase certa). Seja (Xn )n≥1 uma sucessão de variáveis
aleatórias definidas sobre (Ω, A). A sucessão converge quase certamente para
uma variável aleatória X∞ – e escrevemos limn→+∞ Xn =q.c. X∞ – se e só se:
∃Ω1 ∈ A
P[Ω \ Ω1] = 0
∀ω ∈ Ω1 lim X( ω) = X∞ (ω) .
n→+∞
(6)
Teorema 3 (Lei forte dos Grandes Números de Kolmogorov). Seja X e uma
variável aleatória tal que E[|X|] < +∞. Seja X = (Xm )m≥1 uma sucessão de
veriáveis aleatórias independentes e com a mesma distribuição que X. Então, temse que quase certamente,
m
1 X
Xj = E[X] .
lim
m→+∞ m
(7)
j=1
IME
8
11 de Novembro de 2015
Capı́tulo I
Formalismo das Probabilidades
Secção: 3
Demonstração. A demonstração deste e de outros casos mais gerais pode ser vista
em [Kal02, p. 73]. Vamos considerar o caso em que as variáveis aleatórias da sucessão (Xn )n≥1 são independentes – não tendo que ser equidistribuı́das – e tais que
E[Xn4 ] ≤ K < +∞ para K constante e independente de n ≥ 1 (veja-se [Wil91, p. 72]).
Tal como no caso da lei fraca podemos supor que E[X] = 0 (veja-se o exercı́cio 12).
Note-se que:
(
m
X
m
X
4
Xj ) =
j=1
+
distintos
Xi2 Xj2 +
i,j=1,
Xi4
j=1
m
X
i,j,k,l=1
m
X
i,j
Xi Xj Xk Xl =
m
X
i,j
distintos
m
X
+
i,j,k
distintos
Xi3 Xj +
i,j=1,
i,j,k,l
Xi2 Xj Xk +
i,j,k=1
m
X
distintos
Xi Xj Xk Xl ,
i,j,k,l=1
mas que se tem que, pela independência – e porque as variáveis são centradas – que,
para i, j, k, l distintos:
E [XiXj Xk Xl ] = E Xi2Xj Xk = E Xi3Xj = 0 .
Logo, com os mesmos argumentos que usámos na demonstração da lei fraca, tem-se
também que

4 
m
m
m
X
X
X
E  Xj   = E[X 4] +
j=1
j=1
E[Xi2]E[Xj2] ≤ mK + 3m(m − 1)K ≤ 3Km2 ,
(8)
i,j=1
q
p
√
uma vez que pela desiguladade de Cauchy-Schwarz E[Xj2 ] ≤ P[Ω] E[Xj4 ] ≤ K e
que, para obter a soma mais à direita temos que escolher de entre 4 possı́veis, 2 a 2 e
cada um desses temos escolher entre m possı́veis, logo,
4 m
4!
m!
=
= 3m(m − 1) .
2
2
2!2! 2!(m − 2)!
Em consequência da fórmula 8 temos que:

E
p
X
m=1
Pm
j=1 Xj
m

4 
!4 
p
p
m
X
X
X
3K
π2
1
=



E
X
≤
≤
3K
< +∞
j
m4
m2
6
m=1
j=1
m=1
Pelo que, pelo teorema da convergência monótona e pelas
do integral de
Pmpropriedades
4
4
Lebesgue, se tem que a série de termo geral ((1/m )( j=1 Xj ) )m≥1 converge quase
certamente e, por isso, o seu termo geral tende para zero quase certamente, ou seja,
m
1 X
Xj =q.c. 0 ,
m→+∞ m
lim
j=1
tal como no enunciado se afirma.
IME
9
11 de Novembro de 2015
Capı́tulo I
Formalismo das Probabilidades
Secção: 4
Observação 10. A conclusão do teorema pode interpretar-se deste modo. Existe Ω1 ⊂ Ω
tal que P[Ω \ Ω1 ] = 0 e tal que:
m
∀ω ∈ Ω1
1 X
lim
Xj (ω) = E[X] ,
m→+∞ m
j=1
ou seja se a = (a1 , a2 , . . . , an , . . . ) for a realização genérica de
verifica Xj (ω) = aj , então com probabilidade um,
X tal que para j ≥ 1 se
m
1 X
aj = E[X] .
m→+∞ m
lim
j=1
Esta interpretação é da maior importância em Estatı́stica.
4 Um teorema do limite central
O teorema do limite central recorre ainda a um outro tipo de convergência de variáveis
aleatórias: a convergência em distribuição. Numa primeira aproximação, uma sucessão
de variáveis aleatórias converge em distribuição se as correspondentes funções de distribuição convergem; dado que num ponto de discontinuidade da função de distribuição
limite pode não haver convergência (veja-se o exemplo em [Wil91, p. 180]), tem-se a
definição seguinte.
Definição 10 (Convergência em distribuição). Seja (Xm )m≥1 uma sucessão de
variáveis aleatórias e (FXm )m≥1 a sucessão das correspondentes funções de distribuição. A sucessão (Xm )m≥1 converge em distribuição para a variável aleatória
X∞ – e escrevemos limm→+∞ Xm =Distrib. X∞ – se e só se para todo o ponto de
continuidade x de FX∞
lim FXm (x) = FX∞ (x) .
m→+∞
A convergência em distribuição é também a convergência fraca das leis de probabilidade das variáveis aleatórias (veja-se [Wil91, p. 182]).
Proposição 4 (Critérios de convergência em distribuição). Uma sucessão (Xm )m≥1
de variáveis aleatórias converge em distribuição para a variável aleatória X∞ se e
só se uma das seguintes propriedades equivalentes se verifica:
1. Qualquer que seja h função contı́nua e limitada h:
lim
m→+∞
E [h(Xm)] = E [h(X∞)] .
2. Qualquer que seja h função de Lipschitz h, isto é tal que para x, y ∈
|h(x) − h(y)| ≤ K |x − y| para K > 0 constante, se tenha:
lim
n→+∞
IME
R seja
E [h(Xm)] = E [h(X∞)] .
10
11 de Novembro de 2015
Capı́tulo I
Formalismo das Probabilidades
Secção: 5
A proposição seguinte mostra como se podem deduzir outros resultados de convergência de sucessões de variáveis aleatórias.
Proposição 5 (Propriedades das convergências). Sejam (Xm )m≥1 e (Ym )m≥1 sucessões de variáveis aleatórias. Se se verificar que,
lim Xm =Distrib. X∞ e
m→+∞
lim Ym =Prob. c ∈ R ,
m→+∞
então,
lim (Xm + Ym ) =Distrib. X∞ + c
m→+∞
lim Xm Ym =Distrib. X∞ c .
m→+∞
O resultado seguinte é importante em Estatı́stica, nomeadamente para estabelecer o
método delta (ver, por exemplo, [Res99, p. 268]).
Teorema 4 (Teorema de Slutsky). Sejam (Xm )m≥1 e (Ym )m≥1 sucessões de
variáveis aleatórias tais que:
lim Xm =Distrib. X∞ e
m→+∞
lim Xm − Ym =Prob. 0 .
m→+∞
Então,
lim Ym =Distrib. X∞ .
m→+∞
Apresentamos seguidamente uma versão simples to teorema do limite central que
servirá para fundamentar alguns resultados importantes a seguir (para a demosntração
que requer as funções caracterı́sticas, veja-se [Wil91, p. 189] ou [Shi96, p. 308] ou ainda
[Res99, p. 293]).
Teorema 5 (Teorema do Limite Central para variáveis aleatórias IID). Seja
(Xm )m≥1 uma sucessão de variáveis aleatórias independentes e identicamente distribuı́das, tais que
E[X] = 0 e V[X] = σ2 < +∞ .
Então sendo Z _ N(0, 1) tem-se que
lim
m→+∞
1
√
σ m
(X1 + X2 + · · · + Xm ) =Distrib. Z .
(9)
Observação 11. Pode exprimir-se a fórmula (9) do teorema 5 recorrendo às funções de
distribuição das variáveis aleatórias intervenientes. Com efeito, tem-se que
Z x
t2
X1 + X2 + · · · + Xm
1
√
lim P
≤x = √
e− 2 dt
m→+∞
σ m
2π 0
é a conclusão do teorema do limite central.
IME
11
11 de Novembro de 2015
Capı́tulo I
Formalismo das Probabilidades
Secção: 5
5 Exercı́cios
5.1 Revisões sobre o modelo de Kolmogorov
Os exercı́cios desta secção têm por objectivo relembrar os principais conceitos relativos
ao integral de Lebesgue e ao modelo de Kolmogorov das probabilidades.
Exercı́cio 1 (As Funções Indicatrizes). Demonstre a asserção sobre a mensurabilidade das funções
indicatrizes do exemplo 2.
[1]
Exercı́cio 2 (As Funções Simples). Mostre que toda a função simples – isto é, toda a função tomando
apenas um número finito de valores – mensurável pode representar-se como combinação linear, com os
coeficientes todos distintos, de conjuntos, disjuntos dois a dois e mensuráveis. Uma tal representação –
que é única a menos da ordenação dos coeficientes – denomina-se representação canónica.
[1]
Exercı́cio 3 (Lei de uma variável aleatória). Mostre que a lei de uma variável aleatória definida na
definição 3 é uma medida de probabilidade.
[1]
Exercı́cio 4 (Existência de variáveis com leis dadas). Mostre que dada uma medida de probabilidade L
sobre ( , B( )) existe sempre um espaço de probabilidade e uma variável aleatória X sobre esse espaço
de probabilidade cuja lei LX coincide com essa medida de probabilidade dada.
[1]
Exercı́cio 5 (Aproximação por funções simples). Seja X uma variável aleatória tomando valores reais.
[2]
R
R
1. Mostre que existe uma sucessão de funções simples mensuraávie que converge pontualmente para
X.
2. Mostre que se X for limitada, então a sucessão de funções simples construı́da na alı́nea anterior
converge uniformemente para X.
Exercı́cio 6 (Integrais de Lebesgue e de Riemann). Seja f : [a, b] ⊂
contı́nua 4 .
R 7→ R uma função limitada e
[3]
1. Mostre que f é uniformemente contı́nua sobre [a, b].
n
n
2. Mostre que se para cada n ≥ 1 for a = xn
0 < x1 < · · · < xpn = b uma partição de [a, b] então
tem-se que se definirmos
pn −1
X
fn (x) =
f (ξk )1I[xn ,xn [ (x)
k+1
k
k=0
n
[xn
k , xk+1 [
em que ξk ∈
arbitrário mas fixo, então (fn )n≥1 é uma sucessão de funções simples
mensuráveis – em escada, isto é, constantes por intervalos – que converge uniformemente para f
sobre [a, b].
3. Mostre que f é Lebesgue integrável sobre [a, b] e que o integral de Lebesgue de f sobre [a, b] coincide
com o integral de Riemann de f sobre [a, b].
Exercı́cio 7 (Continuidade do Integral de Lebegue). Demonstre a proposição 1.
[2]
Exercı́cio 8 (Integral do módulo de uma variável aleatória). Mostre que a variável aleatória X, é
integrável se e só se a variável aleatória |X| for integrável.
[1]
IME
12
11 de Novembro de 2015
Capı́tulo I
Formalismo das Probabilidades
Secção: 5
Exercı́cio 9 (Integração relativamente à lei de probabilidade). Seja X uma variável aleatória integrável
e LX a lei de probabilidade de X. Mostre, aplicando os passos das definições 4 e 5, que:
Z
Z
Xd =
xdLX (x) .
P
Ω
[2]
R
Exercı́cio 10 (Propriedades das Funções de Distribuição). Demonstre a proposição 2.
[2]
Exercı́cio 11 (Limite quase certo de variáveis aleatórias). Seja (Xn )n≥1 uma sucessão de variáveis
aleatórias definidas sobre (Ω, A) e tomando valores reais.
[2]
1. Mostre que se a sucessão (Xn )n≥1 converge pontualmente – ou simplesmente – para uma função
X∞ : Ω 7→
então X∞ é uma variável aleatória.
R
2. Mostre que se a sucessão (Xn )n≥1 converge quase certamente sobre (Ω, A), isto é, se quase certamente:
lim sup Xn = lim inf Xn ,
m→+∞
m→+∞
então existe X∞ : Ω 7→
R variável aleatória tal que (Xn )n≥1 converge quase certamente para X∞ .
Exercı́cio 12 (Independência e transladação de variáveis integráveis). Seja (Xn )n≥1 uma sucessão de
variáveis aleatórias independentes e tais que para n ≥ 1 e p ≥ 1, se tenha [|Xn |p ] < +∞. Mostre que
se definirmos (Xn0 )n≥1 em que Xn0 := Xn − [Xn ] se tem que (Xn0 )n≥1 é uma sucessão de variáveis
p
aleatórias independentes e tais que para n ≥ 1 e p ≥ 1, se tenha também [|Xn0 | ] < +∞.
[2]
Exercı́cio 13 (Desigualdade de Cauchy-Schwarz). Sejam X, Y variáveis aleatórias de quadrado integrável, isto é, tais que [X 2 ] < +∞ e [Y 2 ] < +∞.
[1]
E
E
E
E
E
1. Considerando a variável aleatória λ |X| − |Y |, mostre que para qualquer λ ∈
E
E
0 ≤ λ2 [X 2 ] − 2λ [|X · Y |] +
R se tem que:
E[Y 2 ] .
2. Conclua que se verifica a desigualdade de Cauchy-Schwarz:
p
p
| [X · Y ]| ≤ [|X · Y |] ≤
[X 2 ] ·
[Y 2 ] .
E
E
E
E
3. Mostre aplicando a desiguladade de Cauchy-Schwarz ao produto 1IΩ · X 2 que se se tiver
+∞ então,
[X 2 ]2 ≤ [X 4 ] .
E
E[X 4 ] <
E
Exercı́cio 14 (A convergência quase certa implica a convergência em probabilidade). Seja (Xn )n∈N
convergindo quase certamente para X. Então, (Xn )n∈N converge em probabilidade para X, isto é:
[3]
q.c.
pr.
Xn −−−−−→ X ⇒ Xn −−−−−→ X .
n→+∞
n→+∞
Exercı́cio 15 (A convergência em probabilidade NÃO implica a convergência quase certa). Seja uma
sucessão de variáveis aleatórias independentes (Xn )n∈N verificando:
∀n ∈ N P[Xn = 1] =
1
1
, P[Xn = 0] = 1 − .
n
n
1. Mostre que a sucessão converge para X ≡ 0 em probabilidade.
2. Mostre que a sucessão não converge quase certamente.
IME
13
11 de Novembro de 2015
[2]
Capı́tulo I
Formalismo das Probabilidades
Secção: 6
Exercı́cio 16 (Conjuntos de probabibilidade arbitrariamente pequena). Mostre que se X for finita P
quase certamente verifica-se que:
∀δ > 0 ∃Aδ > 0 P[|X| > Aδ ] ≤ δ ,
(10)
Exercı́cio 17 (Propriedades da convergência em probabilidade). Sejam (Xn )n∈N e (Yn )n∈N convergindo em probabilidade para duas variáveis aleatórias X e Y , respectivamente, variáveis finitas P quase
certamente. Seja ϕ : R −→ R uma função contı́nua. Então:
1. A sucessão (Xn + Yn )n∈N converge em probabilidade para X + Y .
2. A sucessão (ϕ(Xn ))n∈N converge em probabilidade para ϕ(X).
3. A sucessão (Xn · Yn )n∈N converge em probabilidade para X · Y .
6 Resoluções
Resolução:[Exercı́cio 14] A hipótese pode ser expressa escrevendo que há convergência
pontual da sucessão de funções mensuráveis (Xn )n∈N para a função mensurável X salvo,
0
talvez, num conjunto de probabilidade nula. Ou seja, tem-se para um dado Ω :
0
0
Ω := ω ∈ Ω : lim inf Xn (ω) = X(ω) = lim sup Xn (ω) ∈ A, P[Ω ] = 1 .
n→+∞
n→+∞
Seja > 0 fixo. Pela definição;
0
∀ω ∈ Ω ∃n ∈ N ∀m ≥ n |Xn (ω) − Xn (ω)| ≤ o que implica.
0
Ω ⊂
[ \
{|Xm − Xn | ≤ } = lim inf {|Xm − Xn | ≤ } ,
n→+∞
n∈N m≥n
ou passando aos complementares pelas leis de Morgan,
0
lim sup {|Xm − Xn | > } ⊂ (Ω )c .
n→+∞
Em consequência do lema de Fatou inverso (veja-se a página ??) pode afirmar-se que:
0 ≤ lim inf P [{|Xm − Xn | > }] ≤ lim sup P [{|Xm − Xn | > }] ≤
n→+∞
n→+∞
0
≤ P lim sup {|Xm − Xn | > } ≤ P[(Ω )c ] = 0 ,
n→+∞
o que implica limn→+∞ P[{|Xm − Xn | > }] = 0, como pretendı́amos demonstrar.
♦
Resolução:[Exercı́cio 15] Com efeito, para > 0 se tem que P[| Xn |> ] = P[Xn =
1] = 1/n. Para verificarmos que a sucessão indicada não converge quase certamente
4
O resultado permanece válido se se verificar apenas que o conjunto de pontos de discontinuidade de
f tem medida de Lebesgue nula.
IME
14
[1]
11 de Novembro de 2015
[2]
Capı́tulo I
Formalismo das Probabilidades
Secção: 6
apliquemos o lema de Borel-Cantelli. Observe-se que se, para n ∈ N considerarmos o
acontecimento An := {X
= 1} tem-seP
que (An )n∈N é uma sucessão de acontecimentos
Pn+∞
independentes tal que n=1 P[An ] = +∞
n=1 (1/n) = +∞. Por Borel-Cantelli deduz-se
que P[lim supn→+∞ An ] = 1 ou seja:




+∞
+∞
\ [
\ [
{Xm = 1} = 1 .
Am  = P 
P
n=1 m≥n
n=1 m≥n
0
0
0
Quer isto dizer que se pode considerar Ω ∈ A tal que P[Ω\Ω ] = 0 e tal que para ω ∈ Ω ,
se tem ω ∈ ∩+∞
n=1 ∪m≥n {Xm = 1}, ou ainda:
0
∀ω ∈ Ω ∀n ∈ N ∃mn (ω) ≥ n Xmn (ω) = 1 ,
existindo assim uma subsucessão (Xmn (ω))n∈N de (Xn (ω))n∈N que admite 1 como limite. Do mesmo modo, considerando os acontecimentos definidos para cada n ∈ N por
Bn := {Xn = 0} se pode inferir a existência de uma outra subsucessão (Xln (ω))n∈N de
00
00
(Xn (ω))n∈N que admite 0 como limite para ω ∈ Ω ∈ A e tal que P[Ω\Ω ] = 0. Suponhamos que a sucessão de variáveis aleatórias (Xmn )n∈N era convergente P quase certamente.
0
00
Então, para cada ω pertencente a um conjunto de probabilidade plena (no caso Ω ∩ Ω ,
por exemplo) verificar-se-ia que a sucessão (Xmn (ω))n∈N seria uma sucessão numérica
convergente. Mas isso é impossı́vel porque uma sucessão numérica convergente não pode
admitir duas subsucessões numéricas distintas (no caso, (Xmn (ω))n∈N e (Xln (ω))n∈N )
para dois números distintos (no caso, 1 e 0, respectivamente).
♦
Resolução:[Exercı́cio 16] É suficiente considerar os conjuntos Bn := {|X| ≥ n} para
n ∈ N. Verifica-se imediatamente que a sucessão (Bn )n∈N é uma sucessão decrescente
de conjuntos mensuráveis pelo que:
lim Bn =
n→+∞
+∞
\
Bn = {|X| = +∞} .
n=1
Em consequência, pela popriedade de continuidade inferior da medida:
0 = P[|X| = +∞] = P lim Bn = lim P [Bn ] = lim P [|X| ≥ n] .
n→+∞
n→+∞
n→+∞
A igualdade entre o primeiro e o último termo desta cadeia de igualdades garante o
resultado enunciado no lema.
♦
Resolução:[Exercı́cio 17] A primeira propriedade resulta de uma observação simples.
0
0
0
Considere-se Ω ∈ A tal que, sobre Ω X e Y são finitas e P[Ω ] = 1. Como, para cada
0
ω∈Ω,
|(Xn (ω) + Yn (ω)) − (X(ω) + Y (ω)| ≤ |Xn (ω) − X(ω)| + |Yn (ω) − Y (ω)| ,
IME
15
11 de Novembro de 2015
Capı́tulo I
Formalismo das Probabilidades
Secção: 6
tem-se que para qualquer > 0 que
n
o
o n
0
0
∩ ω ∈ Ω : |Yn (ω) − Y (ω)| ≤
⊂
ω ∈ Ω : |Xn (ω) − X(ω)| ≤
2
2
n
o
0
⊂ ω ∈ Ω : |(Xn (ω) + Yn (ω)) − (X(ω) + Y (ω))| ≤ ,
0
pelo que, pelas leis de Morgan, pela subaditividade da medida e pela condição sobre Ω ,
se tem que:
P [|(Xn + Yn ) − (X + Y )| > ] ≤ P [|Xn − X| > ] + P [|Yn − Y | > ] ,
desigualdade que implica o resultado anunciado. A segunda propriedade é muito importante. Para maior simplicidade da demonstração que vai seguir-se supomos que
X toma valores em R, sendo assim finita P quase certamente. A tı́tulo de exercı́cio,
o leitor deverá redigir a demostração no caso geral do enunciado. De acordo com o
exercı́cio 16, no caso em que X é finita quase certamente, o conjunto em que X não é
limitada tem uma probabilidade arbitrariamente pequena. Assim, fixe-se δ > 0. Vamos
mostrar limn→+∞ P [|ϕ(Xn ) − ϕ(X)| > δ] = 0. Seja agora > 0 qualquer e A/2 > 0
dado pela fórmula (10) do exercı́cio 16 acima. Considere-se o intervalo fechado limitado
[−2A/2 , 2A/2 ]. A restrição de ϕ, função contı́nua, a este compacto é uniformemente
contı́nua pelo que:
∃η > 0, η ≤ A/2 ∀x, y ∈ [−2A/2 , 2A/2 ] |x − y| ≤ η ⇒ |ϕ(x) − ϕ(y)| ≤ δ .
Em consequência de se ter,
∀ω ∈ Ω ||Xn (ω)| − |X(ω)|| ≤ |Xn (ω) − X(ω)| ,
vem que para |X(ω)| ≤ A/2 que |Xn (ω)| ≤ |X(ω)| + η ≤ 2A/2 e por isso verifica-se que
{|X| ≤ A/2 } ∩ {|Xn − X| ≤ η} ⊂ {|ϕ(Xn ) − ϕ(X)| ≤ δ} ,
ou seja, pelas leis de Morgan que
{|ϕ(Xn ) − ϕ(X)| > δ} ⊂ {|X| > A/2 } ∪ {|Xn − X| > η} .
Considere-se agora n0 ∈ N tal que para n ≥ n0 se verifica que P[|Xn − X| > η] ≤ /2.
Vem então que para n ≥ n0
P [|ϕ(Xn ) − ϕ(X)| > δ] ≤ P |X| > A/2 + P [|Xn − X| > η] ≤ + = ,
2 2
tal como se pretendia demonstrar. A terceira propriedade resulta de se ter que:
Xn · Yn =
1
(Xn + Yn )2 − Xn2 − Yn2 .
2
e das duas primeiras propriedades demonstradas.
IME
16
♦
11 de Novembro de 2015
Capı́tulo I
Formalismo das Probabilidades
Secção: 6
Referências
[Fel68]
William Feller. An introduction to probability theory and its applications.
Vol. I. Third edition. John Wiley & Sons Inc., New York, 1968.
[Fel71]
William Feller. An introduction to probability theory and its applications.
Vol. II. Second edition. John Wiley & Sons Inc., New York, 1971.
[Kal02]
Olav Kallenberg. Foundations of modern probability. Probability and its
Applications (New York). Springer-Verlag, New York, second edition, 2002.
[Kol56]
A. N. Kolmogorov. Foundations of the theory of probability. Chelsea Publishing Co., New York, 1956. Translation edited by Nathan Morrison, with
an added bibliography by A. T. Bharucha-Reid.
[MKAL12] P. Malliavin, L. Kay, H. Airault, and G. Letac. Integration and Probability.
Graduate Texts in Mathematics. Springer New York, 2012.
[Res99]
Sidney I. Resnick. A probability path. Birkhäuser Boston Inc., Boston, MA,
1999.
[Shi96]
A. N. Shiryaev. Probability, volume 95 of Graduate Texts in Mathematics.
Springer-Verlag, New York, second edition, 1996. Translated from the first
(1980) Russian edition by R. P. Boas.
[Wil91]
David Williams. Probability with martingales. Cambridge Mathematical
Textbooks. Cambridge University Press, Cambridge, 1991.
IME
17
11 de Novembro de 2015

Documentos relacionados