CYMROT, Raquel. Estudo e Aplicações da técnica de Bootstrap. In

Transcrição

CYMROT, Raquel. Estudo e Aplicações da técnica de Bootstrap. In
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
ESTUDO E APLICAÇÕES DA TÉCNICA BOOTSTRAP
Ana Lucia Tucci Rizzo ([email protected]), Raquel Cymrot
Orientadora: Raquel Cymrot ([email protected])
Resumo
A técnica de reamostragem Bootstrap é muito útil por não necessitar de muitas
suposições para estimação de parâmetros das distribuições de interesse. Este
artigo apresenta os diferentes métodos de cálculo de intervalos de confiança
utilizando a técnica de reamostragem Bootstrap na forma paramétrica e não
paramétrica. Tais métodos são o Intervalo de Confiança Bootstrap Percentil, o
Intervalo de Confiança Bootstrap Percentil das Diferenças, o Intervalo de
Confiança Bootstrap t, o Intervalo de Confiança Percentil Corrigido em Relação ao
Viés (BCPB) e o Intervalo de Confiança de Correção de Vício Acelerado (BCa) ,
além da técnica de Bootstrap para a regressão e realização de testes de
hipóteses utilizando intervalos de confiança Bootstrap. Foram apresentadas as
situações onde cada método de obtenção dos intervalos de confiança Bootstrap é
mais adequado, dependendo do tipo de distribuição, vício e assimetria da
estatística do parâmetro estudado. Para aplicação destas técnicas foram
realizados seis estudos de caso que possibilitaram a aplicação dos métodos de
estimação Bootstrap mais recomendados na estimação dos parâmetros média,
variância, proporção e desvio padrão de processos. Estes casos incluíram
distribuições simétricas e assimétricas. Quando a distribuição de probabilidades
da estatística do parâmetro a ser estimado era conhecida foi também calculado o
intervalo de confiança baseado na distribuição de probabilidades do estimador.
Palavras chave: Reamostragem ; Método Bootstrap; Intervalo de confiança
Abstract
The Bootstrap resampling technique is very useful because it does not need many
assumptions to estimate parameters of the distributions of interest. This article
presents the different methods to calculate confidence intervals by using Bootstrap
1
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
resampling technique in parametric and nonparametric form. Such methods are
the Percentile Bootstrap Confidence Interval, the Differences Percentile Bootstrap
Confidence Interval, the Bootstrap t Confidence Interval, the Biased-Corrected
Percentile Bootstrap Confidence Interval (BCPB) and the Biased-Corrected
Accelerated Confidence Interval (BCa), besides Bootstrap technique for
regression and hypothesis tests accomplishment by using Bootstrap confidence
intervals. Situations were presented wherein each method used to obtain the
Bootstrap confidence intervals is more proper, depending on the kind of
distribution, bias and skewness of the studied parameter. Aiming at applying these
techniques, six studies of case were carried out, enabling the application of the
most recommended Bootstrap estimation methods to estimate the parameter
mean, variance, proportion and standard deviation of processes. These cases
included symmetrical and skewed distributions. When the distribution of
probabilities of the parameter to be estimated was known, the confidence interval
based on the probability distribution of the estimator was also computed.
Key terms: Resampling, Bootstrap technique, Confidence Interval
2
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
INTRODUÇÃO
A utilização de técnicas estatísticas no mundo dos negócios vem
crescendo cada vez mais, devido principalmente a sua utilidade na comparação
de serviços, verificação de qualidade, análise para desenvolvimento de produtos e
outros. A técnica de Bootstrap é uma das possíveis técnicas de reamoostragem a
serem utilizadas.
A reamostragem consiste em sortear com reposição dados pertencentes a
uma amostra retirada anteriormente, de modo a formar uma nova amostra.
Técnicas de reamostragem são úteis em especial quando o cálculo de
estimadores por métodos analíticos for complicado. Reamostrar permite
diferentes alternativas para se encontrar desvios padrões e intervalos de
confiança através da análise de um conjunto de dados.
Existem diversas técnicas de reamostragem que visam estimar parâmetros
de uma distribuição de interesse. Uma vantagem em utilizar a técnica de
reamostragem Bootstrap é a generalidade com que pode ser aplicada, pois requer
que menos suposições sejam feitas. Outras vantagens são que geralmente
fornece respostas mais precisas, além de favorecer o entendimento.
Muitas vezes a distribuição de probabilidade da estatística de interesse é
desconhecida. Nesse caso o Bootstrap é muito útil, pois é uma técnica que não
exige diferentes fórmulas para cada problema e pode ser utilizada em casos
gerais, não dependendo da distribuição original da estatística do parâmetro
estudado.
Segundo Davison e Hinkley (1997), repetir um procedimento de análise
original com muitas réplicas de dados pode ser denominado método intensivo
computadorizado. Para realizar uma estimação através da utilização de Bootstrap
é necessária a realização de um número muito grande de reamostragens e o
cálculo de diversas estatísticas para cada uma destas reamostragens. Isto exige o
auxílio de programas computacionais para realizar as reamostras e os cálculos de
forma mais rápida e eficaz.
3
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
Esse é um dos motivos pelo qual essa técnica vem se desenvolvendo mais
nos últimos tempos, pois com o avanço tecnológico os softwares estão ficando
mais práticos, rápidos e acessíveis.
A utilização da técnica de Bootstrap não implica que as outras devam ser
ignoradas, podendo ser usada como um complemento na argumentação das
conclusões obtidas.
Devido a sua generalidade, a técnica Bootstrap se encaixa na solução de
problemas complexos. Através do uso da técnica de Bootstrap os parâmetros
como a média, a variância, a proporção e até mesmo parâmetros menos
utilizados como o máximo, mínimo, etc. de uma população podem ser estimados
pontualmente e por intervalo.
A reamostragem baseada nos dados da amostra mestre é utilizada pela
técnica de Bootstrap denominada não paramétrica uma vez que a distribuição de
probabilidades da estatística do parâmetro a ser estimado é desconhecida.
Através desta técnica é possível obter a distribuição amostral de um parâmetro a
partir da amostra original.
A forma não paramétrica é a mais utilizada. Entretanto, quando a
distribuição de probabilidades das estimativas dos parâmetros de interesse da
população da qual a amostra mestre foi extraída for conhecida, outra forma de
Bootstrap pode ser aplicada. Esta forma denominada paramétrica consiste em
gerar reamostras baseadas na distribuição de probabilidades conhecida utilizando
como parâmetros desta distribuição a estimativa dos mesmos obtida através da
amostra mestre. Neste caso o interesse será estimar o vício das estimativas dos
parâmetros e assim efetuar as correções necessárias (NAVIDI, 2006).
Outra utilidade relatada por Hall (1988) é que, ao se comparar o intervalo
de confiança obtido através da utilização da técnica Bootstrap com o intervalo de
confiança baseado na distribuição de probabilidades conhecida do estimador, se
este último tiver sido calculado usando suposições inadequadas, a diferença entre
estes dois resultados será gritante, chamando assim atenção em relação ao erro
cometido.
4
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
Neste artigo serão apresentadas as diversas técnicas de Bootstrap para
estimação. Seis estudos de caso também serão realizados.
BOOTSTRAP
Para realizar o teste utilizando a técnica Bootstrap é preciso colher uma
amostra de tamanho n que será denominada amostra mestre. Essa amostra deve
ser coletada de maneira planejada, uma vez que se essa amostra for mal tirada e
não representar bem a população, a técnica de Bootstrap não levará à resultados
confiáveis.
Hesterberg et al. (2003) afirmam que a amostra mestre representa a
população da qual foi retirada. As reamostras desta amostra mestre representam
o que se deve obter quando são retiradas muitas amostras da população original.
A distribuição Bootstrap da estatística, baseada em muitas reamostras,
representa uma distribuição amostral desta estatística. Esta característica faz com
que uma das utilidades da técnica Bootstrap seja checar a normalidade da
distribuição original da estatística em foco.
Para que a aplicação da técnica resulte em valores confiáveis devem ser
feitas, a partir da amostra mestre, centenas ou até milhares de reamostras do
mesmo tamanho n. A maioria dos autores recomenda a utilização de 1000
reamostras. Segundo Montgomery (2001) o número de reamostragens pode ser
estipulado verificando a variação do desvio padrão para a estimativa do
parâmetro em questão calculado para as reamostras à medida que estas são
realizadas. No momento em que esse valor se estabilizar o tamanho da reamostra
Bootstrap estará adequado.
É importante que a reamostragem seja realizada com reposição sempre
selecionando os valores de forma aleatória. Para a geração destas reamostras as
técnicas computacionais são de grande utilidade, pois sem estas, o tempo para
que fossem feitas todas as reamostras desejadas de forma manual seria
excessivamente grande.
5
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
Uma vez geradas as reamostras, deve-se calcular para cada uma delas a
estatística solicitada no problema. Essa técnica não altera nenhum valor da
amostra mestre, ela apenas trabalha na análise da combinação dos valores
iniciais com a finalidade de se obter as conclusões desejadas.
A variabilidade presente no Bootstrap é dada pela escolha da amostra
mestre e pelas reamostras, sendo a variabilidade devido à escolha da amostra
mestre a mais significativa.
O desvio padrão da distribuição Bootstrap para a média (também chamado
de erro padrão) é uma medida de variabilidade e é calculado da seguinte forma:
2
1
 ˆ* 1 ˆ* 
SEbootstrap =
θi − ∑θi 
∑
B−1 
B

(1)
*
com θˆi igual ao valor da estatística para cada reamostra e B igual ao
número de reamostragens realizadas. O asterisco é usado para diferenciar a
estatística das reamostras da estatística da amostra original, a qual é
representada por θˆ . Algumas literaturas utilizam no primeiro valor do
denominador, apenas B ao invés de (B – 1), pois como o número de
reamostragens é um valor muito alto, essa alteração acaba ficando praticamente
insignificante.
A distribuição Bootstrap geralmente tem aproximadamente a mesma forma
e amplitude que a distribuição amostral da estatística, porém está centrada na
estatística dos dados originais (amostra mestre), enquanto a distribuição amostral
está centrada no parâmetro da população.
Segundo Montgomery e Runger (2003), uma estatística utilizada para
estimar um parâmetro é viciada quando a distribuição amostral não estiver
centrada no verdadeiro valor do parâmetro. A técnica Boostrap nos permite
verificar o vício olhando se a distribuição Bootstrap da estatística está centrada na
estatística da amostra mestre.
O estimador do vício da distribuição Bootstrap é:
*
víciobootstrap = θˆ − θˆ
(2)
6
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
Segundo González Manteiga, Prada Sánchez e Romo Urroz (1994) uma
das aplicações da metodologia Bootstrap é obter intervalos de confiança
confiáveis. Há diversas técnicas distintas para o cálculo de intervalos de confiança
Bootstrap. Entre as diferentes maneiras de calcular o Intervalo de Confiança pelo
método Bootstrap destacam-se o método Bootstrap t, o método Percentil, que
pode ser obtido de duas formas diferentes, o Método do Percentil Corrigido em
Relação ao Viés, Biased-Corrected Percentile Bootstrap (BCPB) e o Método de
Correção de Vício Acelerado, Biased-Corrected Accelerated (BCa). Estas técnicas
serão apresentadas a seguir:
a) O Intervalo de Confiança Bootstrap t
Calcula-se o intervalo de confiança Bootstrap t para uma determinada
estatística da seguinte maneira:
[
ICbootstrap t = estatística ± t × SEbootstrap
]
(3)
, sendo n o tamanho da amostra mestre, t encontrado utilizando-se (n-1)
graus de liberdade, e SEbootstrap , o desvio padrão bootstrap, calculado utilizando a
Equação (1) para a estatística em estudo.
A flexibilidade e quase automaticidade do cálculo de intervalo de confiança
por esse método é muito boa, porém existe um problema que pode afetar sua
eficácia. O intervalo de confiança Bootstrap t realmente só funciona bem quando
sabemos que a distribuição da estatística na distribuição Bootstrap é
aproximadamente normal e a estatística é pouco viciada. Respeitadas estas
condições o intervalo de confiança Bootstrap t pode ser calculado na estimação
de diversos parâmetros além da média populacional, como por exemplo, a
proporção e o coeficiente de correlação.
b) O Intervalo de Confiança Bootstrap Percentil
O intervalo de confiança percentil pode ser calculado de duas maneiras:
7
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
Segundo Efron (1986), para uma confiança (1 – α)100%, a primeira forma é
encontrar o percentil (1 – α/2)100% e o percentil (α/2)100% da média das
reamostras da estatística do parâmetro que se deseja estimar.
A segunda maneira de se obter o intervalo de confiança percentil utilizando
a técnica em estudo é através dos percentis das diferenças dos valores das
estatísticas das reamostras em relação ao valor médio desta mesma estatística
nas reamostras (MONTGOMERY e RUNGER, 2003).
Para estimar um intervalo de confiança para uma estimativa θˆ , calcula-se o
*
valor destas estatísticas para cada uma das “i” reamostras Bootstrap ( θˆ i ) e a
*
média dessas estimativas θˆ . Encontra-se então, para cada reamostra “i”, a
diferença entre esses valores, isto é:
*
diferença = θˆ i − θˆ
*
(4)
Para uma confiança de 95%, encontram-se os percentils 97,5% e 2,5%
destas diferenças e calcula-se o intervalo de confiança Bootstrap Percentil da
seguinte forma:
ICbootstrap
percentil
[
= θˆ − P97,5% diferenças ; θˆ − P2,5% diferenças
]
(5)
Para verificar se o intervalo de confiança t calculado é confiável podemos
compará-lo com o intervalo de confiança percentil. Se o vício for pequeno e a
distribuição Bootstrap for aproximadamente normal, os dois intervalos irão
apresentar valores muito próximos. Segundo Hesterberg et al. (2003), caso os
intervalos de confiança Bootstrap calculados pela t e pelo percentil não tiverem
valores próximos nenhum destes métodos deve ser utilizado. Entretanto Efron
(1986) afirma que se a distribuição Bootstrap não for aproximadamente normal,
mas existir uma transformação monotônica possível que a torne normal, pode-se
calcular o intervalo de confiança Bootstrap Percentil para os dados transformados
e posteriormente desfazer a transformação para os limites do intervalo
encontrado. Isto é possível uma vez que a transformação utilizada foi uma
transformação monotônica, portanto o intervalo de confiança Bootstrap pelo
8
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
método Percentil assim calculado coincidirá com o intervalo de confiança
Bootstrap pelo método Percentil para os dados não transformados.
Se o vício e a assimetria estão presentes de forma muito forte é
mais recomendável que se utilize métodos de Bootstrap de correção como o
Método BCPB e o método BCa.
c) O Intervalo de Confiança Bootstrap BCPB
No cálculo do intervalo de confiança BCPB os extremos do intervalo são os
percentis da distribuição Bootstrap ajustados para corrigir o vício e assimetria
desta distribuição.
Por exemplo, para encontrar um intervalo de confiança BCPB com 95% de
confiança, é preciso ajustar os percentis que para um cálculo de intervalo de
confiança Percentil tradicional seriam 2,5% e 97,5% para outros valores, a fim de
corrigir o vício e assimetria. Se a estatística for viciada para cima o BCPB move
os extremos para a esquerda e se a estatística for viciada para baixo o BCPB
move os extremos para a direita.
Para realizar o cálculo do intervalo de confiança BCPB deve-se
primeiramente ordenar as B estimativas θˆi* em forma crescente e calcular a
probabilidade denominada p0 de uma estimativa ser inferior à estimativa da
amostra mestre ( θˆ ). Esse passo pode ser representado da seguinte forma:
[
p0 = P θˆ * i ≤ θˆ
]
(6)
A partir do valor encontrado p0 é obtido o parâmetro correção do vício z0
que representa a inversa da normal no ponto p0.
z 0 = Φ −1 ( p 0 )
(7)
O próximo passo é selecionar um nível (1– α)100% de confiança para a
zα
estimativa do parâmetro e determinar
2
. É então possível obter os percentis PI e
PS:
9
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica

PI = Φ 2 z 0 − z α
2





(8)


PS = Φ 2 z 0 + z α 
2 

(9)
O Intervalo de Confiança BCPB é calculado da seguinte maneira:
[
*
*
IC BCPB = PPI (θˆi ) ; PPS (θˆi )
]
(10)
d) O Intervalo de Confiança Bootstrap BCa
O método de Correção de Vício Acelerado permite encontrar o intervalo de
confiança quando assimetria estiver presente de maneira muito forte. Esse
método não difere muito do BCPB sendo esta diferença o fato de o BCa possuir
uma constante de aceleração “a” que ajusta o intervalo de confiança em relação à
assimetria. Segundo Efron (1986) nesta situação este método é mais indicado
que o método BCPB.
O intervalo de Confiança BCa é obtido realizando os mesmo passos do
cálculo do intervalo de confiança BCPB com os limites PI e PS , porém utilizando
um ajuste por meio da constante de aceleração “a”. A obtenção da constante “a”
envolve cálculos não triviais, o que leva o Intervalo de Confiança BCa ser mais
utilizado quando há algum software estatístico disponível. O programa S-PLUS é
citado em vários artigos como, por exemplo, em Pereira et al. (2000). É possível
encontrar também alguns programas livres que calculam esta constante.
O cálculo do intervalo de confiança BCa é feito através da mesma Equação
(10), porém com PI e PS respectivamente iguais a:


 

 z0 + zα  

 

2 
PI = Φ z0 − 


 



1 − a  z0 + zα  


2  

(11)
10
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica


 

 z0 + zα  

 

2 
PI = Φ z0 + 




 z0 + z α  
−
1
a


 

2  

(12)
De acordo com Andrews e Buchinsky (2002) é possível determinar a
constante “a” de maneira mais simples quando as variáveis aleatórias observadas
na amostra mestre forem independentes e identicamente distribuídas. Neste caso:
(
θˆ( ) − θˆ( ) )
a=
6 (∑ (θˆ( ) − θˆ( ) ) )
∑
n
i =1
3
.
i
3
2 2
n
i =1
.
(13)
i
, com θˆ (i ) representando o valor das estimativas do parâmetro estudado
para cada amostra “i” que consiste na amostra mestre sem a observação “i” da
mesma, com 1 ≤ i ≤ n e θˆ (.) o valor da média das estimativas θˆ (i ) .
e) A técnica Bootstrap na Regressão
Existem dois procedimentos para se estimar os coeficientes do modelo de
regressão utilizando a técnica de Bootstrap: o método Bootstrap dos Resíduos e o
método Bootstrap dos Casos ou Pares (MONTGOMERY, 2001).
O procedimento de Bootstrap paramétrico denominado Bootstrap dos
Resíduos consiste em estimar os coeficientes de regressão para os dados
originais e assim gerar os respectivos resíduos para as n observações realizadas.
Estes resíduos formarão a amostra mestre. Deve-se então gerar as reamostras a
partir destes resíduos. O valor do vetor resposta para uma reamostragem (y*)
será obtido somando-se o vetor de resíduos desta reamostra ao vetor resposta
estimado nos dados originais ( ŷ ). Para cada reamostra são então calculadas as
estimativas dos coeficientes de regressão. As médias das estimativas dos
coeficientes de regressão para as reamostras serão as estimativas Bootstrap
pontuais dos mesmos. Intervalos de confiança para os coeficientes da regressão
podem ser obtidos pelo método percentil. A coincidência dos intervalos
11
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
tradicionais e Bootstrap confirmará as suposições feitas para a realização da
análise de regressão.
O procedimento de Bootstrap não paramétrico denominado Bootstrap dos
Casos ou Pares deve ser usado quando existe uma transformação nos dados
originais de modo que para estes dados transformados possa ser realizada uma
regressão linear. Neste caso as estimativas dos erros padrão dos coeficientes
serão aproximadas e estas aproximações serão válidas apenas para grandes
amostras. O método Bootstrap fornecerá uma estimativa dos intervalos de
confiança para os coeficientes da regressão e será útil para checar a validade da
aplicação assintótica para os resultados obtidos.
Na forma Bootstrap dos Casos ou Pares os próprios dados originais devem
compor a amostra mestre. Estes dados originais (que são vetores) devem ser
reamostrados. Para cada reamostra são estimados os coeficientes da regressão
linear para os dados da reamostra transformados. Intervalos de confiança para os
coeficientes da regressão podem ser obtidos pelo método percentil.
f) Teste de Hipótese com Intervalos de Confiança Bootstrap
Dado um intervalo de confiança calculado por qualquer método
Bootstrap com 100(1– α )%, deve-se rejeitar com 100 α % as hipóteses nulas de
que o parâmetro estimado seja igual a qualquer valor fora desse intervalo e devese aceitar com 100 α % as hipótese nulas de que este mesmo parâmetro seja
igual a qualquer valor dentro do intervalo de confiança Bootstrap (NAVIDI, 2006)
g) Outras considerações sobre os estimadores Bootstrap
O Bootstrap é muito genérico e, devido a esta generalidade, há mais de um
método Bootstrap como solução para um determinado problema.
Na maioria das publicações não técnicas em estatística, a forma de cálculo
dos intervalos de confiança Bootstrap não costuma ser apresentada. Segundo
12
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
enquête realizada por Hall (1988), o método Percentil é utilizado em mais da
metade destas publicações.
A maioria dos procedimentos de intervalo de confiança se torna mais
precisa quando o tamanho da amostra aumenta. Hesterberg et al. (2003) afirma
que um problema que existe nos intervalos de confiança Bootstrap t e Percentil é
que esta melhora ocorre de forma mais lenta necessitando de um grande
aumento no tamanho da amostra para refletir uma melhora na precisão (na base
de 10 para 1).
METODOLOGIA
Alguns estudos de caso foram realizados para colocar em prática à técnica
de reamostragem Bootstrap. Para cada estudo foi coletada uma amostra mestre
diferente, seguindo as técnicas de amostragem apropriadas.
Foram realizadas 1000 reamostras e calculados os intervalos de confiança
Bootstrap segundo as diversas formas convenientes para cada situação. Quando
existia uma fórmula de cálculo do intervalo de confiança para a estimativa do
parâmetro baseada na sua distribuição de probabilidades (denominado neste
trabalho intervalo de confiança padrão), este foi calculado. Os resultados foram
então comparados.
Para o cálculo dos diversos intervalos de confiança foi utilizada uma
confiança de 95%. Apenas no estudo de caso envolvendo o desvio padrão de um
controle estatístico de processos a confiança utilizada para os cálculos foi de
99,73%, de acordo com as cartas de controle de Shewhart.
Para a realização das reamostras e análises foi utilizado o programa
MINITAB.
13
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
Estudo de caso 1 - Número de alunos reunidos diariamente em determinado
local durante um intervalo de tempo estabelecido
Neste caso foi analisada a quantidade de alunos reunidos durante 25 dias
no corredor do 2º andar do prédio da Escola de Engenharia da Universidade
Presbiteriana Mackenzie em algum horário pertencente ao intervalo das 16:30 h
às 16:40 h.
O número de alunos foi observado diariamente em um horário sorteado
aleatoriamente dentro do intervalo estipulado.
A partir desta amostra de tamanho 25, foram realizadas mil reamostragens.
Através da ferramenta Bootstrap foi estimado o número médio de alunos
presentes naquele determinado local do corredor no horário entre 16:30 h e 16:40
h.
Estudo de caso 2 - Transporte utilizado pelos alunos no seu deslocamento
diário para a Universidade
Foi realizada, no segundo semestre de 2005, uma pesquisa para se
estimar a probabilidade de um aluno do curso Engenharia de Produção da Escola
de Engenharia da Universidade Presbiteriana Mackenzie utilizar transporte
público no seu deslocamento de ida e/ou volta para a universidade.
Foi realizada uma amostragem por conglomerado no qual foi sorteado o
sexto semestre. Foi perguntado para seus 33 alunos matriculados se eles
utilizavam, na maior parte dos dias, transporte público como meio de locomoção
para a universidade. Quando a resposta foi positiva a variável foi codificada como
1 e quando negativa a variável foi codificada como 0. Foi então calculada a
probabilidade p de o aluno utilizar transporte público.
Os 33 dados coletados formaram a amostra mestre. Com base nesta
amostra, foram realizadas 1000 reamostras de mesmo tamanho e aplicada à
técnica Bootstrap a fim de calcular os intervalos de confiança Bootstrap para a
proporção de respostas afirmativas. Estes resultados foram comparados com o
14
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
intervalo de confiança padrão. Foi também calculado o intervalo de confiança
Bootstrap para a variância desta proporção.
Estudo de Caso 3 - Medição de parafusos
Foi selecionada uma amostra casual simples de cinqüenta parafusos
pertencentes a uma caixa fechada contendo 200 parafusos de um mesmo lote.
Foi realizada a medição destes cinqüenta parafusos no laboratório de física da
Universidade Presbiteriana Mackenzie utilizando como dispositivo de medição
dimensional um paquímetro digital ajustado em milímetros, devidamente
calibrado.
Para realizar a amostragem os 200 parafusos pertencentes a uma caixa
foram numerados. Destes, foram sorteados cinqüenta parafusos para compor a
amostra mestre. A caixa de parafusos representa a população de onde foi retirada
a amostra mestre.
A partir desta amostra de cinqüenta comprimentos de parafusos, foram
geradas mil reamostras de mesmo tamanho.
Estudo de caso 4 - Tempo de espera na fila do Benjamim Abrahão
Neste caso o objetivo era analisar o tempo de espera desde o momento em
que um indivíduo entra na fila da Padaria Benjamim Abrahão situada na praça de
alimentação da Universidade Presbiteriana Mackenzie até o momento em que
este mesmo indivíduo recebe seu pedido. Os dados foram coletados entre os
horários de 19:30 h e 20:20 h de um dia letivo.
A coleta dos dados foi feita de forma sistemática, observando-se o intervalo
de tempo de espera e atendimento da primeira pessoa de cada três que entravam
na fila. O objetivo desse estudo de caso foi obter um intervalo de confiança para
média do tempo total de espera e atendimento ao cliente utilizando a técnica de
Bootstrap.
15
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
Utilizou-se para medição relógios digitais ajustados no mesmo horário e
duas pessoas, uma situada na entrada da fila e a outra na saída. A pessoa da
entrada distribuía a ficha com o horário em que o indivíduo participante da
pesquisa entrava na fila e a pessoa da saída recolhia a ficha e anotava o horário
de saída.
Foi coletada uma amostra mestre de tamanho 60. A partir desses dados,
foram realizadas 1000 reamostras.
Estudo de caso 5 – Tempo de processamento de um digestor de vísceras de
aves
Segundo Ferroli et al. (2002) as fábricas de farinhas e óleos de
subprodutos de origem animal estão em processo de evolução e mudanças. Para
que estas consigam acompanhar as constantes modificações que ocorrem no
mercado, uma de suas principais preocupações é reduzir a emissão de poluentes
ao meio ambiente.
O digestor é a principal máquina em uma graxaria e está envolvido
diretamente no aproveitamento de resíduos de indústrias de transformação de
produtos animais.
Foi analisado o funcionamento de um digestor existente em uma fábrica
onde funcionam seis digestores de vísceras de aves. Os dados para este caso
foram retirados do artigo “Fábrica de subprodutos de origem animal: a importância
do balanceamento das cargas dos digestores de vísceras” de Ferroli et al. (2002).
A variável medida foi o tempo de processamento de um digestor de
vísceras de aves. Para cada um dos 43 conjuntos de valores medidos contendo 6
observações cada, foi calculada a amplitude R. Essas 43 amplitudes
representaram amostra mestre e a partir destas foram geradas 1000 reamostras.
Neste caso a estatística será a estimativa do desvio padrão do processo igual a
R
onde d2 é um valor tabelado.
d2
16
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
Este caso é um exemplo de aplicação da técnica de Bootstrap na área de
Engenharia de Produção.
Estudo de caso 6 - Verificação da adesão dos alunos a um programa de uso
racional de água
Considerando que a água potável é um recurso raro no planeta, sua
economia torna-se absolutamente necessária.
A Universidade Presbiteriana Mackenzie, consciente deste problema, vem,
desde 2002, implantando um programa de Uso Racional de Água dentro do
Campus Itambé. (CYMROT et al.)
Várias medidas foram tomadas desde então, dentre elas, destacam-se as
seguintes medidas:
•
Foram registrados, em todos os prédios, todos os pontos de água, como
torneiras, bacias, mictórios, chuveiros, etc.
•
A partir de 2002, foram trocadas torneiras de lavatório por modelos mais
econômicos, com fechamento automático de água. Em 2004, cerca de 60% das
torneiras já haviam sido trocadas. Segundo a SABESP (Companhia de
Saneamento Básico do Estado de São Paulo), esta tal medida resulta em uma
economia de consumo em torno de 20%.
•
No começo de 2003, foi oferecido um curso na SABESP de “caça
vazamentos” a todos os funcionários da manutenção, inclusive encarregados.
Este curso propiciou a localização de inúmeros vazamentos, sendo então
trocadas às tubulações necessárias. Estas mudanças acabaram provocando
algumas modificações nas configurações da rede hidráulica do Campus Itambé.
•
Foram colocados adesivos para conscientização da necessidade de se
economizar água através do uso adequado de torneiras e bacias na maioria dos
sanitários existentes no Campus Itambé.
17
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
Este estudo foi realizado com o objetivo de verificar a adesão dos alunos
do curso de Engenharia de Produção da Universidade Presbiteriana Mackenzie
em relação ao programa.
Foi realizada uma amostragem casual simples e coletados os dados
relativos aos cinqüenta alunos sorteados.
Três perguntas foram feitas a estes alunos, a saber:
- O aluno tinha notado os adesivos com avisos alertando quanto à necessidade
do uso racional de água?
- O aluno tinha reparado na alteração dos dispositivos de funcionamento das
torneiras de modo que estas permanecessem abertas somente o tempo
necessário?
- O aluno colabora com a campanha procurando economizar a água quando de
sua utilização dentro do Campus Itambé da Universidade Presbiteriana
Mackenzie?
Para cada variável estudada foram realizadas 1000 reamostras a partir das
respostas obtidas.
RESULTADOS E DISCUSSÃO
Estudo de caso 1: Número de alunos reunidos diariamente em
determinado local durante um intervalo de tempo estabelecido
Ao realizar a análise descritiva para a amostra mestre, verificou-se a
existência de alguns possíveis outliers que foram mantidos na amostra. O
histograma e o gráfico de probabilidade normal utilizando o método de Anderson
Darling para os dados da amostra mestre apresentados nos Gráficos 1 e 2
confirmam a aderência à distribuição Normal (p = 0,362).
18
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
Histogram of C1
Probability Plot of C1
Normal
Normal
99
Mean 19,52
StDev 3,070
N
25
7
Mean
StDev
N
AD
P-Value
95
6
90
80
Percent
Frequency
5
19,52
3,070
25
0,387
0,362
4
3
70
60
50
40
30
20
2
10
5
1
0
1
13
15
17
19
21
C1
23
25
27
GRÁFICO 1 - Histograma da amostra mestre
12
14
16
18
20
C1
22
24
26
28
GRÁFICO 2 - Gráfico de probabilidade normal
para a amostra mestre
A Tabela 1 apresenta a amostra mestre, algumas reamostras, a média e a
variância para a amostra mestre e para as reamostras. Cada reamostra foi gerada
atribuindo probabilidade igual a 1/25 para cada observação da amostra mestre e
realizando a amostragem com reposição.
observação amostra mestre
1
24
2
17
3
19
4
20
5
22
6
26
7
18
8
20
9
17
10
19
11
14
12
18
13
25
14
17
15
14
16
23
17
18
18
17
19
22
20
19
21
20
22
21
23
19
24
17
25
22
média
19,5200
variância
9,4267
reamostra 1 reamostra 2 reamostra 3 ... reamostra 1000
25
18
21
22
20
17
25
17
18
17
20
18
19
18
26
22
20
23
21
18
17
17
19
22
19
22
18
20
17
14
14
23
17
26
14
17
19
22
20
17
25
17
22
22
17
21
25
19
22
23
14
18
25
22
18
17
23
19
26
19
17
24
23
17
25
22
17
21
17
22
20
17
19
26
17
19
24
17
21
17
20
17
22
22
17
19
22
25
17
20
20
14
22
18
19
18
14
17
22
18
19,8000
19,9200
20,2400
19,1600
3,2146
3,1612
3,4434
2,5768
TABELA 1 - Amostra mestre, reamostras, média e variância para a amostra mestre e reamostras.
Pode-se afirmar que a média da população tem distribuição Normal.
Realizadas as 1000 reamostragens com reposição, plotado o histograma (Gráfico
3) e realizado o teste de aderência de Anderson Darling (p = 0,082) para as
19
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
médias das reamostras é possível verificar que a distribuição da estatística média
das reamostras Bootstrap se aproxima da distribuição desta mesma estatística na
população.
Histogram of reamostras
Normal
Mean
StDev
N
140
19,50
0,6006
1000
120
Frequency
100
80
60
40
20
0
18,0
18,6
19,2
19,8
20,4
reamostras
21,0
21,6
22,2
GRÁFICO 3 - Histograma das 1000 reamostras das médias
Os valores da média e variância da amostra mestre foram respectivamente
iguais a 19,52 e 9,4267. O vício calculado para a média foi igual a – 0,0211,
considerado pequeno (0,11% do valor da média da amostra mestre).
Nestas condições foram calculados os intervalos de confiança para as
médias utilizando a técnica de reamostragem Boostrap pelos métodos Percentil =
[18,3200 ; 20,6800] e pelo método Bootstrap t = [18,2804 ; 20,7596] que
resultaram bem próximos.
O histograma das variâncias (Gráfico 4) apresenta uma forma diferente do
esperado caso a distribuição fosse Normal e o teste de Anderson Darling (Gráfico
5) forneceu valor de p menor que 0,005.
Histogram of variancias
Probability Plot of variancias
Normal
Normal
Mean
StDev
N
100
99,99
9,109
2,337
1000
Mean
StDev
N
AD
P-Value
99
80
Percent
Frequency
95
60
40
9,109
2,337
1000
1,196
<0,005
80
50
20
5
20
0
2,5
1
5,0
7,5
10,0
12,5
variancias
15,0
17,5
GRÁFICO 4 - Histograma para variância das
1000 reamostras
0,01
0
5
10
variancias
15
20
GRÁFICO 5 - Gráfico de probabilidade normal
para a variância das 1000 reamostras
20
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
Desta forma os intervalos de confiança Bootstrap pelo método t e Percentil
não são muito confiáveis uma vez que a suposição de normalidade não se
verificou. Neste caso é aconselhável o cálculo por métodos como BCPB e BCa.
O cálculo de intervalos de confiança para a variância através dos métodos
BCPB = [5,6034 ; 14,9469] e BCa = [4,1667 ; 15,3657] resultam em valores mais
precisos devido a adequação desses à presença de um viés igual a – 0,3173,
considerado grande (3,37 % do valor da variância da amostra mestre). O valor da
constante de aceleração “a” para a variância é 0,05119.
O intervalo de confiança Bootstrap Percentil é [4,7599 ; 13,7515]. Como o
vício foi negativo, isto é, a estimativa Bootstrap está subestimando o valor da
estatística, pode-se observar que o intervalo de confiança BCPB corrige o
intervalo de confiança para a direita. O Intervalo de confiança Bootstrap BCa
corrige o intervalo para a direita porém, neste caso, amplia seu tamanho devido
ao valor da constante “a”.
Os intervalos de confiança padrão para a média [18,2526 ; 20,7874] e para
a variância [5,7474 ; 18,2435] apresentaram valores próximos aos dos intervalos
Bootstrap.
Estudo de caso 2: Transporte utilizado pelos alunos no seu deslocamento
diário para a Universidade
No Gráfico 6 é apresentado o histograma das proporções obtidas nas 1000
reamostras. O teste de aderência de Kolmogorov Smirnov confirma a aderência à
distribuição Normal das proporções estimadas nas 1000 reamostras (p > 0,150).
O Gráfico 7 apresenta o Box Plot para as proporções nas 1000 reamostras onde é
notada a simetria da distribuição. Foram encontrados quatro possíveis outliers, a
saber: 0,8182; 0,7879; 0,3030; 0,2727 mantidos na amostra.
21
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
Histograma da proporção de alunos usuários de transporte público
160
Mean
0,5451
140
StDev
N
0,08433
1000
Boxplot da proporção de alunos usuários de transporte público
0,8
0,7
100
Proporção
Freqüência
120
80
60
40
0,6
0,5
0,4
20
0,3
0
0,32
0,40
0,48
0,56
Proporção
0,64
0,72
0,80
GRÁFICO 6 - Histograma das proporções nas
1000 reamostras
0,2
GRÁFICO 7 - Boxplot da proporção de alunos
usuários de transporte público nas 1000
reamostras
Como a distribuição é Normal, o intervalo de Confiança Bootstrap t pode
ser utilizado e deve coincidir com os intervalos de Confiança Bootstrap Percentil.
A amostra mestre apresentou uma proporção estimada de alunos que
utilizavam na maior parte dos dias transporte público como meio de locomoção
para a universidade igual a 0,5455 com variância da proporção igual a 0,0075. As
reamostras apresentaram uma média das proporções igual a 0,5451 com
variância da proporção igual a 0,0073.
Os intervalos de confiança para a proporção dos alunos que utilizavam na
maior parte dos dias transporte público como meio de locomoção para a
universidade foram calculados através dos métodos Percentil e Bootstrap t.
Os intervalos de confiança para a proporção, calculados através dos três
métodos revelaram-se muito próximos, a saber: intervalo de confiança Bootstrap
Percentil = [0,3932 ; 0,7273], intervalo de confiança Bootstrap Percentil das
Diferenças = [0,3632 ; 0,6973] e intervalo de confiança Bootstrap t = [0,3737 ;
0,7172].
Foi também calculado o intervalo de confiança padrão para a proporção.
Para este cálculo foram utilizados os dados da amostra mestre, tendo sido obtido
o intervalo [0,3756 ; 0,7153], também bem próximo aos demais intervalos de
confiança calculados.
O vício encontrado foi de – 0,0004 (0,07% do valor da estatística na
amostra mestre).
22
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
O Gráfico 8 apresenta o teste de aderência de Kolmogorov Smirnov no
qual não foi confirmada a normalidade da distribuição das variâncias das
proporções estimadas nas 1000 reamostras (p < 0,010).
gráfico de probabilidade normal da variância da proporção
99,99
Mean
StDev
N
KS
P-Value
99
0,007299
0,0003851
1000
0,165
<0,010
Porcentagem
95
80
50
20
5
1
0,01
0,004
0,005
0,006
0,007
variância da proporção
0,008
0,009
GRÁFICO 8 - Gráfico de probabilidade normal para as variâncias das proporções de alunos
usuários de transporte público nas 1000 reamostras.
Devido à falta de normalidade não é indicado o uso do intervalo de
confiança Bootstrap t.
O intervalo de confiança para a variância da proporção calculado através
do método de Percentil foi igual a [0,0060 ; 0,0076]. Como a distribuição de
probabilidades da variância é assimétrica e o vício encontrado foi de – 0,0002
(2,67% do valor da estatística na amostra mestre), sendo o estimador
tendencioso, a melhor opção é o cálculo dos intervalos de confiança para a
variância através dos métodos BCPB e BCa, os
quais apresentaram
respectivamente os seguintes valores [0,0064 ; 0,0076] e [0,0060 ; 0,0076]. Para
obtenção do intervalo de confiança pelo método BCa o valor encontrado para a
constante “a” foi igual a 0,005297. Neste caso a correção realizada foi
desprezível.
Estudo de Caso 3: Medição de parafusos
O Gráfico 9 apresenta o histograma das 1000 médias das reamostras
Bootstrap.
Pode-se notar a forma muito próxima à Normal. O teste de aderência à
distribuição Normal realizado pelo método de Anderson Darling confirma esta
hipótese (p = 0,156).
23
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
Histogram of parafusos
Normal
140
Mean
StDev
N
120
26,99
0,06374
1000
Frequency
100
80
60
40
20
0
26,82
26,88
26,94
27,00
parafusos
27,06
27,12
27,18
GRÁFICO 9 - Histograma das médias das mil reamostras dos comprimentos dos parafusos
A média da amostra mestre encontrada foi 26,9908, sua mediana 27,0050
e sua variância apresentada por 0,2043. É possível verificar a simetria dos dados
que compõe a amostra mestre pela proximidade do valor da mediana e o valor da
média.
Utilizando a técnica Bootstrap, calculou-se os intervalos de confiança para
a média e para a variância de forma paramétrica e não paramétrica através do
método Percentil.
No cálculo do intervalo de confiança Bootstrap Percentil não paramétrico
para as médias, os valores obtidos foram [26,8770 ; 27,1178] e o intervalo de
confiança Bootstrap Percentil das Diferenças foi igual a [26,8657 ; 27,1066]. O
Intervalo de Confiança Bootstrap Percentil paramétrico apresentou os seguintes
valores [26,8645 ; 27,1035]. Também foi calculado o intervalo de confiança
Bootstrap t igual a [26,8627 ; 27,1189].
Como a distribuição das médias dos comprimentos dos parafusos é
conhecida, foi possível realizar o cálculo do intervalo de confiança padrão. O
intervalo obtido foi [26,8610 ; 27,1206].
A média das médias nas reamostras foi igual a 26,9928. O valor do viés na
forma não paramétrica calculado com os dados das reamostras foi igual a 0,0020,
considerado pequeno (0,0007% do valor da estatística na amostra mestre). Neste
caso os métodos Bootstrap t e Bootstrap Percentil de cálculo de intervalo de
confiança são adequados e resultaram em valores próximos.
Os intervalos de confiança para variância utilizando a técnica Bootstrap
forneceram valores próximos, a saber: intervalo de confiança Bootstrap Percentil
24
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
não paramétrico = [0,1313; 0,2740] e Percentil das Diferenças não paramétrico =
[0,1296; 0,2723]. Através da aplicação da técnica paramétrica obteve-se o
intervalo de confiança Bootstrap Percentil paramétrico = [0,1363 ; 0,2914].
Supondo a distribuição Quiquadrado para a variância dos comprimentos
dos parafusos, foi possível calcular o intervalo de confiança igual a [0,1425 ;
0,3172].
A média das variâncias nas reamostras foi igual a 0,1993. O valor do viés
para a estimativa da variância foi igual a – 0,0050 considerado grande (2,45%
valor da estatística na amostra mestre).
Neste caso é aconselhável o cálculo dos intervalos de confiança para a
variância através dos métodos BCPB e BCa, os
quais apresentaram
respectivamente os seguintes valores [0,1425 ; 0,2887] e [0,1230 ; 0,3022]. Para
obtenção do intervalo de confiança pelo método BCa o valor encontrado para a
constante “a” foi igual a 0,043243.
Estudo de caso 4: Tempo de espera na fila do Benjamim Abrahão
Através da construção do Box Plot, foram encontrados os possíveis outliers
235,283 ; 232,850 ; 189,0167 ; 188,017 ; 187,650, os quais foram mantidos na
amostra mestre uma vez que tais dados extremos realmente ocorreram.
Segundo Prado (1999), o tempo de espera em uma fila tem em geral
distribuição exponencial, porém, neste caso como foi computado o tempo de
espera, tempo de atendimento e tempo de pagamento, a distribuição resultante
não se comportou como exponencial. Deve-se salientar que a forma de
pagamento determinou, de maneira marcante, a diferença nos tempos totais
computados. Se o comprador utilizava dinheiro a operação era bem rápida,
porém, se ele usava algum cartão eletrônico poderia ser consumido um tempo
muito maior.
O histograma (Gráfico 10) indicou a forma da distribuição do tempo total
próxima da Normal. O teste de aderência pelo método de Anderson Darling
confirmou a aderência à distribuição Normal (p = 0,809).
25
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
Os dados da amostra mestre apresentaram uma média igual a 209,0333.
As mil reamostragens foram feitas com reposição e calculadas as estatísticas
necessárias para a aplicação da técnica Bootstrap.
Os intervalos de confiança para a média foram obtidos pelo método
Percentil das Diferenças = [193,9140 ; 223,8027], método Percentil = [194,1488 ;
224,0375] e, sendo a distribuição aproximadamente normal, o cálculo foi realizado
pelo método Bootstrap t = [193,9850 ; 224,0817]. Os três intervalos de confiança
apresentaram valores próximos.
Histograma do tempo de atendimento
120
Mean
StDev
N
208,9
7,520
1000
100
Freqüência
80
60
40
20
0
192
200
208
216
224
Tempo de atendimento
232
GRÁFICO 10 - Histograma das 1000 médias das reamostras do tempo de espera e atendimento
na fila
Foi calculado o intervalo de confiança para a média do modo padrão para
que os resultados fossem comparados, a saber: [193,3806 ; 224,6861]. O vício
presente para o tempo médio de atendimento foi igual a – 0,1152 (0,055% do
valor da estatística na amostra mestre), considerado pequeno.
Estudo de caso 5: Tempo de processamento de um digestor de vísceras de
aves
As amplitudes foram reamostradas e calculado o desvio padrão do
processo para essas 1000 reamostras bootstrap. A partir dessas reamostras, foi
plotado o histograma que permite verificar a proximidade da distribuição dos
desvios padrões do processo com a distribuição Normal. O teste de probabilidade
de aderência pelo método de Anderson Darling confirmou esta hipótese (p =
0,537).
26
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
Através da técnica Bootstrap, foram obtidos intervalos de confiança para o
desvio padrão do processo pelos métodos Percentil e t. Para o cálculo do
intervalo de confiança Bootstrap t foi estimado o desvio padrão do processo da
amostra mestre, a saber: 22,6226. Os resultados obtidos pelos intervalos foram
respectivamente iguais a [18,3447 ; 26,9005] e [19,0134 ; 26,6287 ] para os
métodos Bootstrap t e Percentil.
A
proximidade
dos
intervalos
ocorre
devido
à
distribuição
ser
aproximadamente Normal além do vício calculado pela diferença entre a média do
desvio padrão das reamostras do processo e o desvio padrão do processo da
amostra mestre ser relativamente pequeno, igual a 0,0154 (0,07% do valor da
estatística na amostra mestre).
Estudo de caso 6: Verificação da adesão dos alunos a um programa de uso
racional de água
As respostas para as perguntas foram codificadas como zero quando
negativas e um quando positivas. Através da técnica Bootstrap, foram calculados
os intervalos de confiança para a proporção de respostas afirmativas e seus
resultados comparados com o intervalo de confiança padrão.
Para cada resposta obtida para as três perguntas, foram geradas 1000
reamostras e obtidos os seguintes resultados:
Em relação à percepção de adesivos que estavam sendo colados, foi
realizado um teste de aderência à distribuição Normal pelo método de
Kolmogorov Smirnov (p > 0,150), o que possibilita o cálculo dos intervalos de
confiança Bootstrap pelo método Percentil = [0,5200 ; 0,8000] e pelo método
Bootstrap t= [0,5243 ; 0,7957]. Como a distribuição da proporção nas reamostras
é aproximadamente Normal, foi possível calcular o intervalo de confiança padrão
para proporção e o resultado obtido foi [0,5287 ; 0,6954]. Todos os intervalos
resultaram muito próximos.
Para as 1000 reamostras dos dados que representam o resultado da
pesquisa sobre o aluno que havia notado a alteração dos dispositivos de
27
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
funcionamento das torneiras, foram calculadas as proporções cuja distribuição foi
considerada Normal através do teste de aderência pelo método de Kolmogorov
Smirnov (p > 0,150).
Os intervalos de confiança Bootstrap Percentil e t foram calculados e seus
resultados comparados com o cálculo do intervalo de confiança padrão para
proporção. Os resultados obtidos foram: intervalo de confiança Bootstrap t =
[0,2623 ; 0,5377], intervalo de confiança Bootstrap Percentil = [0,2800 ; 0,5400] e
intervalo de confiança padrão = [0,2642 ; 0,4183], todos muito próximos.
O teste de aderência realizado pelo método de Kolmogorov Smirnov para a
distribuição das proporções nas 1000 reamostras das respostas dos alunos
quanto à colaboração na diminuição do consumo de água confirma a aderência à
distribuição Normal (p >0,150).
Os valores encontrados nos cálculos dos intervalos de confiança Bootstrap
Percentil, t e padrão foram muito próximos, a saber: intervalo de confiança
Bootstrap t = [0,4228 ; 0,6972], intervalo de confiança Bootstrap Percentil =
[0,4200 ; 0,7000] e intervalo de confiança padrão = [0,4224 ; 0,5897].
CONCLUSÃO
Através da realização dos estudos de caso, foi possível verificar a
adequação da técnica Bootstrap em situações presentes no cotidiano.
Os intervalos de confiança e as estimativas encontradas em todos os
estudos de caso foram coerentes e confirmaram a confiabilidade do método para
estimação de parâmetros em situações onde as distribuições das estimativas dos
parâmetros eram conhecidas.
O método também tornou possível a estimação de intervalos de confiança
em situações onde as distribuições dos parâmetros são desconhecidas ou
complexas.
Verificou-se, pelos casos estudados, a generalidade de aplicação da
técnica de estimação através da reamostragem e que o método Bootstrap permite
que o cálculo do intervalo de confiança seja realizado de modo mais simples e
28
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
abrangente para diversas estatísticas, mesmo quando as distribuições de
probabilidades das mesmas são desconhecidas.
Foi possível estabelecer o intervalo de confiança adequado para cada
situação diferente.
Quando a estatística do parâmetro estudado tinha distribuição Normal, os
intervalos de confiança Bootstrap pelos métodos t e Percentil coincidiram e foram
adequados.
Quando a distribuição da estatística do parâmetro estudado não era
Normal, porém existia uma transformação monotônica para a estatística do
parâmetro que tornasse sua distribuição Normal, o intervalo Bootstrap Percentil foi
adequado.
Nos casos em que a distribuição não era Normal com a estimativa pontual
Bootstrap muito viciada ou a assimetria presente de modo muito forte, foram
utilizados os métodos BCPB e BCa. Quando era conhecida a distribuição da
estatística do parâmetro, os intervalos BCPB e BCa resultaram mais próximos do
intervalo padrão que o intervalo Bootstrap Percentil, confirmando a melhora na
estimação com o uso dos intervalos corrigidos.
O valor pequeno do viés é uma indicação de que os valores estimados
devem estar próximos dos verdadeiros valores.
Para cada situação deve ser escolhida a técnica de cálculo de intervalo
Bootstrap mais adequada. Quando houve mais de uma técnica possível de ser
utilizada, verificou-se que os intervalos de confianças resultaram muito próximos.
29
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
REFERÊNCIAS
[1] ANDREWS, D. W. K.; BUCHINSKY, M. On the number of bootstrap repetitions
for BCa confidence intervals. Econometric Theory, v. 18, n. 4, p. 962-984, Aug.
2002.
[2] CYMROT, R.; ROCHA, A. J. F.; MARTINS, A. J.; MOUETTE, D.; DURO, M. A.
S.; MONEZI JUNIOR, O.; ANTUNES, V. R. G. L.; ZIVIERI, J. N. Estudo do uso
racional da água implantado em um campus da Universidade Presbiteriana
Mackenzie. In: WORLD CONGRESS ON COMPUTER SCIENCE, ENGINEERING
AND TECHNOLOGY EDUCATION, 2006, Itanhaém. Anais … São Vicente:
COPEC, 2006. 1 CD-ROM.
[3] DAVISON, A. C.; HINKLEY, D. V. Bootstrap methods and their application.
Cambridge: Cambridge University Press, 1997.
[4] EFRON, B.; TIBSHIRANI, R. Bootstrap methods for standard errors,
confidence intervals, and other measures of statistical accuracy. Statistical
Science , v. 1, n. 1, p. 55–77, Feb. 1986.
[5] FERROLI, P. C. M.; FIOD NETO, M.; CASAROTTO, N.; CASTRO, J. E.
Fábrica de subprodutos de origem animal: a importância do balanceamento das
cargas dos digestores de vísceras. Revista Produção, v. 10, n. 2, p. 5-9, 2002.
[6] HALL, P. Theoretical comparison of bootstrap confidence intervals. Annals of
Statistics, v. 16, n. 3, p. 927–953, Sep. 1988.
[7] HESTERBERG, T.; MOORE, D. S.; MONAGHAN, S.; CLIPSON, A.; EPSTEIN,
R. Bootstrap methods and permutation tests. In: The practice of business
statistics: using data for decisions. New York: W.H. Freeman, 2003. cap. 18.
[8] GONZÁLEZ MANTEIGA, W.; PRADA SÁNCHEZ, J. M.; ROMO URROZ, J. J.
The Bootstrap: a review. Computational Statistics, v. 9, n. 1, p. 165-205, 1994.
[9] MONTGOMERY, D. C.; PECK, E. A.; VINING, G. G. Introduction to linear
regression analysis. 3rd ed. New York: Wiley, 2001.
[10] MONTGOMERY, D. C.; RUNGER, G. C. Estatística aplicada e probabilidade
para engenheiros. 2. ed. Rio de Janeiro: LTC, 2003.
30
Universidade Presbiteriana Mackenzie - II Jornada de Iniciação Científica
[11] NAVIDI, W. C. Statistics for engineers and scientists. Boston: McGraw-Hill,
c2006.
[12] PEREIRA, J. E.; SILVA, J. F. V.; DIAS, W. P.; SOUZA, G. S. Intervalo de
confiança “Bootstrap” como ferramenta para classificar raças do nematóide de
cisto de soja. Pesquisa Agropecuária Brasileira, Brasília, v. 35, n. 2, fev. 2000.
Disponível
em:
http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-
204X2000000200005 Acesso em: 9 jun. 2006.
[13] PRADO, D. S. Teoria das filas e da simulação. Belo Horizonte:
Desenvolvimento Gerencial, 1999. (Pesquisa operacional, v. 2).
31

Documentos relacionados