Estatística Aplicada

Transcrição

Estatística Aplicada
Curso de
Estatística
Aplicada
Pedro Paulo Balestrassi
UNIFEI-Universidade Federal de Itajubá
IEPG
www.pedro.unifei.edu.br
[email protected]
35-36291161
88776958
“Pensar estatisticamente
será um dia, para a
eficiente prática da
cidadania, tão necessário
como a habilidade de ler e
escrever.”
H. G. Wells (Escritor Inglês,
considerado o pai da moderna Ficção
Científica, 1895)
Estatística Aplicada
Motivação das empresas para estudo e uso de
Estatística:
Foco no Processo: Um dos principais requisitos
da ISO 9001:2000
Fatores Controláveis
x1 x2
...
xp
Entrada
Saída
z1 z2
...
...
Processo
y1
y2
ym
zq
Fatores Incontroláveis (ruído)
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
2
Estatística Aplicada
Y=f(X)+Z
X
•Pressão de ar air strip
•Pressão de ar air bag
•Pressão de ar front piston
•Pressão Hidráulica
•Temperatura
Aplicação: Pense
•Vazão de óleo Solúvel
em um problema
•Pressão do Nitrogênio
similar em sua
área de atuação
Y
Exemplo de Processo
Processo Bodymaker de
fabricação de latas
Z
•Espessura da parede Top Wall
•Operador
•Espessura da Parede Mid Wall
•Rede Elétrica
•Profundidade do Dome
•Qualidade da Bobina
•Altura da Lata
•Visualização
É complexo inferir sobre X,Y e Z sem Estatística!
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
3
Estatística Aplicada
Cone of Learning
DO THE
REAL
THING!
Faça anotações!
Aplicando os
conhecimentos na
sua área é a única
forma de
sedimentá-los!
4
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Recursos de Software
O uso de recursos computacionais
tornou os cálculos atividades fáceis
permitindo uma maior ênfase na
compreensão e interpretação dos
resultados
Statgame e Statquiz
(Interessante para verificar
o conhecimento básico)
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
5
Estatística Aplicada
Comandos Básicos
Pratique:
•
Gere a planilha ao lado e entenda a diferença entre Worksheet
e Project. Observe o que é Session.
•
Calcule as principais Estatísticas Descritivas da planilha
gerada.
Siga o caminho: <Stat> <Basic Statistics> <Graphical
Summary>
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Pratique:
•
Navegue no Statguide
•
Navegue pelo Tutorial do Minitab
•
Cinco ícones importantes: Worksheet, Session, Show Graph
Folders e Edit Last Dialog
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Pratique:
•
Gere uma série de 100 valores aleatórios que poderia
simular a variabilidade em Anéis de Pistão
(considerando por exemplo Folga entre Pontas).
Use <Calc> <Random Data> <Normal Distribution> e
inclua os parâmetros convenientes.
•
Calcule as principais estatísticas descritivas da planilha
usando Graphical Summary. Faça outros gráficos.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Pratique:
•
Entenda o procedimento <Calc> <Set Base>?
•
Salve a planilha na Desktop com um nome qualquer.
•
Feche o programa minitab e depois abra a planilha que
você salvou.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Um bom Material de Apoio
Obtenha domínio
sobre o Minitab a
partir do arquivo
minitab.pdf.
10
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Um Exemplo de Controle Estatístico da Qualidade
A espessura de uma peça metálica
é um importante parâmetro da
qualidade para uma empresa. Uma
grande quantidade de peças são
produzidas diariamente e a cada
lote produzido, 5 delas são medidas
e colocadas em uma tabela, como
ao lado.
Use
Set Base=9
N(0.0625; 0.0025)
Para gerar tal tabela
Pergunta-se:
a) O Processo está sob Controle?
b) O Processo atende as
Especificações (LSL=0.060 e
USL=0.066)
c) Qual a solução para o
problema?
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Problema Prático
Baixo Rendimento
Problema Estatístico
Média fora do alvo
Solução Estatística
Identificar variável Vital
Solução Prática
Instalar um controlador
© 1994 Dr. Mikel J. Harry V3.0
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Etapa
Definir
A
B
C
Medir
1
2
3
Analisar
4
5
6
Melhorar
7
8
9
Controlar
10
11
12
Six Sigma - DMAIC
Descrição
Foco
Identificar CTQs do Projeto
Desenvolver Escopo de Atuação da Equipe
Definir Mapa do Processo
Selecionar Característica do CTQ
Definir Padrão de Desempenho
Análise do Sistema de Medição e Coleta de Dados
Y
Y
Y
Estabelecer a capabilidade do Processo
Definir Objetivo do Desempenho
Identificar Origens de Variação
Y
Y
X
Filtrar Causas Potenciais de Variação
Descobrir Relações entre as Variáveis e Propor Soluções
Estabelecer Tolerâncias Operacionais & Solução Piloto
X
X
Y,X
Validar Sistema de Medição
Determinar a Capabilidade do Processo
Pedro Paulo Balestrassi
www.pedro.unifei.edu.br
Implementar
Sistema -de
Controle do Processo
Y,X
Y,X
X
Estatística Aplicada
Uma ótima bibliografia:
Montgomery, D.C., Runger, G.C., Estatística
Aplicada e Probabilidade para Engenheiros, 2ª ed.,
LTC Livros Técnicos e Científicos, 2002, 461 p.
Não deixe de ler:
Fora de Série (Outliers) – Malcolm Gladwell – Editora
Sextante – Uma boa análise sobre Causa e Efeito em
inúmeras situações.
Uma Senhora Toma Chá – David Salsburg – Editora
Zahar – Como a estatística revolucionou a ciência no
século XX.
O Andar do Bêbado – Leonard Mlodinow– Editora Zahar
– Como a aleatoriedade impacta nossas vidas.
16
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
SUMÁRIO
1 – Estatística Descritiva
2 – Distribuições de Probabilidade
3 – Estimação e Intervalos de Confiança
4 – Testes de Hipótese
5– Análise de Variância
6 – Correlação e Regressão
17
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
1 - Estatística Descritiva
“Deus não joga dados com o universo” (Albert Einstein)
“Os experimentos geralmente não são determinísticos” (Fisher)
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
18
Estatística Aplicada
Do que trata a Estatística
A essência da ciência é a observação.
Estatística: A ciência que se preocupa com a organização, descrição, análise e
interpretação dos dados experimentais. Ramo da Matemática Aplicada. A
palavra estatística provêm de Status.
Estatística Básica (Anova, TH,
Simulação / PO
Regressão)
DOE /Taguchi /RSM
Séries Temporais
Análise do Sistema de
Data Mining
Medição
Six Sigma
Estatística Multivariada
Redes Neurais
Amostragem / Pesquisa
Controle de Qualidade
Confiabilidade
Estatística Bayseana
Caos
Em 1662, John Graunt publicou os primeiros informes estatísticos. Era sobre nascimento e mortes.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
19
Estatística Aplicada
População e Amostra
A População (ou Distribuição) é a coleção de todas as
observações potenciais sobre determinado fenômeno.
O conjunto de dados efetivamente observados, ou
extraídos, constitui uma Amostra da população.
Um Censo é uma coleção de dados relativos a Todos os
elementos de uma população.
Um Parâmetro está para a População assim como uma
Estatística está para a Amostra.
20
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Tipos de Dados
(Também Dados Categóricos ou de Atributos)
Nominal
Qualitativa
Ordinal
Variável
Discreta
Quantitativa
Contínua
(Variáveis)
Ex.: Para uma população de peças produzidas em um determinado processo,
poderíamos ter:
Variável
Tipo
Estado: Perfeita ou defeituosa
Qualitativa Nominal
Qualidade: 1a, 2a ou 3a categoria Qualitativa Ordinal
No de peças defeituosas
Quantitativa Discreta
Diâmetro das peças
Quantitativa Contínua
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
21
Estatística Aplicada
<Calc> <Random Data> Números Aleatórios
Aplicação: Gere sequências de valores aleatórios que represente
problemas em sua área.
O que significa o procedimento <Calc> <Set Base>?
Amostragem: Gere a sequência 1 2 3 ...100.
<Calc> <Make Patterned Data>
Selecione uma amostra com 10 valores a partir das sequências geradas
anteriormente.
Use <Calc> Random Data> <Sample from Column>
22
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
<Graphical Summary>
Ex.:Número de acessos à página do Site da Empresa
durante os últimos 100 dias úteis.
Aplicação:
Gere uma sequência de
dados que represente um
processo em sua área e
calcule as estatísticas
desse conjunto de dados.
Use:
<Random> e
<Graphical Summary>
23
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Medidas de Posição: Média
n
Aritmética Simples
x1 + x 2 ++...+
L + xn
x=
=
n
∑x
i =1
i
n
n
Aritmética Ponderada
x1 p1 + x2 p2 +...+
+L+ xn pn
x=
=
p1 + p2 ++...+
L+ pn
∑x p
i =1
n
i
i
∑p
i=1
i
Um pouco sobre arredondamento de médias:
Tome uma decimal acima da dos dados: Ex.: 2,4 3,4 e 5,7 => média =3,73
Em várias operações, arredonde apenas o resultado final
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
24
Estatística Aplicada
Um Cidadão Americano “Médio”
Chama-se Robert
Pesa 78 Kg
Manequim 48
85 cm de cintura
Consome anualmente 8,5 Kg massa, 11,8Kg de bananas, 1,8 Kg de
batatas fritas, 8,15Kg de sorvete e 35,8 Kg de carne.
Vê TV por ano 2567 horas
Recebe anualmente 585 “coisas” por correio (cartas e outros)
Diariamente dorme 7,7 horas, gasta 21 minutos para chegar ao trabalho e
trabalha 6,1 horas
25
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Se n é ímpar:
 n + 1
~
 termo
x =
 2 
o
Ex.:
Medidas de Posição: Mediana
Se n é par:
o
o
n
n 
  termo +  + 1 termo
2
2 
~
x=
2
{35, 36, 37, 38, 40, 40, 41, 43 ,46} ⇒ x~ = 40
15 + 16
~
{12, 14, 14, 15, 16, 16, 17, 20} ⇒ x = 2 = 15,5
Mediana é o valor “do meio” de um conjunto de dados dispostos em
ordem crescente ou decrescente.
Inconveniente: Não considera todos os valores da amostra!
26
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Ex.:
Média x Mediana
{ 200, 250, 250, 300, 450, 460, 510 }
x = 345,7
x~ = 300
Ambas são boas medidas
de Tendência Central.
Prefira a média
{ 200, 250, 250, 300, 450, 460, 2300 }
x
= 601
x~ = 300
Devido ao Outlier
2300, a mediana é
melhor estatística que
a média.
27
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Medidas de Dispersão
Rode e Entenda o
programa Interativo da
PQ Systems
Discuta:
1) Porque os bancos adotam fila única?
2) “Por favor, com quantos dias de antecedência eu
devo postar uma carta de aniversário para minha
mãe?”
28
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
A = { 3, 4, 5, 6, 7 }
B = { 1, 3, 5, 7, 9 }
C = { 5, 5, 5, 5 }
D = { 3, 5, 5, 7 }
E = { 3.5, 5, 6.5 }
Variabilidade
Uma medida de Posição não é
suficiente para descrever um conjunto
de dados. Os Conjuntos ao lado
mostram isso! Eles possuem mesma
média, sendo diferentes.
Algumas medidas de Variabilidade:
Amplitude (H): Tem o inconveniente de levar em conta apenas os
dois valores extremos:
HÁ =7-3=4
Amplitude=Range
29
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Medidas de Dispersão
Considerando os desvios em relação à média, temos, para A, por
exemplo:
{-2, -1, 0, 1, 2}
xi - x
A = { 3, 4, 5, 6, 7 }
n
n
n
∑ ( x − x ) =∑ x − ∑ x =nx − nx ≡ 0
Inconveniente:
i=1
i
i=1
i
i=1
Uma opção para analisar os desvios das observações é:
considerar o total dos quadrados dos desvios.
∑ (x
5
i =1
− x ) =4 + 1 + 0 + 1 + 4 = 10
2
i
30
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Desvio Padrão
Associando ao número de elementos da amostra (n), tem-se:
.
∑ (x
n
S2
=
S = S2
i =1
=1
i
− x)
2
...que é a Variância ( Var(x))
n
...que é o Desvio Padrão (DP(x)), uma
medida que é expressa na mesma unidade
dos dados originais
31
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
n
Dispersão: Fórmulas Alternativas
n
∑ (x − x )
σ =
2
i=1
∑x
2
i
n
=
i=1
∑ (x
n
2
i
n
Variância Populacional
(σ2 ou σn 2 )
−x
2
S =
2
i =1
i
− x)
2
n−1
Variância
Amostral
n-1 está
Relacionado a
um problema de
tendenciosidade
32
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Exemplo
Calcular a Variância e o Desvio Padrão de X
5
4
3
1
2
Uma Regra
Prática para
conjunto de dados
típicos:
S=Amplitude/4
(X − X )
X
X
Média = 3
X
=
Soma dos pontos de dados
2
1
0
-2
-1
(X − X )
2
4
1
0
4
1
Número dos pontos de dados
S= S
2
Raiz Qadrada
da Variância
= Desv.Pa. = S
= 1,58
S2
Divide a Soma
por (n-1):
= Variância = S2
= 2,5
Soma da
última coluna
= 10
33
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
n-1
N
n
∑x
x=
i=1
n
∑x
N
µ=
i
n
N
N
σ2 =
n
2
(
)
x
−
x
∑ i
s2 =
i =1
i
i =1
2
(
x
−
µ
)
∑ i
i=1
N
Estimador
Tendencioso de σ
n
n
2
(
)
x
−
x
∑ i
s2 =
i =1
n −1
Estimador
Não-Tendencioso σ
34
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Simulação (n-1)
1
n
2
2
(
)
x
−
x
∑ i
s =
2
i=1
4
n
s =
.
(n − 1)
2
3
n
n
∑ (xi − x )
n
(n −1) 2
σ
n
n
2
(
)
x
−
x
∑ i
2
i=1
≈
=
i=1
n −1
35
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Outlier ( fora da distância do Q3 + 1,5D )
Observação Máxima
75%
109
Q3=75ª Percentil
104
DBP
*
Outra Estratégia: Percentis e Boxplot
50%
99
D=Q3-Q1
94
25%
Interquartil
Q2=Mediana (50ª Percentil)
EDA (Exploratory Data
Analysis) e Método dos
Cinco Números
Q1=25ª Percentil
Boxplot é desgastante quando feito sem computador pois
supõe a ordenação de dados.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
36
Estatística Aplicada
Percentis e Boxplot
graficos.mtw
Valor do meio
3.(n+1)/4 0
Quartis:
2.(n+1)/4
0
Q1=Quarta Observação Crescente=71.7
Q3=Quarta Observação Decrescente=150.6
(n+1)/4 0
Para valores
não inteiros
dos quartis,
usa-se
interpolação
Outliers: Q3+1.5D=150.6+1.5(150.6-71.7)=268.95
São outliers valores maiores que 268.95
37
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
xi − x
zi =
s
xi -
Escores padronizados (z)
x considera o afastamento de xi em relação à média.
A divisão por s torna s como unidade ou padrão de medida.
Ex.: Dois grupos de pessoas acusam os seguintes dados:
Nesses grupos há duas
Grupo Peso médio Desvio Padrão
pessoas que pesam
A
66.5 kg
6.38 kg
respectivamente, 81.2 kg e
B
72.9 kg
7.75 kg
88.0 kg.
81,2 − 66,5
88 − 72,9
em A : z A =
= 2,3 e em B : z B =
= 1,95
6,38
7,75
Logo, a pessoa de A revela um maior excesso relativo de peso.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
38
Distribuição Normal
Estatística Aplicada
z=
X : N (µ ;σ )
x−µ
Z: N(0; 1)
σ
ϕ(z)
Tal fórmula está tabelada e
fornece valores acumulados
Distribuião Normal
Reduzida ou Padronizada
-3
-2
-1
µ-3σ µ -2σ µ -σ
0
µ
1
2
3
µ+σ µ+2σ µ+3σ
z
x
Qual o formato da
curva acumulada?
N(0,1) é a
distribuição
Benchmark
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
39
Estatística Aplicada
Escores padronizados (z)
Uma mulher deu à luz um filho 308 dias após a visita de seu
marido que serve na marinha dos EUA. Sabendo-se que uma
gravidez normal tem média de 268 dias e desvio-padrão de 15
dias, determine se o tempo de gravidez da mulher pode ser
considerado comum.
O marido tem razão de se preocupar?
xi − x
zi =
s
40
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Regra 68 -- 95 -- 99
Escores padronizados (z)
Regra 68 -- 95 -- 99
xi − x
zi =
s
Cerca de 68% dos valores estão a menos de 1 desvio padrão a
contar da média (-1 < z < 1)
Cerca de 95% dos valores estão a menos de 2 desvios padrão a
contar da média (-2 < z < 2)
Cerca de 99% dos valores estão a menos de 3 desvios padrão a
contar da média (-3 < z < 3)
41
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Skewness and Kurtosis
Assimetria (Skewness)
Próximo de 0: Simétrico
Menor que 0: Assimétrico à
Esquerda
Maior que 0: Assimétrico à
Direita
Achatamento (Kurtosis)
Próximo de 0: Pico Normal
Menor que 0: Mais achatada
que o Normal (Uniforme)
Maior que 0: Menos achatada
que o normal (Afinada)
42
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Skewness - Assimetria
Positiva
~Nula
Negativa
n
n
3
(
)
Ass =
x
−
x
∑ i
(n − 1)(n − 2) i=1
43
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Kurtosis - Achatamento
Normal K~0
Mesocúrtica
Leptocúrtica
K>>0
Platicúrtica
K<<0
2
n
n(n + 1)
3
(
n
−
1
)
4
(
)
K=
x
−
x
−
∑
i
(n − 1)(n − 2)(n − 3) i=1
(n − 2)(n − 3)
44
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Exercício
Encontre todas as estatísticas descritivas para a
série da tabela a seguir.
10
23
34
40
58
74
13
24
35
41
58
80
15
25
37
48
63
82
15
25
38
53
64
88
20
30
39
58
70
250
21
32
39
58
70
254
45
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição de Freqüências
Ex.: População = X=Diâmetro de determinada peça (em mm).
Dados brutos: { 168, 164, 164, 163, 165, 168, 165, 164, 168, 168 }
Rol: { 163, 164, 164, 164, 165, 165, 168, 168, 168, 168 }
Amplitude (H) = 168 - 163 = 5
K
ni
fi
Ni
Fi
(Frequência
Absoluta)
(Frequência
Relativa)
(Frequência
Absoluta
Acumulada)
Frequência
Relativa
Acumulada)
163
1
0.1
1
0.1
164
3
0.3
4
0.4
X
∑n
i
=n
1
ni
fi =
n
K
165
2
0.2
6
0.6
168
4
0.4
10
1.0
Σ
10
1
∑f
i=1
i
=1
Ni
Fi =
n
46
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Classes (ou Categorias)
DISTRIBUIÇÃO DE FREQUÊNCIAS
x
xi
ni
fi
f%
(Variável)
(ponto
médio)
(frequência
absoluta)
(frequência
relativa)
(frequência
percentual)
10 ├ ─ 20
15
2
0.04
4
2
0.04
4
20 ├ ─ 30
25
12
0.24
24
14
0.28
28
30 ├ ─ 40
35
18
0.36
36
32
0.64
64
40 ├ ─ 50
45
13
0.26
26
45
0.9
90
50 ├ ─ 60
55
5
0.1
10
50
1.0
100
50
1
100
Σ
Ni
Fi
(Absoluta (Relativa
Acum.)
Acum.)
F%
(Percentual
Acum.)
47
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Classes (ou Categorias)
EXEMPLO – MÉDIA P/DADOS AGRUPADOS
x
xi
ni
(Variável) (ponto (frequência
médio) absoluta)
(Xi).(ni)
Média = X =
10 ├ ─ 20
15
2
30
20 ├ ─ 30
25
12
300
30 ├ ─ 40
35
18
630
40 ├ ─ 50
45
13
585
50 ├ ─ 60
55
5
275
50
1820
Σ
n
∑ x .n
i =1
n
i
i
∑n
i =1
i
1820
X=
= 36,4
50
48
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Histogramas
Construção da tabela de distribuição de
freqüências a partir do histograma de classes
desiguais.
Exercício: Complete a tabela.
ni
X
10
fi
|-- 20
8
10
6
20 |-- 30
4
ni
30 |-- 40
2
40 |-- 60
10
20
30
40
60
x
Σ
1
49
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Soma de Normais
Processo A
Processo B
Tempo Total (A+B)
?
3
X=3
s=1
7
X=7
s=2
S A +B =
2
SA
+
2
SB
=
2
(1) + (2)
2
=
5 = 2.23
≠ 1+ 2 = 3
Correto;
Some as
variâncias e
depois
obtenha o
Desvio
Padrão
Incorreto;
50
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Diferença de Normais
Linha A
Diferença:
Linha A – Linha B
Linha B
?
-10
0
-5
X = 3
s = 1
X A −B = X A - XB = 3 - 7 = - 4
2
2
2
2
SA– B = SA + SB = (1) + (2)
5
10
15
X = 7
s = 2
= 5 = 2.23
Correto
≠ 1 − 2= −1
Incorreto
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
51
Estatística Aplicada
Representação Gráfica:Ramo-e-folhas
 x
Ramos  x x
 x x x x x
graficos.mtw
Ex.:
11
Folhas
 x x x
81
113
108
74
79
78
90
93
105
109
93
106
103
100
100
100
101
101
101
95
90
94
90
91
92
93
87
89
78
89
85
94
86
3
10
8
5
9
6
3
0
0
0
1 1
1
9
0
3
3
5
0
4
0
1
2 3
4
8
1
7
9
9
5
6
7
4
9
8
8
11
3
10+
8
5
9
6
10-
3
0
0
0
1
1
1
9-
0
3
3
5
0
4
0
8
1
7
9
9
5
6
7
4
9
8
8
1
2
3
4
52
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Ramo-e-folhas
Stem-and-Leaf Display: folha_ramo
Obtendo o
seguinte Folha
e Ramo.
Compare os
resultados
fazendo um
Histograma.
O que
representa tal
coluna?
Stem-and-leaf of Ramo
Leaf Unit = 1.0
1
4
5
10
(10)
13
12
5
1
7
7
8
8
9
9
10
10
11
N = 33
4
889
1
56799
Coluna
0001233344 folha_ramo
5
0001113
5689
3
53
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Plot
Exercício no Minitab: Faça o gráfico
abaixo a partir dos dados seguintes.
graficos.mtw
54
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
<Marginal Plot>
Faça o gráfico
bidimensional a partir
dos dados a seguir
graficos.mtw
55
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Runchart
<Stat> <Quality Tools>
<Run Chart>
•Column=Tempo na fila
•Subgroup Size=1
runchart.mtw
Os dados representam uma série temporal
Tal gráfico é útil para ver a estabilidade de
um processo.
Control Chart é Melhor!
56
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Multi-Vari
•Identifica Diversos tipos de variação
•A análise de efeitos é similar em DOE
Sinter.mtw
•Permite identificar interações
•Não é o mesmo que Estatística Multivariada
TempoSinter
Use os
0,5
23,5
Dados a seguir
1,0
2,0
22,5
<Stat>
21,5
Força
<Quality Tools>
<Multi-Vari>:
20,5
19,5
Response: Força (y)
18,5
Factor1: TempoSinter (x1)
17,5
Factor2: TipoMetal (x2)
15
18
21
TipoMetal
57
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Nível 0,5
x1 x2
y
0,5 15 23
0,5 15 20
0,5 15 21
0,5 18 22
0,5 18 19
0,5 18 20
0,5 21 19
0,5 21 18
0,5 21 21
Multi-Vari – Monte a Tabela
Nível 1,0
x1 x2
y
1
15 22
1
15 20
1
15 19
1
18 24
1
18 25
1
18 22
1
21 20
1
21 19
1
21 22
Nível 2,0
x1 x2 y
2
15 18
2
15 18
2
15 16
2
18 21
2
18 23
2
18 20
2
21 20
2
21 22
2
21 24
58
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
2 - DISTRIBUIÇÕES DE PROBABILIDADE
59
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Sumário
1 - Motivação
2 - Distribuições de Probabilidade
• Distribuições Contínuas
• Distribuição Discretas
60
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Motivação
•O reconhecimento da importância dos
processos estocásticos;
•A consideração da “Incerteza” associada aos
eventos;
•Exatidão na modelagem matemática;
•Correta determinação da probabilidade de
ocorrência dos fenômenos;
•A otimização de processos industriais e de
serviços através de técnicas de SIMULAÇÃO.
61
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
DISTRIBUIÇÕES DE PROBABILIDADE
62
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Formatos de Distribuições
63
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuições Contínuas de Probabilidade
f ( x )≥0
Área da curva é unitária
Probabilidade está
associada a área
∫
∞
−∞
f (x ) = 1
P(a ≤ X ≤ b ) = ∫ f ( x)dx
b
a
f(x) => fdp
Função densidade
de probabilidade
(b > a )
Algumas Distribuições Contínuas:
Normal Uniforme Chi-square Fisher(F) Student(t)
Beta Cauchy Exponential Gamma Laplace Logistic Lognormal Weibull
64
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Distribuição Normal
Estatística Aplicada
a)
∫
∞
−∞
f ( x )dx = 1
b) f ( x ) ≥ 0
f(x)
c) lim f ( x ) = 0
x→ ∞
e
lim f ( x ) = 0
x→ −∞
d) f(µ + x) = f(µ - x)
µ
1
f ( x) =
e
σ 2π
 x−µ 
− (1 2 )

 σ 
µ+σ
2
x
e) M áx f(x) o co rre em x = µ
f) O s p o nto s d e inflexão são x = µ ± σ
g ) E (X ) = µ
h) V a r(X ) = σ 2
65
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Distribuição Normal
Estatística Aplicada
Pouca Utilidade
Prática
Retorna a probabilidade
Acumulada
Retorna a Variável quando
é dada a probabilidade
acumulada
Exemplo
X:N(100,5)
P(X<=95)=0,1587
66
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Distribuição Normal
Estatística Aplicada
Se a dimensão de uma peça
segue uma distribuição Normal
X: N(80,3) qual a Probabiliade
de ter uma peça defeituosa de
acordo com a figura?
µ
X : N (µ ;σ )
1σ
σ
p(d)
T
LSE
3σ
σ
Used With Permission
 6 Sigma Academy Inc. 1995
67
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição Normal
Exercício 1:
Em uma população onde as medidas
tem Média 100 e Desvio Padrão 5,
determine a probabilidade de se ter
uma medida:
a)
Entre 100 e 115
Dica:
b)
Entre 100 e 90
c)
Superior a 110
d)
Inferior a 95
Crie uma
coluna com
os valores
100 115...98
no Minitab
e)
Inferior a 105
f)
Superior a 97
g)
Entre 105 e 112
h)
Entre 89 e 93
i)
98
Use: <Calc><Probability
Distribution><Normal>
Crie uma
coluna com
os valores
0,74...0,05 no
Minitab
Exercício 2:
Em uma população onde as medidas tem
Média 100 e Desvio Padrão 5, determine
os valores k tais que se tenha a
probabilidade:
a)
P(X>k)=0,26
b)
P(X<k)=0,32
c)
P(100-k<100<100+k)=0,47
d)
P(x<100-k)+P(x>100+k)=5%
68
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Probabilidades e Escores padronizados (z)
Exemplo
Um cliente tem um portfólio de investimentos cuja média é US$
500.000 com desvio padrão de US$ 15.000. Determine a
probabilidade de que o valor de seu portfólio esteja entre US$
485.000 e US$ 530.000.
zi =
xi − µ
σ
69
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Probabilidades e Escores padronizados (z)
Exemplo
Se X tem distribuição normal N(15, 4), encontre a
probabilidade de X ser maior que 18.
Exemplo
Uma companhia produz lâmpadas cuja vida segue
uma distribuição normal com média 1.200 horas e
desvio padrão de 250 horas. Escolhendo-se
aleatoriamente uma lâmpada, qual é a
probabilidade de sua durabilidade estar entre 900 e
1.300 horas?
70
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Probabilidades e Escores padronizados (z)
Exemplo
Um grupo de estudantes obtém notas que são normalmente
distribuídas com média 60 e desvio padrão 15. Que proporção
dos estudantes obtiveram notas entre 85 e 95?
Exemplo
No caso da prova do exercício anterior, determine a
nota acima da qual estão 10% dos melhores alunos
da classe.
71
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Probabilidades e Escores padronizados (z)
Exercício
É sabido que a quantidade anual de dinheiro gasto em livros por
alunos de uma universidade, segue uma distribuição normal com
média $380 e desvio padrão de $50.
Qual é a probabilidade de que
um aluno escolhido
aleatoriamente no campus gaste
mais do que $ 360 por ano?
72
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Probabilidades e Produção
Exercício
A demanda antecipada de consumo de um certo produto é
representada por uma distribuição normal com média 1.200
unidades e desvio padrão de 100.
a) Qual é a probabilidade de que as vendas
excedam 1.000 unidades?
b) Qual é a probabilidade de que as vendas
estejam entre 1.100 e 1300 unidades?
c) A probabilidade de se vender mais do que
k unidades é de 10%. Determine k.
73
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Probabilidades e Investimentos
Exercício
Um portfólio de investimentos contém ações de um grande número
de empresas. Ao longo do último ano as taxas de retorno das ações
dessas corporações seguiram distribuição normal com média de
12,2% e desvio padrão de 7,2%.
a) Para que proporção de empresas o
retorno foi maior que 20%?
b) Para que proporção de empresas o
retorno foi negativo?
c) Que proporção de empresas tiveram
retornos entre 5% e 15%?
74
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Probabilidades e Investimentos
Exercício
Considere dois investimentos. Em ambos, a taxa de retorno segue
uma distribuição normal, com média e desvio padrão conhecidos
conforme tabela a seguir. Deseja saber qual dos investimentos é
mais provável de produzir retornos de no mínimo 10%. Que
investimento deveria ser escolhido?
Média Desvio
Investimento A
10,4
1,2
Investimento B
11,0
4,0
75
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Probabilidades e Finanças
Exercício
Um portifólio de investimentos contém ações de um grande número
de empresas. Ao longo do último ano as taxas de retorno das ações
dessas corporações seguiram distribuição normal com média de
12,2% e desvio padrão de 7,2%.
a) Para que proporção de empresas o
retorno foi maior que 20%?
b) Para que proporção de empresas o
retorno foi negativo?
c) Que proporção de empresas tiveram
retornos entre 5% e 15%?
76
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição Uniforme
+∞
+∞
−∞
−∞
µ = E ( X ) = ∫ xf ( x)dx σ 2 = Var ( X ) =
2
(
)
x
−
µ
f ( x)dx
∫
A =1
A = b.h = (b − a) f ( x) = 1
F(x)
a
1
f ((xx) =
(b − a)
b
1
a+b
µ = E(X ) = ∫ x
dx =
b−a
2
a
b
σ 2 = Var ( X ) =
+∞
2
(
)
x
−
µ
∫
−∞
  a + b   1 
(
b − a)
f ( x) dx = ∫  x − 
 
dx =
12
 2   b − a 
− ∞
77
+∞
2
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
2
Estatística Aplicada
Distribuição Exponencial
Função Exponencial
0
0,06
f (x ) = λ.e
0,05
− λxi
F(x)
0,04
0,03
0,02
0,01
0,00
0
0
20
40
60
80
100
120
140
x
∞
1
− λx
(
)
µ = E X = ∫ xλe dx =
λ
0
σ 2 = Var ( X ) =
+∞
2
(
)
µ
x
−
∫
−∞
+∞
2
  1 
1
− λx
f ( x)dx = ∫  x −   λe dx = 2
λ
 λ 
0 
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
78
Estatística Aplicada
Distribuição Weibull
Weibull
0
1,0
Variable
C7 * Weibull 1 1
C8 * Weibull 3,4 2
C9 * Weibull 4,5 6.2
Y-Data
0,8
β x
f (x ) =  
δ δ 
β −1
e
x
− 
δ 
β
0,6
0,4
0,2
0,0
0
0
2
4
6
8
10
X-Data
79
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição Uniforme
Exemplo
A espessura de um componente é uma variável aleatória
uniformemente distribuída entre os valores 0,95 a 1,05 cm.
a) Determine a proporção de componentes
que excedem a espessura de 1,02 cm.
b) Qual é o valor de espessura que é excedida
por 90% dos componentes?
c) Qual é o valor da espessura abaixo da qual
estão 75% dos componentes?
80
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição Uniforme
Exemplo
Suponha que uma variável aleatória seja uniformemente distribuída
no intervalo [1.5; 5.5].
a) Determine a probabilidade de x ser menor
que 2,5.
b) Qual é a probabilidade de x ser maior que
3,5?
c) Determine o valor de k, de modo que a
probabilidade de x ser maior que k seja de
40%
81
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição Exponencial
Exemplo
Considere o seguinte conjunto de dados: [26, 22, 21, 19, 8, 4].
Ajustando estes dados por distribuição exponencial, determine:
a) A probabilidade de uma v.a. x ser menor
que 10.
b) A probabilidade de uma v.a. x ser menor
que 5.
c) P(5< x < 10).
82
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição Exponencial
Exemplo
Suponha que X tem uma distribuição exponencial com média igual
a 10. Determine:
a) A probabilidade de uma v.a. x ser maior
que 10.
b) A probabilidade de uma v.a. x ser menor
que 20.
c) Encontre k tal que P(X<k)=0,95
83
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição Exponencial
Exemplo
O tempo entre as chamadas telefônicas para uma loja de
suprimentos é distribuído exponencialmente com um tempo médio
de 15 minutos entre as chamadas. Determine:
a) A probabilidade de não haver chamadas por um
período de 30 minutos.
b) A probabilidade de que no mínimo uma chamada
chegue dentro do intervalo de 10 minutos.
c) A probabilidade de que a primeira chamada chegue
entre 5 e 10 minutos.
d) O intervalo de tempo, tal que exista uma
probabilidade de 90% de haver no mínimo uma
chamada no intervalo.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
84
Estatística Aplicada
Distribuição Exponencial
Exemplo
O tempo entre as chegadas de ônibus a uma estação rodoviária é
distribuído exponencialmente, com média 10 min. Determine:
a) x, tal que a probabilidade de vc esperar
mais de x minutos seja de 10%.
b) x, tal que a probabilidade de vc esperar
menos de x minutos seja de 90%.
c) x, tal que a probabilidade de vc esperar
menos de x minutos seja de 50%.
85
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição Exponencial
Exemplo
O tempo entre a chegada de e-mails em seu computador é
distribuído exponencialmente com média igual a duas horas.
Determine:
a) Qual a probabilidade de vc não receber
uma mensagem durante o período de
duas horas?
b) Se vc não tiver recebido uma
mensagem na últimas quatro horas,
qual será a probabilidade de vc não
receber mensagens nas próximas duas
horas?
86
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição Exponencial
Exemplo
O tempo entre as chamadas para o escritório do CEO de uma
corporação é exponencialmente distribuído com média igual a 10
minutos. Determine:
a) Qual a probabilidade de não haver
chamadas dentro de meia hora?
b) Se a secretária do CEO se ausentar por
5 minutos, qual será probabilidade dela
não atender (e repassar) uma
“importante” ligação para o chefe?
87
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição Discretas de Probabilidade
f ( xi )≥0
Algumas Distribuições
Discretas
A Distribuição Binomial
A Distribuição de Poisson
n
A soma das
frequências é
unitária
∑ f (x ) = 1
A Distribuição Geométrica
A Distribuição de Pascal
A Distribuição Multinomial
A Distribuição Hipergeométrica
i =1
i
P( X = xi ) = f ( xi )
A probabilidade
é a frequência
88
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição Binomial
Use o programa
Statdisk
<Analysis>
<Probability
Distribution>
<Binomial
Distribution>
Observe em <Options> os valores acumulados
89
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição Binomial

n!  x
 p (1 − p ) n − x x = 0,1,2,...n
P ( X = x ) = 
 x!(n − x )! 
=0
para outros valores
E(X) = np e Var (X) = npq
Ex.: A probabilidade de um teste “Burn in / Burn out”
queimar um componente eletrônico é 0,2 (p). Colocando-se
três (n) componentes sob teste, qual a probabilidade de que
pelo menos dois deles (x) se “queime”?
90
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição Binomial
E = {QQQ, QQN, QNQ, NQQ, NNQ, NQN, QNN, NNN}
onde Q e N representam a queima ou não do componente
x
P(x)
0
P{NNN} = P(X = 0) = q3 = (0.8)3
1
P{NNQ} + P{NQN} + P{QNN} = P(X = 1) = 3pq2 = 3(0.2)(0.8)2
2
P{QQN} + P{QNQ} + P{NQQ} = P(X = 2) = 3p2q = 3(0.2)2(0.8)
3
P{QQQ} = P(X = 3) = p3 = (0.2)3
X: Número de Queimas Q
P(X ≥ 2) = P(X=2) + P(X= 3) = 3p2q + p3 = 0.104 = 10,4%
91
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição Binomial
Exercício:
Suponha que uma válvula eletrônica, instalada em determinado
circuito, tenha probabilidade 0.2 de funcionar durante o tempo de
garantia. São ensaiadas 20 válvulas.
a) Qual a probabilidade de que delas, exatamente k,
funcionem durante o tempo de garantia (k = 0, 1, 2, ...
20)?
b) Qual a probabilidade de que 4 funcionem durante o
tempo de garantia?
c) Qual o número médio e o desvio padrão de válvulas que
irão funcionar durante o tempo de garantia?
X ≡ Número de válvulas que funcionam durante o tempo de garantia.
p = 0.2
X = 0, 1, 2, ... 20
92
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Distribuição Binomial
Estatística Aplicada
P(X = x)
n x
P( X = x ) =   p (1 − p ) n − x x = 0,1,2,Ln
 x
=0
para outros valores
E(X) = np e
Var (X) = npq
com média E(x) = np = 20.(0.2) = 4
.
e desvio padrão npq = 1788
 20 
k
20 − k
P( X = k ) = (0.2 ) (0.8)
k
0 1 2 3 4 5 6 7 8 9
18
x
93
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Distribuição Binomial
Estatística Aplicada
Exercício: Complete a tabela referente a Distribuição Binomial a seguir:
n
p
k
4
0,2 2
8
0,5 4
12
0,7 3
20
0,8 12
P(X=k)
F(k)
P(X>k) P(X<k) E(x)
100 0,6 63
94
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Distribuição Binomial
Estatística Aplicada
n
p
k P(X=k)
4
0,2 2
0,1536
8
0,5 4
0,2734
12 0,7 3
F(k)
left k
0,97
P(X>k) P(X<k) E(x)
right left k-1 n.p
0,0272 0,8192 0,8
0,3633
0,0899
4
0,0015 0,0017 0,9983
0,0002
8,4
20 0,8 12 0,0222
0,9679
0,0099
16
100 0,6 63 0,0682
0,2386
0,6932
60
95
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição
Hipergeométrica
Ex.: Pequenos motores elétricos são expedidos em lotes de 50
unidades. Antes que uma remessa seja aprovada, um inspetor
escolhe 5 desses motores e os inspeciona. Se nenhum dos
motores inspecionados for defeituoso, o lote é aprovado. Se um
ou mais forem verificados defeituosos, todos os motores da
remessa são inspecionados. Suponha que existam, de fato, três
motores defeituosos no lote. Qual a probabilidade de que a
inspeção 100% seja necessária?
 3  47
  
 0  5 
P( X ≥ 1) = 1 − P( X = 0) = 1 −
≅ 0.28
50
 
5
96
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição
Hipergeométrica
P(X ≥1) =1− P(X = 0)
97
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Distribuição de Poisson
Estatística Aplicada
e − λ λk
P( X = k ) =
X = 0 , 1, 2,L
k!
λ = µ = np σ = µ = np
Ex.: Em uma experiência de laboratório passam, em média, por
um contador, quatro partículas radioativas por milissegundo.
Qual a probabilidade de entrarem no contador seis partículas em
determinado milissegundo?
Utilizando a distribuição de Poisson com λ = 4, então:
−4
6
e 4
P ( X = 6) =
= 0.1042
6!
No Minitab use: <Calc> <Probability Distribution> <Poisson>
98
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição de Poisson
Use o programa
Statdisk
<Analysis>
<Probability
Distribution>
<Poisson
Distribution>
Observe em <Options> os valores acumulados
99
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Distribuição de Poisson
Estatística Aplicada
Exercício: Complete a tabela referente à Distribuição Poisson:
Média
k
P(X=k)
F(k)
P(X>k)
P(X<k)
4
2
0,14
0,23
0,76
0,091
8
4
12
3
20
12
100
63
100
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição de Poisson
Ex.: Chegam, em média, 10 naviostanque por dia a um movimentado
porto, que tem capacidade para 15
desses navios. Qual a probabilidade
de que, em determinado dia, um ou
mais navios tanque tenham de ficar ao
largo, aguardando vaga?
Temos aqui que, para λ = 10:
P ( X > 15) = 1 − P ( X ≤ 15) = 1 − 0.9513 = 0.0487
101
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição de Poisson
Ex.: Uma central telefônica recebe em média
300 chamadas por hora e pode processar no
máximo 10 ligações por minuto. Estimar a
probabilidade de a capacidade da mesa ser
ultrapassada.
Temos agora:
λ = 300/60 = 5 chamadas/minuto em média
P ( X > 10) = 1 − P ( X ≤ 10) = 1 − 0.986 = 0.014 = 1,4%
102
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Distribuição de Poisson
Estatística Aplicada
Aproximação da Distribuição Binomial
Seja X uma v.a. distribuída binomialmente com parâmetro p
(baseado em n repetições de um experimento). Isto é,
n k
n−k
P( X = k) =  p (1− p)
k
Admita-se que quando n → ∞, p →0 e np → λ.
Nessas condições é possível demonstrar uma importante consideração:
e−λλk
limP(X = k) =
n→∞
k!
103
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição de Poisson
Aproximação da Distribuição Binomial
Ex.: A probabilidade de um indivíduo ter reação negativa a certa
injeção é de 0,001. Determinar a probabilidade de que de 2.000
indivíduos injetados, exatamente 3 tenham reação negativa.
Usando a distribuição binomial com n = 2.000 e p = 0.001 temos:
 2000 
(0.001) 3 (0.999)1997
P( X = 3) = 
 3 
O cálculo desses números dá origem a considerável dificuldade. Pela
aproximação de Poisson temos:
−2 3
e
2
α = np = (2000)(0.001) = 2
P ( X = 3) =
= 0.1804
3!
104
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Distribuição de Poisson
Estatística Aplicada
Aproximação da Distribuição Binomial
Ex.: Consideremos um experimento binomial com n = 200, p = 0.04
em que se pede a probabilidade de, no máximo, 5 sucessos.
O cálculo direto é impraticável, usando a Distribuição Binomial
 200 
(0.04) k (0.96) 5− k
P ( X ≤ 5) = ∑ 
k =0  k 
5
λ = np = (200) (0.04) = 8
P(X ≤ 5) = 0.1912 Obtido de Tabela (ou micro)
105
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Distribuição de Poisson
Ex.: A probabilidade de um indivíduo ter reação negativa a certa
injeção é de 0,001. Determinar a probabilidade de que de 2.000
indivíduos injetados, mais de quatro tenham reação negativa.
α = np = (2000)(0.001) = 2
P( X > 4 ) = 1 − [ P( X = 4 ) + P( X = 3) + P( X = 2 ) + P( X = 1) + P( X = 0 )]
 e − 2 2 4 e − 2 23 e − 2 2 e − 2 20 
= 1− 
+
+
+

4
!
3
!
1
!
0
!


8 4

− 2  16
= 1 − e  + + + 2 + 1 = 0.0526
 24 6 2

106
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
3 - Estimação de Parâmetros e Intervalos de
Confiança
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Estimação de Parâmetros e IC
Idéia Central:
Criar e avaliar intervalos de Confiança
para dados amostrais.
Tópicos abordados:
• Inferência Estatística
• O Teorema Central do Limite
• Intervalos de Confiança
• A Distribuição t de Student.
108
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
População
Estimação de
Parâmetros Noções
Amostragem
Ex.: Para a
distribuição
normal os
parâmetros são
µ e σ2.
Estimação de parâmetros
Inferência
e escolha da Distribuição
Estatística
Cálculo de Probabilidades
(Usando a Distribuição acima)
Os termos
população e
distribuição são
equivalentes.
Informação para
tomada de decisão
109
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Nomenclatura
110
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
O Teorema Central do Limite
“Para uma população não normal com média µ e
desvio padrão σ, a distribuição da média
amostral X
para amostras de tamanho n
suficientemente grande é aproximadamente
normal com média µ e desvio padrão σ n ,
isto é:
X − µ ~ N : (0,1)”
Ζ=
σ
n
Ou seja:
Se X:(µ, σ) então a distribuição amostral de X é N(:(µ, σ
n)
111
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
TCL
“Para uma população normal com média µ e
desvio padrão σ, a média amostral X para amostras
de tamanho n suficientemente grande é
aproximadamente normal com média µ e desvio
padrão σ n , isto é:
X −µ
~ N : (0,1)”
Ζ=
σ n
Ou seja:
Se X:N(µ, σ) então a média amostral de X é N:(µ,
Erro Padrão = Standard Error=SE=
σ
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
σ
n
n)
112
Estatística Aplicada
=IC ( µ :95%) ... para Sigma conhecido
Consideremos uma população normal com média µ, desvio padrão σ e uma
amostra dessa população.
X −u
σ n
Fixando α em 0.05,
ou seja, 1- α=0.95,
~ N : (0,1)
Pelos resultados do Teorema do
Limite Central
0.95
P (−1.96 < Z < 1.96) = 0.95
0.025
0.025
X
-1.96
0
1.96
z
113
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Confiança e Significância
População normal com média µ e desvio padrão σ
Pelos resultados do TCL:
X −u
σ n
α : Nível de significância
1- α: Nível de confiança
~ N : (0,1)
P (−1.96 < Z < 1.96) = 0.95


X −µ
P− 1.96 <
< 1.96 = 0.95
σ n


[
]
[θˆ ;θˆ ] = [X − 1.96(σ n ); X + 1.96(σ n )] =IC (µ :95%)
P X − 1.96(σ
0
n ) < µ < X + 1.96(σ
n ) = 0.95
1
114
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
[
IC - Interpretação
P X − 1.96(σ
n ) < µ < X + 1.96(σ
]
n ) = 0.95
Ela não significa que a
probabilidade
do
parâmetro µ cair dentro
de
um
intervalo
especificado seja igual a
0.95.
µ
sendo
o
parâmetro, está ou não,
dentro do intervalo.
θ
“0.95 é a probabilidade de que um
intervalo aleatório contenha µ .”
115
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
=IC ( µ :95%) ... para Sigma Desconhecido
[
(
IC ( µ : (1 − α )100) = X − tα 2 S
( X − µ)
t=
S n
)
(
n ; X + tα 2 S
n
)]
1 n
2
S =
(
X
−
X
)
∑
i
n − 1 i =1
2
1-α
α/2
α/2
t
- tα/2
0
tα/2
116
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
“Distribuição t de
Student”, com v
graus de liberdade
v=n-1
(Distribuição t de Student)
(X − µ)
t=
S n
1 n
2
S =
(
X
−
X
)
∑ i
n − 1 i =1
2
Normal
hv(t)
Tal distribuição é
usualmente tabelada para
alguns valores de v e α
t
117
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Intervalos de Confiança para PROPORÇÕES
Exemplo
Uma amostra aleatória de 85 camisas, 10 apresentaram algum tipo
de defeito (furos, manchas, costuras soltas etc). Construa um
intervalo de confiança de 95% para a proporção populacional de
defeituosos.
pˆ − Zα 2
pˆ (1 − pˆ )
≤ p ≤ pˆ + Zα 2
n
pˆ (1 − pˆ )
n
Usando a aproximação pela NORMAL.
118
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Tamanho de Amostra
Exemplo
Um candidato político deseja avaliar se as
suas intenções de votos são maiores do
que as do concorrente, com uma margem
de pelo menos 5%. Possui, na última
pesquisa realizada, 35% da preferência
do eleitorado.
Admitindo a = 1% e b = 5%, qual o tamanho
de amostra necessária?
119
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Power and Sample Size
selecionar: Stat > Power and Sample Size > 2 Proportions
“Proportion 1 values”: < 0,35 >
“Power values”: < 0,95 >
“Proportion 2”: < 0,30 >
selecionar: Options
marcar “Greater Than”
“Significance level”: < 0,01 >
OK
OK
120
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Teste de
Hipóteses
4-Teste de
Hipóteses
H0 : µ A = µB
B
A
Rejeita-se H0
P_value<0.05
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
Teste de
Hipóteses
São diferenças Estatisticamente
Significantes?
A perda em um processo caiu de uma proporção de 10% para 5%.
Dois operadores tem em média tempos de 34 e 40 minutos,
respectivamente para desenvolver uma atividade.
Quanto maior o número de horas-extras maior a insatisfação dos
trabalhadores (correlação de 0.40)
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
Teste de
Hipóteses
•
•
•
•
•
•
•
Procedimentos Gerais
Teste de média Z para 1 amostra
Teste de média t para 1 amostra
Teste de variância para 2 amostras
A Distribuição de Fisher
Teste de média t para 2 amostras
Teste de média para Observações
Emparelhadas
Teste de proporções
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
123
Teste de
Hipóteses
Erros e Hipóteses
•Na afirmação: “Uma pessoa é considerada inocente até
que se prove o contrário pois é um erro maior condenar
um inocente do que libertar um culpado.”, defina:
•Erros Tipo I e Tipo II
•Hipóteses Nula e Alternativa
Situação Real
RC
Ho
Ho
H1
Correta
Erro II
β
Decisão
H1
Erro I
Correta
α
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
124
Teste de
Hipóteses
Testes Paramétricos e Não Paramétricos
Paramétricos
Não Paramétricos
Ho: Dados Normais H1: Dados não normais
P_value
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
125
Teste de
Hipóteses
Algoritmo Básico de Implementação
No Minitab: Análise do p-value !
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
126
Teste de
Hipóteses
Exemplo de Algoritmo Básico
Teste de dois tipos de
Amplificadores
Amostra de 25 amplificadores
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
127
Teste de
Hipóteses
Exemplo de Algoritmo Básico
4º passo: Cálculo da média amostral com base nas 25 amostras
5º passo: Caso a média amostral pertença à região crítica, rejeita-se H0 e
aceita-se H1 (Dizemos que os amplificadores são do tipo “Não Americano”).
Em caso contrário, aceita-se H0.
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
128
Teste de
Hipóteses
Marcianos ou Venusianos?
Ver Programa John
Hattie e
Teste_Hipóteses
(flash)
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
129
Teste de
Hipóteses
Exemplos:
• Duas linhas de produção supostamente
idênticas estão apresentando resultados
diferentes. Como confirmar isso?
• A variabilidade de um processo é maior
que outro. Temos certeza?
• Os dados estão normalmente
distribuídos?
• Como saber estatisticamente se dois
funcionários tem o mesmo desempenho?
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
Teste de
Hipóteses
Quick Guide 1/2
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
Teste de
Hipóteses
Quick Guide 2/2
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
Teste de
Hipóteses
Exemplo
Teste de média Z
para 1 amostra
Processo de fabricação de latas
A Resistência ao Estufamento das latas para a
inspeção final deve ser maior que 90 psi. Tal
resistência obedece a uma distribuição normal
com desvio padrão de 1 psi . As medidas da
Resistência para uma determinada linha/turno
estão dadas na planilha Resistência.MTW
Teste a Hipótese de que as medidas da
Resistência ao Estufamento estão dentro do
limite de especificação. (Prove que as
medidas são maiores que 90)
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
Resistência.MTW
133
Teste de
Hipóteses
<1-Sample Z>
H1 é geralmente o que se
deseja provar
Geralmente não
é fornecido
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
134
Teste de
Hipóteses
1-Sample Z: Resultados
One-Sample Z: Resistencia
H0
H1
Uma boa regra: Quando
P_value< 0,05, rejeita-se Ho
Test of mu = 90 vs mu > 90
The assumed sigma = 1
Variable
Resistencia
Variable
Resistencia
N
15
Valor dentro da
Região Crítica
Mean
91,111
95,0% Lower Bound
90,686
Região
Crítica
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
StDev
0,834
Z
4,30
SE Mean
0,258
P
0,000
Rejeita-se H0
135
Teste de
Hipóteses
1-Sample Z: Histograma
Histogram of Resistencia
(with Ho and 95% Z-c onfidenc e bound for the mean, and s igma = 1,0000)
A média pertence a
região crítica para
rejeição de Ho
6
5
Frequency
4
3
2
1
0
_
X
Ho
[
89,5
90,0
90,5
91,0
91,5
92,0
92,5
93,0
Resistencia
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
136
Teste de
Hipóteses
Exemplo
Teste de média t
para 1 amostra
Processo de fabricação de latas
A especificação da Largura da Flange das latas
para a inspeção final é definida como
0.082’’+/- 0.010’’ e obedece a uma distribuição
normal. As medidas da Largura da Flange para
uma determinada linha/turno estão dadas na
planilha.
Teste a Hipótese de que as medidas da Largura
da Flange estão dentro do limite de
especificação. (Prove que os valores são em
média maiores que 0,072” e menores que
0,092”)
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
flange.MTW
137
Teste de
Hipóteses
<1-Sample t>
Teste 1
Teste 2
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
138
Teste de
Hipóteses
1-Sample t: Resultados
One-Sample T: Largura Flange
H0
H1
Test of mu = 0,092 vs mu < 0,092
Variable
Largura Flan
Variable
Largura Flan
N
15
Mean
0,083522
StDev
0,003446
95,0% Upper Bound
0,085089
T
-9,53
SE Mean
0,000890
P
0,000
Rejeita-se
H0
One-Sample T: Largura Flange
H0
H1
Test of mu = 0,072 vs mu > 0,072
Variable
Largura Flan
Variable
Largura Flan
N
15
Mean
0,083522
StDev
0,003446
95,0% Lower Bound
0,081955
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
T
12,95
SE Mean
0,000890
P
0,000
Rejeita-se
H0
139
Teste de
Hipóteses
1-Sample t: Histogramas
Histogram of Largura Flange
(with Ho and 95% t-confidenc e bound for the mean)
5
4
Frequency
O Teste t é usado para comparar
médias quando o desvio padrão da
população é desconhecido
3
2
1
Histogram of Largura Flange
_
X
0
[
(with Ho and 95% t-confidenc e bound for the mean)
0,079
5
0,081
0,083
0,085
0,087
0,089
0,091
Largura Flange
Frequency
4
3
2
1
_
X
0
Ho
]
0,079
0,081
0,083
0,085
0,087
Largura Flange
0,089
0,091
O teste t é usado na
maioria dos casos. O
termo t deve-se ao
estatístico Gosset que
criou a distribuição t de
Student.
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
140
Teste de
Hipóteses
Exemplo
Teste de Variância
para 2 amostras
Processo de fabricação de latas
Dois tipos de Bico de Aplicação de
verniz (Tipo I e Tipo II) foram
avaliados. Deseja-se investigar o
efeito desses dois Bicos com
relação ao Peso do Verniz (em mg)
medido após o processo. Tais
medidas são dadas na planilha ao
lado.
As variâncias são iguais? (Teste a
Hipótese nula de que os dois bicos
produzem um peso de Verniz com
mesma variância, ou seja, mesma
dispersão).
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
Peso_Verniz.MTW
141
Teste de
Hipóteses
<2 Variances>
Usando
2 Variances
Obs.: Teste o
Procedimento
Stack
Columns
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
142
Teste de
Hipóteses
2 Variances – Levene’s Test
Test for Equal Variances
95% Confidence Intervals for Sigmas
Factor Levels
Verniz_tipo1
Prefira
sempre pois
independe da
distribuição
dos dados
Verniz_tipo2
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
F-Test
Levene's Test
Test Statistic: 2.738
Test Statistic: 1.505
P-Value
P-Value
: 0.150
: 0.236
Boxplots of Raw Data
As variâncias são iguais!
Verniz_tipo1
Verniz_tipo2
110.0
110.5
111.0
111.5
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
112.0
112.5
143
Teste de
Hipóteses
2 Variances – Teste F de Fisher
Probability Density Function
y=F(x,10,10)
1.500
A Distribuição
F de Fisher
1.125
O Teste F testa se duas Variâncias são
iguais. Em caso de Variâncias
idênticas, F=1. Tal distribuição é
geralmente utilizada para cálculos
manuais pois é tabelada!
0.750
0.375
0.000
0
1
2
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
3
4
144
Teste de
Hipóteses
<Anova> <Test for equal variances>
USANDO Test for Equal Variances (melhor!!!)
Level1
Verniz_tipo1
Level2
Verniz_tipo2
ConfLvl
95.0000
<Anova> <test for equal variances>
Esse método é melhor pois pode testar
mais que dois conjuntos de dados.
Bonferroni confidence intervals for standard deviations
Lower
Sigma
Upper
N
Factor Levels
0.358564
0.548160
1.10380
10
Verniz_tipo1
0.216713
0.331303
0.66713
10
Verniz_tipo2
F-Test (normal distribution)
Test Statistic: 2.738
P-Value
: 0.150
Levene's Test (any continuous distribution)
Test Statistic: 1.505
P-Value
: 0.236
(variâncias iguais)
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
145
Teste de
Hipóteses
Teste de média t
para 2 amostras
Exemplo: Em relação ao problema anterior, teste se as médias são
diferentes. (Peso_Verniz.MTW)
Do teste
de Levene
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
146
Teste de
Hipóteses
<2-Sample t>
Two-Sample T-Test and CI: Verniz_tipo1, Verniz_tipo2
Two-sample T for Verniz_tipo1 vs Verniz_tipo2
N
Mean
StDev
SE Mean
Verniz_t
10
110.792
0.548
0.17
Verniz_t
10
112.205
0.331
0.10
Difference = mu Verniz_tipo1 - mu Verniz_tipo2
Estimate for difference:
-1.413
95% CI for difference: (-1.838, -0.987)
T-Test of difference = 0 (vs not =): T-Value = -6.97
P-Value = 0.000 DF = 18
Both use Pooled StDev = 0.453
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
Médias diferentes
147
Teste de
Hipóteses
2-Sample t: Boxplots
Boxplots of Verniz_t1 and Verniz_t2
(means are indicated by solid circles)
112.5
112.0
111.5
111.0
110.5
110.0
Verniz_t
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
Verniz_t
148
Teste de
Hipóteses
Exemplo
Teste para observações
emparelhadas
Processo de fabricação de latas
Suspeita-se que dois
funcionários estão
monitorando o Manômetro
do processo de Minster de
uma forma desigual. Para
diferentes pressões foram
lidas (de uma forma
emparelhada) os resultados
da planilha.
Teste a Hipótese Nula de
que os dois operadores tem
o mesmo desempenho.
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
Oper_Pressao.MTW
149
Teste de
Hipóteses
<Paired t>
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
150
Teste de
Hipóteses
Paired t: Resultados
Paired T-Test and CI: Operador 1, Operador 2
Paired T for Operador 1 - Operador 2
N
Mean
StDev
SE Mean
Operador 1
10
194
428
135
Operador 2
10
196
428
135
Difference
10
-2.400
1.075
0.340
95% CI for mean difference: (-3.169, -1.631)
T-Test of mean difference = 0 (vs not = 0): T-Value
= -7.06 P-Value = 0.000
Médias diferentes
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
151
Teste de
Hipóteses
Paired t: Boxplot
Boxplot of Differences
(with Ho and 95% t-confidence interval for the mean)
[
-4
]
_
X
-3
Ho
-2
-1
0
Differences
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
152
Teste de
Hipóteses
Teste para proporção
de 1 amostra
Exemplo: Durante a Inspeção final da lata acabada a
especificação define que entre 6 latas (vistas a cada hora em cada
linha) 5 não devem apresentar defeitos visuais por palete. As
inspeções correspondentes a 24 horas são feitas para dois dias em
meses diferentes (admita que a proporção se mantenha constante
ao longo dos dois dias). Temos Assim:
Dia 1: 12 Defeitos Visuais em 144 Latas Inspecionadas
Dia 2: 23 Defeitos Visuais em 144 Latas Inspecionadas
Teste a Hipótese Nula de que as duas proporções atendem às
especificações.
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
153
Teste de
Hipóteses
<1 Proportion>
Teste 1
Teste 2
Uma lata em cada 6 são
defeituosas 1/6=0,166667
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
154
Teste de
Hipóteses
1 Proportion: Resultados
Test and CI for One Proportion
Test of p = 0,166667 vs p > 0,166667
Sample
1
X
23
N
144
Sample p
0,159722
95,0% Lower Bound
0,111691
Exact
P-Value
0,623
Estão dentro da
especificação
Test and CI for One Proportion
Test of p = 0,166667 vs p > 0,166667
Sample
1
X
12
N
144
Sample p
0,083333
95,0% Lower Bound
0,048788
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
Exact
P-Value
0,999
155
Teste de
Hipóteses
<2 Proportions>
Em relação ao exemplo anterior, Teste
a Hipótese Nula de que as duas
proporções são iguais.
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
156
Teste de
Hipóteses
2 Proportions: Resultados
Test and CI for Two Proportions
Sample
1
2
X
12
23
N
144
144
Sample p
0,083333
0,159722
Estimate for p(1) - p(2): -0,0763889
95% CI for p(1) - p(2): (-0,151343; -0,00143469)
Test for p(1) - p(2) = 0 (vs not = 0): Z = -1,98
P-Value = 0,047
São diferentes
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
157
Teste de
Hipóteses
TESTES DE INDEPENDÊNCIA
χ2
Suponha que uma amostra com n observações possa ser
classificada em uma tabela cruzada, formada por um fator de
linha e um de coluna.
Se a hipótese nula puder ser escrita como:
H0: Não há associação entre os dois atributos.
Então a freqüência esperada dentro de cada célula será:
Eij =
Ri C j
n
Onde: Ri = total da linha i; Cj = total da coluna j
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
Teste de
Hipóteses
A rejeição da hipótese nula se dará se:
r
c
χ = ∑∑
2
T
i =1 j =1
(O
ij
− Eij )
2
Eij
>χ
2
( r −1)( c −1),α
O teste é baseado na magnitude da
discrepância entre as quantidades
observadas e esperadas.
159
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
Teste de
Hipóteses
Exemplo: De acordo com os dados da tabela abaixo,
avalie se existe relação entre o método de reserva
de passagens e o sexo do passageiro.
Método
Agência
160
H
M
256 (233,5) 74 (96,5)
Total
330
Internet
41 (58,7)
42 (24,3)
83
Toll-free
66 (70,8)
34 (29,2)
100
Total:
363
150
513
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
Teste de
Hipóteses
A rejeição da hipótese nula se dará se:
2
2
2
(
)
(
)
(
)
256
233
,
5
74
96
,
5
34
29
,
2
−
−
−
χ2 =
+
+ ... +
T
233,5
96,5
29,2
= 26,8
O valor crítico do teste será:
χ (2r −1)( c −1),α = χ 22, 0.05 = 5,99
Como o valor de teste é maior que o valor crítico, rejeita
H0. Logo, o tipo de reserva está relacionado ao sexo do
2
passageiro. O indício da diferença está no maior χ cel .
161
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
Teste de
Hipóteses
Exemplo: Following a presidential debate, people
were asked how they might vote in the forth coming
election. Is there any association between one’s
gender and choice of a candidate?
Gender
Total
162
Candidate
Male
Female
A
B
Total
150
100
250
130
120
250
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
280
220
500
Teste de
Hipóteses
Análise
Bidimensional
Distribuição Conjunta
A Distribuição Conjunta é usada para o estudo da associabilidade entre
variáveis. Ex.: A partir de uma renda familiar podemos estimar a classe
social de uma pessoa, pois sabemos da existência de dependência entre
essas duas variáveis.
Como ver a associação das variáveis
na Distribuição Conjunta abaixo?
X
Y
Masculino Feminino Total
Economia
85
35
120
Administração
55
25
80
Total
140
60
200
Distribuição conjunta das
freqüências das variáveis X
(Curso) e Y (Sexo)
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
163
Teste de
Hipóteses
X
Y
Ex.: Independência de Eventos
Masculino Feminino Total
Economia
85
35
120
Administração
55
25
80
Total
140
60
200
Distribuição conjunta das
freqüências das variáveis X
(curso) e Y (sexo)
Economia
61%
58%
60%
Administração
39%
42%
40%
Distribuição conjunta das proporções
em relação aos totais de cada coluna.
Independente do sexo, 60% preferem
Economia e 40% preferem
Total
100%
100%
100%
Administração
X
X
Y
Y
Masculino Feminino Total
Masculino Feminino Total
Economia
71%
29%
100%
Administração
69%
31%
100%
Total
70%
30%
100%
Distribuição conjunta das proporções
em relação aos totais de cada linha.
Independente do Curso, 70% é
Masculino e 30% é feminino
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
164
Teste de
Hipóteses
X
Y
<Chi-Square Test>
Masculino Feminino Total
Economia
85
35
120
Administração
55
25
80
Total
140
60
200
Escola A
X
Y
Masculino Feminino Total
Engenharia
100
20
120
C. Sociais
20
60
80
120
80
200
Total
Desenvolva a análise
de Independência de
Eventos para cada uma
das tabelas, usando o
Minitab
(Bidimensional.mtw)
<Stat> <Tables>
<Cross -Tabulation>
<Chi-Square Analysis>
Escola B
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
165
Teste de
Hipóteses
Estado
Esperados e Observados
Tipo de Cooperativa
Consumidor
Produtor
Escola
São Paulo 214 (33%)
237 (37%)
78 (12%) 119 (18%)
Paraná
51 (17%)
102 (34%) 126 (42%)
22 ( 7%)
301 (100%)
Rio G.Sul 111 (18%)
304 (51%) 139 (23%)
48 ( 8%)
602 (100%)
Total
643 (42%) 343 (22%) 189 (12%) 1551 (100%)
376 (24%)
Estado
Outros
Total
648 (100%)
Tipo de Cooperativa
Consumidor
Produtor
Escola
Outros
Total
156 (24%)
272 (42%)
142 (22%)
78 (12%)
648 (100%)
72 (24%)
127 (42%)
66 (22%)
36 (12%)
301 (100%)
Rio G.Sul
144 (24%)
254 (42%)
132 (22%)
72 (12%)
602 (100%)
Total
376 (24%)
643 (42%)
343 (22%)
189 (12%)
1551 (100%)
São Paulo
Paraná
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
Distribuição
conjunta das
proporções em
relação aos totais de
cada linha.
oij
Distribuição
conjunta dos
valores esperados
em relação aos
totais das linhas
eij
166
Teste de
Hipóteses
Chi-Square Test
Estado
Tipo de Cooperativa
Consumidor
Produtor
Escola
Outros
São Paulo
58
-35
-64
41
Paraná
-21
-25
60
-14
Rio G. Sul
-33
50
7
-24
Estado
nij = oij − eij
Tipo de Cooperativa
Consumidor
Produtor
Escola
Outros
São Paulo
21,56
4,50
28,84
21,55
Paraná
6,12
4,92
54,54
5,44
Rio G. Sul
7,56
9,84
0,37
8,00
Qui-Quadrado
χ 2 =∑
i
∑
j
(o − e )
(
o −e )
=
2
nij
ij
ij
eij
2
ij
ij
eij
= 21,56 + 6,12 + L + 8,00 = 173,379
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
167
Teste de
Hipóteses
Cross Tabulation
Estado
Tipo de Cooperativa
Consumidor
Produtor
Escola
São Paulo 214 (33%)
237 (37%)
78 (12%) 119 (18%)
Paraná
51 (17%)
102 (34%) 126 (42%)
22 ( 7%)
301 (100%)
Rio G.Sul 111 (18%)
304 (51%) 139 (23%)
48 ( 8%)
602 (100%)
Total
643 (42%) 343 (22%) 189 (12%) 1551 (100%)
376 (24%)
Outros
Total
648 (100%)
Desenvolva a análise de Independência de Eventos para a tabela,
usando o Minitab (Bidimensional.mtw)
<Stat> <Tables> <Cross Tabulation> Stacked
<Stat> <Tables> <Chi-Square> Unstacked
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
168
Estatística Aplicada
5– ANÁLISE DE VARIÂNCIA (ANOVA)
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
ANOVA
Análise de Variância
•
•
•
•
•
As bases da Análise de Variância
Um fator (One-way)
Dois fatores (Two-way)
Análise de Médias (ANOM)
Balanced ANOVA
ANOVA é um Teste para
Comparar Médias
(O nome é enganoso!)
170
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
ANOVA - Visualmente
Entendendo o
significado da
ANOVA...
171
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
As Bases da
ANOVA
Tratamentos
A
B
C
5
9
10
4
1
5
6
8
8
7
11
7
8
6
10
Somatório
30
35
40
Médias
6
7
8
Resposta
As médias são
realmente diferentes
ou tudo não passa de
casualidade?
H 0 : µ A = µ B = µC
H1 : Pelo menos um dos sinais = vai ser negado
172
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Algoritmo: Variação Total
Média geral
Passo 1: Cálculo da Variação Total
∑
Xi
X i − X = xi
5
5-7=-2
4
4
4-7=-3
9
Etc.
Etc.
Etc
7
0
0
10
3
9
105
0
96
Foram considerados 15
observações: DF=14
xi
2
Como SS>0 é
razoável
imaginar que ela
se compõe de
variações que
ocorrem Dentro
dos Grupos
(Within) e Entre
os tratamentos
(Between)
Variação Total (SS: Sum Squares)
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
173
Estatística Aplicada
Algoritmo: Variação Within
Passo 2: Cálculo da Variação Dentro do Grupo - Within
X A X A − X A ( X A − X A ) ( X B − X B ) ( X C − X C )2
2
5
5-6=-1
1
4
-2
4
6
0
0
7
1
1
8
2
4
10
VarWithin=SSW=10+58+18=86
2
58
18
Foram considerados 5 observações em
cada caso: DF=12
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
174
Estatística Aplicada
Algoritmo: Variação Between
Passo 3: Cálculo da Variação Entre Tratamentos (Between)
XA
XA − X
(X A − X )
6
-1
1
6
-1
1
6
-1
1
6
-1
1
6
-1
1
5
SSB=5+0+5=10
2
(X B − X )
0
2
(XC − X )
5
Foram considerados 3 observações:
DF=2
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
2
175
Estatística Aplicada
SS=SSW+SSB !
Algoritmo: Graus de Liberdade
96=86+10
Graus de Liberdade (DF):
SS possui (15-1)=14 DF
(3 Tratamentos) (5 Observ/Trat)
SSW possui (5-1)(3)=12 DF
(5 Observ/Amostra)(3 Amostras)
A
B
C
5
9
10
4
1
5
6
8
8
7
11
7
8
6
10
SSB possui (3-1)=2 DF
(3 Tratamentos -1)
DFSS=DFSSW+DFSSB !
14=12+02
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
176
Estatística Aplicada
SS=SSW+SSB !
Algoritmo: Teste de Fisher para Médias
96=86+10
DFSS=DFSSW+DFSSB !
14=12+02
Estimativas de Variâncias:
<Calc F>
SSB/DFSSB = 10/2 = 5
SSW/DFSSW = 86/12 = 7,17
F0= 5/7,17=0,70
Fcrítico= 3,89 (em função dos DFSSW, DFSSB e alfa=5%
F0<Fcrítico
Não se Rejeita Ho
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
177
Estatística Aplicada
Algoritmo: Quadro resumo
Quadro Resumo Básico
Fonte de
Variação
Própria
Variação
DF
Variância
Estimada
F0
SSB (ou SS
Factor)
10
2
10/2=5
5/7,17=0,70
SSW (ou
SS Error)
86
12
86/12=7,17
SS
96
14
178
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Minitab <ANOVA>One-Way Unstacked
One-way ANOVA: A; B; C (use unstacked)
Analysis of Variance
Source
DF
SS
MS
F
P
Factor
2
10,00
5,00
0,70
0,517
Error
12
86,00
7,17
Total
14
96,00
Individual 95% CIs For Mean
Based on Pooled StDev
Level
N
Mean
StDev
A
5
6,000
1,581
B
5
7,000
3,808
C
5
8,000
2,121
----+---------+---------+---------+-(------------*------------)
(------------*------------)
(------------*------------)
----+---------+---------+---------+--
Pooled StDev =
2,677
4,0
6,0
8,0
10,0
179
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
One-Way
ANOVA
Anova1.mtw
Exemplo
Na definição do Setup dos
fatores para o processo
Inside Spray quatro
conjuntos de níveis para os
parâmetros de Temperatura
foram avaliados. Deseja-se
investigar o efeito desses
quatro Setups com relação a
Distribuição do Verniz interno
no fundo para cerveja
medidas em mg/pol2 após o
processo. Tais medidas são
dadas na planilha ao lado.
180
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
ANOVA One-Way (Unstacked)
ANOVA One-Way (Unstacked)
Usar o Procedimento Stack Columns para executar o
Teste ANOVA One-Way (preferível pois faz a análise
de resíduos!!)
181
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
ANOVA One-Way: Resultados
As médias são
diferentes
182
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
ANOVA One-Way: Boxplots
Boxplots of Setup1 - Setup4
(means are indicated by solid circles)
8.5
7.5
6.5
5.5
Setup4
Setup3
Setup2
Setup1
4.5
183
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
ANOVA One-Way: Residuals x Fitted
Residuals Versus the Fitted Values
(response is mg)
1.5
1.0
Residual
0.5
0.0
-0.5
-1.0
-1.5
6.0
6.5
7.0
Fitted Value
184
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Two-Way
ANOVA
Exemplo
Processo de fabricação de latas
No processo Bodymaker desejase investigar a Profundidade do
Dome em função de 3 conjuntos
de parâmetros (envolvendo
pressão, Temperatura Vazão,
etc...) e também em dois turnos
de operação. Foram então
colhidas amostras da
Profundidade do Dome (em
polegadas) para diferentes Turnos
e diferentes Conjuntos de
Parâmetros.
Anova_2.MTW
185
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
ANOVA Two-Way: Follow along
186
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
ANOVA Two-Way: Resultados
Diferentes
Iguais
187
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
ANOM
Análise de Médias
Exemplo
Foram avaliados três níveis de
pressões de ar draw pad (em psi) e
também três níveis de pressões de ar
blow off (em psi) na influência de
problemas visuais após o processo
Minster. O número de defeitos
visuais (Riscos, Abaulamento,
orelhas, rebarbas, rugas e ovalização)
está mostrado na planilha ao lado.
Anova_3.MTW
ANOM: Para identificar qual média é diferente e avaliar a Interação!
188
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
ANOM
Isso é melhor
estudado em DOE!
189
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
ANOM: Gráficos
Não há interação entre
as pressões Blow e
Draw. O Efeito de
Blow é significativo!
190
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
ANOM: Resultados
Blow
Draw
A Pressão Blow
afeta mais a
média
3,0 e 8,83 são
valores distantes
de 6,22
191
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Balanced
Anova
Exemplo
Processo de fabricação de latas
Deseja-se avaliar o tempo gasto (em
minutos) por seis funcionários para
ajustar o Setup de dois processos (I e
II) usando dois diferentes
procedimentos (um novo e um
antigo). A planilha seguinte mostra os
resultados obtidos.
Isso é a base para
DOE - Delineamento
de Experimentos!
Anova_5.MTW
192
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Balanced ANOVA
193
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Balanced ANOVA: Resultados
Diferentes
194
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
TWO-WAY
Estatística Aplicada
Ex.: An engineer suspects that
the surface finish of metal parts
is influenced by paint used and
the drying time.
Using a 5% significance
level, test the influence of
these two factors as also its
interaction.
195
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
TWO-WAY
Estatística Aplicada
Drying Time (min)
Paint
20
25
30
Total
(yi..)
1
74 64 50 188 73 61 44 178 78 85 92 255
621
2
92 86 68 246 98 73 88 259 66 45 85 196
701
Total:
(y.j.)
434
437
451
1322
(y…)
196
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
TWO-WAY
Estatística Aplicada
Ex.: An experiment describes an
investigation about the effect of
glass type and phosphor type on
the brigtness of a television tube.
The response is the current (mA)
necessary to obtain a specified
brightness level.
Using a 5% significance
level, test the influence of
these two factors as also its
interaction.
197
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
6 – CORRELAÇÃO E REGRESSÃO
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Análise de Regressão
•
•
•
•
•
•
Correlação
Procedimentos Gerais Y=f(X)
Regressão linear
Ajuste da Regressão
Regressão linear Múltipla
Best Subsets
A
análise de regressão é uma técnica estatística usada para modelar e
investigar a relação entre duas ou mais variáveis. O modelo é freqüentemente
usado para previsões.
Regressão é um teste de hipótese
Ha: O modelo permite significativamente prever a resposta.
199
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Coeficiente de
Correlação
Agente
x
y
A
2
48
Diagrama de
Dispersão
70
Clien
ntes
Ex.: Suponha que o nosso desejo
seja o de quantificar a
associabilidade entre duas
variáveis relacionadas a cinco
agentes de uma seguradora.
Assim, temos:
X≡
≡ Anos de experiência do agente.
Y ≡ Número de clientes do agente.
60
50
2
B
4
56
C
5
64
D
6
60
E
8
72
3
4
5
6
7
8
Anos de
Experiência
(x, y) é um par aleatório
– Dados emparelhados
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
200
Estatística Aplicada
r=Correlação de Pearson
y− y
= zy
sy
y−y
y
x
Série de dados
originais (x e y)
são valores
quantitativos.
x−x
O conjunto de pontos
é deslocado, tendo
agora como centro, os
valores médios.
1 n
r = Corr ( X , Y ) = ∑ z xi z yi
n i =1
x−x
= zx
sx
A escala de x e y é
agora padronizada.
Isso torna os valores
independente da sua
unidade.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
201
Estatística Aplicada
Coeficiente de Correlação
x−x y−y
Agente
x
y
zx
zy
zx . zy
A
2
48
-3
-12
-1.5
-1.5
2,25
B
4
56
-1
-4
-0.5
-0.5
0,25
C
5
64
0
4
0
0.5
0
D
6
60
1
0
0.5
0
0
E
8
72
3
12
1.5
1.5
2,25
Total
25
300
0
0
0
0
4,75
x = 5 y = 60
4,75
Sx = 2 S y = 8 r = Correlação ( X , Y ) = 5 = 0,95 = 95%
202
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
P_value p/ Correlação
1 n
1 n  xi − x   yi −
r = Corr ( X , Y ) = ∑ z xi z yi = ∑ 

n i =1
n i =1  s x   s y
y


1 ∑ ( x i − x )( y i − y ) Covariância ( X , Y )
−1 ≤ r ≤ 1
r=
=
n
sx ⋅ s y
sx ⋅ s y
A correlação apresentada aqui é linear. Existem outros tipos de correlação!
Agente
x
y
A
2
48
B
4
56
C
5
64
D
6
60
E
8
72
Ex.: Cálculo da correlação da tabela ao lado
Pearson correlation of Anos Exp and Clientes = 0,950
P-Value = 0,013
Forte Correlação pois P-Value <0,05
203
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Correlação no Minitab
Faça a análise de Correlação das
variáveis ao lado na planilha
Bidimensional.mtw
O Coeficiente de
Correlação é
também chamado
de Coeficiente de
Pearson.
204
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Algumas questões sobre Correlação:
A)
Uma medida de Correlação fornece dois tipos de informações a respeito do
relacionamento de duas variáveis. Quais são elas?
B)
Qual coeficiente de correlação abaixo indica o mais forte relacionamento?
a) 0.70
b) 0.03 c)-0.77 d) 0.10
C) Se a correlação Rxy=0.45, então Ryx=
D) Qual o valor do coeficiente de correlação melhor descreve os seguintes
valores das variáveis X e Y, relacionadas abaixo:
X: 20 30 40 50 60
Y: 40 30 20 10 0
a)
-1.0
b)
0.0
c)
0.5
d)
1.0
E) Qual a correlação do
gráfico abaixo?
205
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
F)
Algumas questões sobre Correlação:
Se um coeficiente de correlação for de +1.4, o que ocorre?
a)
O Relacionamento é extremamente forte
b)
O Relacionamento é positivo
c)
As respostas acima estão corretas
d)
Um erro computacional foi cometido
G) Um coeficiente de Pearson de -0.5 entre os valores de Leitura (X) e o número
de dias ausentes da escola (Y) indica que:
a) Metade dos valores de Leitura são menos do que o número de dias
ausentes da escola
b) Maiores valores de Leitura são associados com menor ausência da escola
c)A soma do produto XY é igual a -0.5
d) Quase não existe relacionamento entre X e Y
206
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Dia
1
2
3
4
Variável Comum
Fator 1
Água
Água
Água
Água
Fator 2
Whisky
Vodka
Rum
Bourbon
Resultado
Ficou Bêbado
Ficou Bêbado
Ficou Bêbado
Ficou Bêbado
Conclusão: a água embebeda
É comum associar-se um defeito com uma variável
que está sempre presente quando ele ocorre (é o caso
do operador que é culpado, pois quando ele executa a
operação ocorre um defeito – Toda operação
geralmente tem um operador).
207
 1995 Six Sigma Academy Inc.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
As “armadilhas”: correlações casuais
Se a história servisse de base, os Republicanos deveriam estar vestindo a camisa
dos Yankees e dando uma força para o New York vencer o campeonato. Desde a
Segunda Guerra Mundial, toda vez que os Yanks venceram em um ano de eleição,
o Partido Republicano assumiu a Casa Branca.
Variável Comum
Yankees
Republicanos
GANHARAM PERDERAM
GANHARAM PERDERAM
1976
1964
1960
1956
1952
208
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
As “armadilhas”: causa reversa
Um fator “X” tem influência sobre um “Y” quando, na verdade, o que ele está vendo
é a conseqüência do “Y” .
Um exemplo deste caso é o do Departamento de Vendas que insatisfeito com as
Vendas resolve dar uma série de descontos e faz promoções para atrair os clientes .
Só que a verdadeira causa do problema é o Serviço de Atendimento ao Cliente .
Com os novos descontos e a nova promoção fica mais difícil
ainda administrar o Serviço de Atendimento ao Cliente,
ocasionando num aumento da insatisfação do cliente e
diminuindo mais ainda as vendas (“o tiro saiu pela culatra”) .
209
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
As “armadilhas”: fatores omitidos
Pesquisas continuamente demonstram que a medida que o tamanho dos hospitais
aumenta, a taxa de mortalidade dos pacientes aumenta dramaticamente. Portanto,
deveríamos evitar hospitais grandes?
Esta análise é enganadora, pois omite um segundo X2 (fator) importante -- a
gravidade da condição do paciente quando é admitido ao hospital. Os casos mais
sérios tendem a ser levados aos hospitais maiores!
Fumar cigarros causa câncer? E se eu dissesse que ...
(1) Médicos franceses não encontram esta correlação;
(2) O tabaco dos EUA geralmente é exposto a pesticidas, fertilizantes e
preservativos contendo substâncias conhecidamente cancerígenas, e;
(3) O tabaco francês raramente entra em contato com tais substâncias químicas.
210
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
O Fazendeiro Radiofóbico
Em 1950, um fazendeiro afirmou que suas árvores frutíferas estavam sendo prejudicadas
pelas ondas de rádio de uma estação local próxima. Ele colocou uma tela de arame ao
redor de algumas das árvores para “protegê-las” destas ondas de rádio e, realmente, as
árvores protegidas se recuperaram rapidamente, enquanto que as desprotegidas ainda
sofriam.
Na mesma época, muitas árvores cítricas em todo país foram ameaçadas por uma doença
chamada de “folha pequena”. Alguns fazendeiros Texanos descobriram que uma solução de
sulfato de ferro curava a doença. No entanto, nem sempre funcionava no Texas, e
praticamente nunca funcionava na Flórida ou na Califórnia.
O mistério foi desvendado quando o problema verdadeiro foi revelado -- deficiência de zinco
no solo. A cerca do fazendeiro Radiofóbico era de tela galvanizada, sendo que traços do
zinco da galvanização eram levados da tela para o solo.
O sulfato de ferro nada tinham a ver com a cura, mas sim os baldes de ferro galvanizados
usados para espalhar a substância! Em outras regiões, onde outros tipos de baldes eram
usados, as árvores continuaram doentes.
211
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
As “armadilhas”: multicolinearidade
É difícil saber o quê causa o quê, quando alguns fatores [X’s] tendem a
ocorrer juntos regularmente.
• “Tenho visto uma redução dramática nas perdas desde que comecei a
implementar as ferramentas estatísticas na fábrica!” No entanto, foi
exatamente na mesma época em que o RH introduziu seu novo sistema
de recompensa e reconhecimento. O que ocasionou a melhoria?
• Em 1967, um artigo rotulou um determinado tipo de carro como sendo
inseguro. O modelo em questão era um carro pequeno esportivo de alto
desempenho. Mas que tipo de motorista seria atraído a tal carro? E se eu
dissesse que a maioria dos proprietários deste carro tendiam a ser
motoristas jovens menores de 25 anos com novas idéias. Esta faixa etária
não paga prêmios de seguro mais elevados devido a maior incidência de
acidentes?
212
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Y=f(x)
y
Linha de Regressão
A variável X é dita variável
independente (ou exógena), enquanto
Y é dita variável dependente (ou
endógena).
x
•Y=f(x) Simples
•Y=f(x,y,z...) Múltipla
213
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Regressão
Linear Simples (Um X)
Múltipla (Dois ou mais Xs)
Y
Curvilínea (Um X)
Y
Y
X
X
X
Curvilínear (Dois ou mais Xs)
2
X
1
Logística (Ys Discretos)
Variáveis Indicativas
(para Xs Discretos)
1
x
Y
x
Y
x
x
x
X
x
x
x
x x
x
x
Xb
x
x
x
Xc
% yes
Xa
2
0
X
1
Xi
X
214
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Resíduos
y
y = α + βx
yˆ = a + bx,
Curva de
Resíduos (e)
x1
x2
x3
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
x
Uma
importante
condição para
o uso de
regressão
simples é que
os resíduos (e)
sejam
independentes
de x. Porque?
215
Estatística Aplicada
Regressão Linear
Simples
8
yˆ = a + bx
7
ŷi
6
y
ei
ei
5
Σ e
n
2
i=1 i
yi
4
3
2
2
n
ˆ
minΣ e = minΣ ( yi − yi ) = minΣ i=1( yi − a − bxi )
n
2
i=1 i
n
i=1
2
50
55
60
65
70
75
x
216
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Σ e
n
2
i=1 i
A matemática da Regressão Linear
yˆ = a + bx
minΣ e = minΣ
2
n
i=1 i
n
i=1
( yi − yˆ i )
2
= minΣ
n
i=1
( yi − a − bxi )
2
∂
∂
n
n
2
2
d = 0 e ∑i =1 d i = 0.
∑
i =1 i
∂a
∂b
− 2∑i =1 ( yi − a − bxi ) = 0,
n
− 2∑i =1 xi ( yi − a − bxi ) = 0,
n
217
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Ufa!
∑n yi = na + b∑n xi ,
i =1
i =1
 n
n
n
2
x
y
=
a
x
+
b
x
∑i =1 i i
∑i =1 i ∑i =1 i
n

( xi − x ) yi S xy
∑
i =1
b =
=
,
n
2

S
(
x
−
x
)
xx
∑
i
i =1

a = y − bx ,
218
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Exemplo
Exemplo:
Obter a equação da reta (chamada de reta dos mínimos quadrados)
para os seguintes pontos experimentais:
x
y
1
0,5
2
0,6
3
0,9
4
0,8
5
1,2
6
1,5
7
1,7
8
2,0
Traçar a reta no diagrama de dispersão. Calcular o coeficiente de
correlação linear.
Qual o valor previsto para x=9?
Qual a Tolerância de X para 1<Y<1.5?
219
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Regressão: By Hand
36 ⋅ 9,2
S xy = 50,5 −
= 50,5 − 41,4 = 9,1,
8
(36) 2
S xx = 204 −
= 204 − 162 = 42.
8
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
220
Estatística Aplicada
Regressão: Cálculos
36 ⋅ 9,2
S xy = 50,5 −
= 50,5 − 41,4 = 9,1,
8
(36) 2
S xx = 204 −
= 204 − 162 = 42.
8
S xy
9,1
b=
=
≅ 0,217,
S xx 42
9,2
36
a = y − bx ≅
− 0,217 ⋅ = 1,150 − 0,976 = 0,174.
8
8
yˆ = 0,174 + 0,217 x
221
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Regressão: Gráfico
Fitted Line Plot
y = 0,1750 + 0,2167 x
S
R-Sq
R-Sq(adj)
2,00
0,121335
95,7%
95,0%
1,75
y
1,50
1,25
1,00
0,75
0,50
0
1
2
3
4
x
5
6
7
8
222
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Regressão: Correlação
2
(9,2)
S yy = 12,64 −
= 12,64 − 10,58 = 2,06,∴
8
S xy
9,1
r=
=
≅ 0,98 Relembre Correlação!
S xx S yy
42 ⋅ 2,06
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Regressão:
Teste Hipóteses
Para Teste de Hipóteses, considera-se:
yˆ = a + bx,
Ho:a=0
Ho:b=0
T=a / SE Coef(a)
SE Coef (a)=
T=b / SE Coef(b)
SE Coef (b)=
224
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Regressão linear simples no Minitab
Previsão
225
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Linear
Ajuste da Regressão
R-quadrado
éa
porcentagem da variação
explicada pelo seu modelo.
R-quadrado
(ajustado) é a
porcentagem da variação
explicada pelo seu modelo,
ajustada para o número de
termos em seu modelo e o
número de pontos de dados.
O
“valor-p” para a
regressão é para ver se o
modelo de regressão inteiro
é significativo.
—Ha: O modelo permite
significativamente
prever a resposta.
226
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Ajuste Quadrático
Quadrático
227
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Ajuste Cúbico
Cúbico
228
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Intervalos de confiança e de previsão
Ajuste da Regressão
Uma
faixa (ou intervalo) de
confiança é uma medida da
certeza da forma da linha de
regressão ajustada. Em geral,
uma faixa de 95% implica em
uma chance de 95% de que
as linha verdadeira fique
dentro da faixa. [Linhas
vermelhas]
Uma
faixa (ou intervalo) de
previsão é uma medida da
certeza da dispersão dos
pontos individuais em torno da
linha de regressão. Em geral,
95% dos pontos individuais
(da população em que a linha
de regressão se baseia)
estarão contidos dentro da
faixa. [Linhas azuis]
229
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Estreitando Tolerâncias
CTQ
2
1
230
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Estreitando Tolerâncias
CTQ
2’
1
2
1’
231
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Pratique Regressão Linear Simples
Determine a função de transferência entre o Número de Setups
e o Tempo de Ciclo para diversas operações em uma certa
empresa. Use a planilha cycletime.mtw.
Faça a análise de Resíduos.
Qual a previsão do Tempo de Ciclo para uma operação que
consiste em 10 Setups de equipamento?
A equação final é adequada? Se não for, como melhorá-la?
232
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Regressão
Múltipla
Uma reação Química foi realizada
sob seis pares de diferentes
condições de pressão e
temperatura. Em cada caso foi
medido o tempo necessário para
que a reação se completasse. Obter
a equação de regressão do tempo
em relação a pressão e
temperatura.
Regressão.mtw
233
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Regressão Múltipla: Resultados
Menores
que 0,05
Maior melhor
234
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
92 estudantes americanos
participam de um simples
experimento. Cada estudante
registra o seu peso, altura,
gênero, pulso e se é fumante
ou não. Todos eles jogam uma
moeda e sorteiam se vão dar
uma corrida (cara) ou não por
um minuto. Após a corrida,
todos os alunos registram o
seu pulso novamente. Um
aluno sugere que seja inserida
a seguinte “importante”
consideração: Se a pessoa
pinta o cabelo ou não.
Best Subsets
Regressão.mtw
Deseja-se fazer uma regressão
do segundo pulso em relação a
todas as outras variáveis.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
235
Estatística Aplicada
Best Subsets: Resultados
Equação de regressão
inicial. Muito complexa
Correlação muito alta.
Quem pinta cabelo é
“geralmente” mulher
236
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Best Subsets: Resultados
Melhor
ajuste
237
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Análise de Resíduos
Ruim
Bom
Residual
Residuals vs
Each X
Residual
3
3
2
2
1
1
0
0
-1
-1
-2
-2
-3
-3
3
4
5
6
7
8
9
10
11
12
10
20
X
Time Plot of
Residuals
Residual
3
Residual
3
2
2
1
1
0
0
-1
-1
-2
-2
-3
-3
0
50
100
0
Time Order
Residuals vs
Predicted Y
(Fits)
50
Residual
3
Residual
3
2
2
1
1
0
0
-1
-1
-2
-2
-3
30
40
50
0
50
Pred. Y
1
0
-1
-2
-3
100
Pred. Y
Nscore
3
2
100
Time Order
-3
Normal
Probability Plot
of Residuals
30
X
Nscore
3
Nos casos ruins tente
uma transformação
em X,em Y ou
ambos. Use Box-Cox
Transformation
Considere a
possibilidade da
existência de
variáveis ocultas que
não foram
consideradas no
modelo (Lurking)
Entenda que X e Y não
precisam ser normalmente
distribuídos. Os resíduos,
238
contudo, deveriam ser.
Pedro
Paulo Balestrassi - www.pedro.unifei.edu.br
Residual
Residual
2
1
0
-1
-2
-3
-3
-2
-1
0
1
2
3
-1
0
1
2
3
4
Estatística Aplicada
Regressão Curvilínea
Um laboratório está fazendo testesSeal Strength
(g/cm2)
em adesivos em função da
2100
temperatura. Quando a
2050
temperatura aumenta a força do
2000
contato entre duas superfícies
aumenta Em um determinado
1950
ponto, contudo a força desse
1900
contato começa a diminuir em
função de propriedades térmicas
200
250
300
do adesivo. Qual o modelo
Temperature
empírico da força (Seal Strength)
em função da temperatura?
Curve.mtw
350
400
239
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Termo quadrático da regressão
Deve-se criar a variável
quadrática e em seguida rodar
o modelo em Regression
Termo quadrático
Observe resíduos
Função
quadrática
VIF
Armazena
resíduos
240
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Regressão Curvilínea
The regression equation is
SealStrength = 923 + 7.45 Temperature - 0.0125 TempSqrd
X
X2
Predictor
Constant
Temperat
TempSqrd
Coef
922.98
7.4469
-0.0124596
S = 25.18
StDev
72.33
0.5033
0.0008499
R-Sq = 69.4%
T
12.76
14.80
-14.66
P
0.000
0.000
0.000
X e X2 são
fortemente
correlacionados.
Nenhuma
surpresa
VIF
132.9
132.9
R-Sq(adj) = 68.7%
Analysis of Variance
Source
Regression
Residual Error
Total
Source
Temperat
TempSqrd
DF
1
1
DF
2
97
99
SS
139321
61498
200819
Conclusão: Existe uma curvatura
significativa
MS
69661
634
F
109.87
P
0.000
Seq SS
3051
136270
241
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Exemplo:
n
PREÇO
VENDAS
De acordo com os
dados da tabela ao
lado, há correlação
entre o preço de um
produto e o respectivo
volume de vendas?
1
5,5
420
2
6,0
380
3
6,5
350
4
6,0
400
5
5,0
440
6
6,5
380
7
4,5
450
8
5,0
420
242
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Exemplo:
n
Price
Sales
A liquor wholesaler is
interested in assessing
the effect of the price of a
whiskey on the quantity
sold. The results in table
represent the price (US$)
and the respective eight
weeks of sales. What are
your conclusions?
1
2
3
4
5
6
7
8
19,2
20,5
19,7
21,3
20,8
19,9
17,8
17,2
25,4
14,7
18,6
12,4
11,1
15,7
29,2
35,2
243
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Exemplo:
Doctors are interested in the relationship between the dosage
of a medicine and the time required for a patient’s recovery.
Based on the following data, verify if the variables are
correlated.
n
Dosage Recovery Time
1
1,2
25
2
1,0
40
3
1,5
10
4
1,2
27
5
1,4
16
244
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Exemplo:
n
x
y
The table shows, for eight
vintages of select wine,
purchase per buyer (y) and
the wine buyer’s rating in a
year (x).
1
2
3
4
5
6
7
8
3,6
3,3
2,8
2,6
2,7
2,9
2,0
2,6
24
21
22
22
18
13
9
6
Are the variables correlated?
* Vintage: safra de vinho
245
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Exemplo: Determine a correlação entre o tempo de
experiência e o salário anual do funcionário e se existe
diferença significativa entre os salários dos homens e das
mulheres.
Mulheres
Salário ($)
Experiência
36730 40650 46820 50149 59679
5
7
9
10
14
67360
17
Homens
Salário ($)
Experiência
51535 62289 72486 75022 93379
5
7
9
10
14
105979
17
246
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br

Documentos relacionados

Descritiva

Descritiva x1 p1  x2 p2  xn pn

Leia mais