Estatística Aplicada
Transcrição
Estatística Aplicada
Curso de Estatística Aplicada Pedro Paulo Balestrassi UNIFEI-Universidade Federal de Itajubá IEPG www.pedro.unifei.edu.br [email protected] 35-36291161 88776958 “Pensar estatisticamente será um dia, para a eficiente prática da cidadania, tão necessário como a habilidade de ler e escrever.” H. G. Wells (Escritor Inglês, considerado o pai da moderna Ficção Científica, 1895) Estatística Aplicada Motivação das empresas para estudo e uso de Estatística: Foco no Processo: Um dos principais requisitos da ISO 9001:2000 Fatores Controláveis x1 x2 ... xp Entrada Saída z1 z2 ... ... Processo y1 y2 ym zq Fatores Incontroláveis (ruído) Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 2 Estatística Aplicada Y=f(X)+Z X •Pressão de ar air strip •Pressão de ar air bag •Pressão de ar front piston •Pressão Hidráulica •Temperatura Aplicação: Pense •Vazão de óleo Solúvel em um problema •Pressão do Nitrogênio similar em sua área de atuação Y Exemplo de Processo Processo Bodymaker de fabricação de latas Z •Espessura da parede Top Wall •Operador •Espessura da Parede Mid Wall •Rede Elétrica •Profundidade do Dome •Qualidade da Bobina •Altura da Lata •Visualização É complexo inferir sobre X,Y e Z sem Estatística! Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 3 Estatística Aplicada Cone of Learning DO THE REAL THING! Faça anotações! Aplicando os conhecimentos na sua área é a única forma de sedimentá-los! 4 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Recursos de Software O uso de recursos computacionais tornou os cálculos atividades fáceis permitindo uma maior ênfase na compreensão e interpretação dos resultados Statgame e Statquiz (Interessante para verificar o conhecimento básico) Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 5 Estatística Aplicada Comandos Básicos Pratique: • Gere a planilha ao lado e entenda a diferença entre Worksheet e Project. Observe o que é Session. • Calcule as principais Estatísticas Descritivas da planilha gerada. Siga o caminho: <Stat> <Basic Statistics> <Graphical Summary> Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Pratique: • Navegue no Statguide • Navegue pelo Tutorial do Minitab • Cinco ícones importantes: Worksheet, Session, Show Graph Folders e Edit Last Dialog Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Pratique: • Gere uma série de 100 valores aleatórios que poderia simular a variabilidade em Anéis de Pistão (considerando por exemplo Folga entre Pontas). Use <Calc> <Random Data> <Normal Distribution> e inclua os parâmetros convenientes. • Calcule as principais estatísticas descritivas da planilha usando Graphical Summary. Faça outros gráficos. Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Pratique: • Entenda o procedimento <Calc> <Set Base>? • Salve a planilha na Desktop com um nome qualquer. • Feche o programa minitab e depois abra a planilha que você salvou. Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Um bom Material de Apoio Obtenha domínio sobre o Minitab a partir do arquivo minitab.pdf. 10 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Um Exemplo de Controle Estatístico da Qualidade A espessura de uma peça metálica é um importante parâmetro da qualidade para uma empresa. Uma grande quantidade de peças são produzidas diariamente e a cada lote produzido, 5 delas são medidas e colocadas em uma tabela, como ao lado. Use Set Base=9 N(0.0625; 0.0025) Para gerar tal tabela Pergunta-se: a) O Processo está sob Controle? b) O Processo atende as Especificações (LSL=0.060 e USL=0.066) c) Qual a solução para o problema? Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Problema Prático Baixo Rendimento Problema Estatístico Média fora do alvo Solução Estatística Identificar variável Vital Solução Prática Instalar um controlador © 1994 Dr. Mikel J. Harry V3.0 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Etapa Definir A B C Medir 1 2 3 Analisar 4 5 6 Melhorar 7 8 9 Controlar 10 11 12 Six Sigma - DMAIC Descrição Foco Identificar CTQs do Projeto Desenvolver Escopo de Atuação da Equipe Definir Mapa do Processo Selecionar Característica do CTQ Definir Padrão de Desempenho Análise do Sistema de Medição e Coleta de Dados Y Y Y Estabelecer a capabilidade do Processo Definir Objetivo do Desempenho Identificar Origens de Variação Y Y X Filtrar Causas Potenciais de Variação Descobrir Relações entre as Variáveis e Propor Soluções Estabelecer Tolerâncias Operacionais & Solução Piloto X X Y,X Validar Sistema de Medição Determinar a Capabilidade do Processo Pedro Paulo Balestrassi www.pedro.unifei.edu.br Implementar Sistema -de Controle do Processo Y,X Y,X X Estatística Aplicada Uma ótima bibliografia: Montgomery, D.C., Runger, G.C., Estatística Aplicada e Probabilidade para Engenheiros, 2ª ed., LTC Livros Técnicos e Científicos, 2002, 461 p. Não deixe de ler: Fora de Série (Outliers) – Malcolm Gladwell – Editora Sextante – Uma boa análise sobre Causa e Efeito em inúmeras situações. Uma Senhora Toma Chá – David Salsburg – Editora Zahar – Como a estatística revolucionou a ciência no século XX. O Andar do Bêbado – Leonard Mlodinow– Editora Zahar – Como a aleatoriedade impacta nossas vidas. 16 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada SUMÁRIO 1 – Estatística Descritiva 2 – Distribuições de Probabilidade 3 – Estimação e Intervalos de Confiança 4 – Testes de Hipótese 5– Análise de Variância 6 – Correlação e Regressão 17 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada 1 - Estatística Descritiva “Deus não joga dados com o universo” (Albert Einstein) “Os experimentos geralmente não são determinísticos” (Fisher) Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 18 Estatística Aplicada Do que trata a Estatística A essência da ciência é a observação. Estatística: A ciência que se preocupa com a organização, descrição, análise e interpretação dos dados experimentais. Ramo da Matemática Aplicada. A palavra estatística provêm de Status. Estatística Básica (Anova, TH, Simulação / PO Regressão) DOE /Taguchi /RSM Séries Temporais Análise do Sistema de Data Mining Medição Six Sigma Estatística Multivariada Redes Neurais Amostragem / Pesquisa Controle de Qualidade Confiabilidade Estatística Bayseana Caos Em 1662, John Graunt publicou os primeiros informes estatísticos. Era sobre nascimento e mortes. Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 19 Estatística Aplicada População e Amostra A População (ou Distribuição) é a coleção de todas as observações potenciais sobre determinado fenômeno. O conjunto de dados efetivamente observados, ou extraídos, constitui uma Amostra da população. Um Censo é uma coleção de dados relativos a Todos os elementos de uma população. Um Parâmetro está para a População assim como uma Estatística está para a Amostra. 20 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Tipos de Dados (Também Dados Categóricos ou de Atributos) Nominal Qualitativa Ordinal Variável Discreta Quantitativa Contínua (Variáveis) Ex.: Para uma população de peças produzidas em um determinado processo, poderíamos ter: Variável Tipo Estado: Perfeita ou defeituosa Qualitativa Nominal Qualidade: 1a, 2a ou 3a categoria Qualitativa Ordinal No de peças defeituosas Quantitativa Discreta Diâmetro das peças Quantitativa Contínua Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 21 Estatística Aplicada <Calc> <Random Data> Números Aleatórios Aplicação: Gere sequências de valores aleatórios que represente problemas em sua área. O que significa o procedimento <Calc> <Set Base>? Amostragem: Gere a sequência 1 2 3 ...100. <Calc> <Make Patterned Data> Selecione uma amostra com 10 valores a partir das sequências geradas anteriormente. Use <Calc> Random Data> <Sample from Column> 22 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada <Graphical Summary> Ex.:Número de acessos à página do Site da Empresa durante os últimos 100 dias úteis. Aplicação: Gere uma sequência de dados que represente um processo em sua área e calcule as estatísticas desse conjunto de dados. Use: <Random> e <Graphical Summary> 23 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Medidas de Posição: Média n Aritmética Simples x1 + x 2 ++...+ L + xn x= = n ∑x i =1 i n n Aritmética Ponderada x1 p1 + x2 p2 +...+ +L+ xn pn x= = p1 + p2 ++...+ L+ pn ∑x p i =1 n i i ∑p i=1 i Um pouco sobre arredondamento de médias: Tome uma decimal acima da dos dados: Ex.: 2,4 3,4 e 5,7 => média =3,73 Em várias operações, arredonde apenas o resultado final Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 24 Estatística Aplicada Um Cidadão Americano “Médio” Chama-se Robert Pesa 78 Kg Manequim 48 85 cm de cintura Consome anualmente 8,5 Kg massa, 11,8Kg de bananas, 1,8 Kg de batatas fritas, 8,15Kg de sorvete e 35,8 Kg de carne. Vê TV por ano 2567 horas Recebe anualmente 585 “coisas” por correio (cartas e outros) Diariamente dorme 7,7 horas, gasta 21 minutos para chegar ao trabalho e trabalha 6,1 horas 25 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Se n é ímpar: n + 1 ~ termo x = 2 o Ex.: Medidas de Posição: Mediana Se n é par: o o n n termo + + 1 termo 2 2 ~ x= 2 {35, 36, 37, 38, 40, 40, 41, 43 ,46} ⇒ x~ = 40 15 + 16 ~ {12, 14, 14, 15, 16, 16, 17, 20} ⇒ x = 2 = 15,5 Mediana é o valor “do meio” de um conjunto de dados dispostos em ordem crescente ou decrescente. Inconveniente: Não considera todos os valores da amostra! 26 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Ex.: Média x Mediana { 200, 250, 250, 300, 450, 460, 510 } x = 345,7 x~ = 300 Ambas são boas medidas de Tendência Central. Prefira a média { 200, 250, 250, 300, 450, 460, 2300 } x = 601 x~ = 300 Devido ao Outlier 2300, a mediana é melhor estatística que a média. 27 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Medidas de Dispersão Rode e Entenda o programa Interativo da PQ Systems Discuta: 1) Porque os bancos adotam fila única? 2) “Por favor, com quantos dias de antecedência eu devo postar uma carta de aniversário para minha mãe?” 28 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada A = { 3, 4, 5, 6, 7 } B = { 1, 3, 5, 7, 9 } C = { 5, 5, 5, 5 } D = { 3, 5, 5, 7 } E = { 3.5, 5, 6.5 } Variabilidade Uma medida de Posição não é suficiente para descrever um conjunto de dados. Os Conjuntos ao lado mostram isso! Eles possuem mesma média, sendo diferentes. Algumas medidas de Variabilidade: Amplitude (H): Tem o inconveniente de levar em conta apenas os dois valores extremos: HÁ =7-3=4 Amplitude=Range 29 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Medidas de Dispersão Considerando os desvios em relação à média, temos, para A, por exemplo: {-2, -1, 0, 1, 2} xi - x A = { 3, 4, 5, 6, 7 } n n n ∑ ( x − x ) =∑ x − ∑ x =nx − nx ≡ 0 Inconveniente: i=1 i i=1 i i=1 Uma opção para analisar os desvios das observações é: considerar o total dos quadrados dos desvios. ∑ (x 5 i =1 − x ) =4 + 1 + 0 + 1 + 4 = 10 2 i 30 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Desvio Padrão Associando ao número de elementos da amostra (n), tem-se: . ∑ (x n S2 = S = S2 i =1 =1 i − x) 2 ...que é a Variância ( Var(x)) n ...que é o Desvio Padrão (DP(x)), uma medida que é expressa na mesma unidade dos dados originais 31 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada n Dispersão: Fórmulas Alternativas n ∑ (x − x ) σ = 2 i=1 ∑x 2 i n = i=1 ∑ (x n 2 i n Variância Populacional (σ2 ou σn 2 ) −x 2 S = 2 i =1 i − x) 2 n−1 Variância Amostral n-1 está Relacionado a um problema de tendenciosidade 32 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Exemplo Calcular a Variância e o Desvio Padrão de X 5 4 3 1 2 Uma Regra Prática para conjunto de dados típicos: S=Amplitude/4 (X − X ) X X Média = 3 X = Soma dos pontos de dados 2 1 0 -2 -1 (X − X ) 2 4 1 0 4 1 Número dos pontos de dados S= S 2 Raiz Qadrada da Variância = Desv.Pa. = S = 1,58 S2 Divide a Soma por (n-1): = Variância = S2 = 2,5 Soma da última coluna = 10 33 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada n-1 N n ∑x x= i=1 n ∑x N µ= i n N N σ2 = n 2 ( ) x − x ∑ i s2 = i =1 i i =1 2 ( x − µ ) ∑ i i=1 N Estimador Tendencioso de σ n n 2 ( ) x − x ∑ i s2 = i =1 n −1 Estimador Não-Tendencioso σ 34 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Simulação (n-1) 1 n 2 2 ( ) x − x ∑ i s = 2 i=1 4 n s = . (n − 1) 2 3 n n ∑ (xi − x ) n (n −1) 2 σ n n 2 ( ) x − x ∑ i 2 i=1 ≈ = i=1 n −1 35 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Outlier ( fora da distância do Q3 + 1,5D ) Observação Máxima 75% 109 Q3=75ª Percentil 104 DBP * Outra Estratégia: Percentis e Boxplot 50% 99 D=Q3-Q1 94 25% Interquartil Q2=Mediana (50ª Percentil) EDA (Exploratory Data Analysis) e Método dos Cinco Números Q1=25ª Percentil Boxplot é desgastante quando feito sem computador pois supõe a ordenação de dados. Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 36 Estatística Aplicada Percentis e Boxplot graficos.mtw Valor do meio 3.(n+1)/4 0 Quartis: 2.(n+1)/4 0 Q1=Quarta Observação Crescente=71.7 Q3=Quarta Observação Decrescente=150.6 (n+1)/4 0 Para valores não inteiros dos quartis, usa-se interpolação Outliers: Q3+1.5D=150.6+1.5(150.6-71.7)=268.95 São outliers valores maiores que 268.95 37 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada xi − x zi = s xi - Escores padronizados (z) x considera o afastamento de xi em relação à média. A divisão por s torna s como unidade ou padrão de medida. Ex.: Dois grupos de pessoas acusam os seguintes dados: Nesses grupos há duas Grupo Peso médio Desvio Padrão pessoas que pesam A 66.5 kg 6.38 kg respectivamente, 81.2 kg e B 72.9 kg 7.75 kg 88.0 kg. 81,2 − 66,5 88 − 72,9 em A : z A = = 2,3 e em B : z B = = 1,95 6,38 7,75 Logo, a pessoa de A revela um maior excesso relativo de peso. Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 38 Distribuição Normal Estatística Aplicada z= X : N (µ ;σ ) x−µ Z: N(0; 1) σ ϕ(z) Tal fórmula está tabelada e fornece valores acumulados Distribuião Normal Reduzida ou Padronizada -3 -2 -1 µ-3σ µ -2σ µ -σ 0 µ 1 2 3 µ+σ µ+2σ µ+3σ z x Qual o formato da curva acumulada? N(0,1) é a distribuição Benchmark Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 39 Estatística Aplicada Escores padronizados (z) Uma mulher deu à luz um filho 308 dias após a visita de seu marido que serve na marinha dos EUA. Sabendo-se que uma gravidez normal tem média de 268 dias e desvio-padrão de 15 dias, determine se o tempo de gravidez da mulher pode ser considerado comum. O marido tem razão de se preocupar? xi − x zi = s 40 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Regra 68 -- 95 -- 99 Escores padronizados (z) Regra 68 -- 95 -- 99 xi − x zi = s Cerca de 68% dos valores estão a menos de 1 desvio padrão a contar da média (-1 < z < 1) Cerca de 95% dos valores estão a menos de 2 desvios padrão a contar da média (-2 < z < 2) Cerca de 99% dos valores estão a menos de 3 desvios padrão a contar da média (-3 < z < 3) 41 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Skewness and Kurtosis Assimetria (Skewness) Próximo de 0: Simétrico Menor que 0: Assimétrico à Esquerda Maior que 0: Assimétrico à Direita Achatamento (Kurtosis) Próximo de 0: Pico Normal Menor que 0: Mais achatada que o Normal (Uniforme) Maior que 0: Menos achatada que o normal (Afinada) 42 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Skewness - Assimetria Positiva ~Nula Negativa n n 3 ( ) Ass = x − x ∑ i (n − 1)(n − 2) i=1 43 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Kurtosis - Achatamento Normal K~0 Mesocúrtica Leptocúrtica K>>0 Platicúrtica K<<0 2 n n(n + 1) 3 ( n − 1 ) 4 ( ) K= x − x − ∑ i (n − 1)(n − 2)(n − 3) i=1 (n − 2)(n − 3) 44 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Exercício Encontre todas as estatísticas descritivas para a série da tabela a seguir. 10 23 34 40 58 74 13 24 35 41 58 80 15 25 37 48 63 82 15 25 38 53 64 88 20 30 39 58 70 250 21 32 39 58 70 254 45 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição de Freqüências Ex.: População = X=Diâmetro de determinada peça (em mm). Dados brutos: { 168, 164, 164, 163, 165, 168, 165, 164, 168, 168 } Rol: { 163, 164, 164, 164, 165, 165, 168, 168, 168, 168 } Amplitude (H) = 168 - 163 = 5 K ni fi Ni Fi (Frequência Absoluta) (Frequência Relativa) (Frequência Absoluta Acumulada) Frequência Relativa Acumulada) 163 1 0.1 1 0.1 164 3 0.3 4 0.4 X ∑n i =n 1 ni fi = n K 165 2 0.2 6 0.6 168 4 0.4 10 1.0 Σ 10 1 ∑f i=1 i =1 Ni Fi = n 46 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Classes (ou Categorias) DISTRIBUIÇÃO DE FREQUÊNCIAS x xi ni fi f% (Variável) (ponto médio) (frequência absoluta) (frequência relativa) (frequência percentual) 10 ├ ─ 20 15 2 0.04 4 2 0.04 4 20 ├ ─ 30 25 12 0.24 24 14 0.28 28 30 ├ ─ 40 35 18 0.36 36 32 0.64 64 40 ├ ─ 50 45 13 0.26 26 45 0.9 90 50 ├ ─ 60 55 5 0.1 10 50 1.0 100 50 1 100 Σ Ni Fi (Absoluta (Relativa Acum.) Acum.) F% (Percentual Acum.) 47 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Classes (ou Categorias) EXEMPLO – MÉDIA P/DADOS AGRUPADOS x xi ni (Variável) (ponto (frequência médio) absoluta) (Xi).(ni) Média = X = 10 ├ ─ 20 15 2 30 20 ├ ─ 30 25 12 300 30 ├ ─ 40 35 18 630 40 ├ ─ 50 45 13 585 50 ├ ─ 60 55 5 275 50 1820 Σ n ∑ x .n i =1 n i i ∑n i =1 i 1820 X= = 36,4 50 48 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Histogramas Construção da tabela de distribuição de freqüências a partir do histograma de classes desiguais. Exercício: Complete a tabela. ni X 10 fi |-- 20 8 10 6 20 |-- 30 4 ni 30 |-- 40 2 40 |-- 60 10 20 30 40 60 x Σ 1 49 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Soma de Normais Processo A Processo B Tempo Total (A+B) ? 3 X=3 s=1 7 X=7 s=2 S A +B = 2 SA + 2 SB = 2 (1) + (2) 2 = 5 = 2.23 ≠ 1+ 2 = 3 Correto; Some as variâncias e depois obtenha o Desvio Padrão Incorreto; 50 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Diferença de Normais Linha A Diferença: Linha A – Linha B Linha B ? -10 0 -5 X = 3 s = 1 X A −B = X A - XB = 3 - 7 = - 4 2 2 2 2 SA– B = SA + SB = (1) + (2) 5 10 15 X = 7 s = 2 = 5 = 2.23 Correto ≠ 1 − 2= −1 Incorreto Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 51 Estatística Aplicada Representação Gráfica:Ramo-e-folhas x Ramos x x x x x x x graficos.mtw Ex.: 11 Folhas x x x 81 113 108 74 79 78 90 93 105 109 93 106 103 100 100 100 101 101 101 95 90 94 90 91 92 93 87 89 78 89 85 94 86 3 10 8 5 9 6 3 0 0 0 1 1 1 9 0 3 3 5 0 4 0 1 2 3 4 8 1 7 9 9 5 6 7 4 9 8 8 11 3 10+ 8 5 9 6 10- 3 0 0 0 1 1 1 9- 0 3 3 5 0 4 0 8 1 7 9 9 5 6 7 4 9 8 8 1 2 3 4 52 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Ramo-e-folhas Stem-and-Leaf Display: folha_ramo Obtendo o seguinte Folha e Ramo. Compare os resultados fazendo um Histograma. O que representa tal coluna? Stem-and-leaf of Ramo Leaf Unit = 1.0 1 4 5 10 (10) 13 12 5 1 7 7 8 8 9 9 10 10 11 N = 33 4 889 1 56799 Coluna 0001233344 folha_ramo 5 0001113 5689 3 53 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Plot Exercício no Minitab: Faça o gráfico abaixo a partir dos dados seguintes. graficos.mtw 54 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada <Marginal Plot> Faça o gráfico bidimensional a partir dos dados a seguir graficos.mtw 55 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Runchart <Stat> <Quality Tools> <Run Chart> •Column=Tempo na fila •Subgroup Size=1 runchart.mtw Os dados representam uma série temporal Tal gráfico é útil para ver a estabilidade de um processo. Control Chart é Melhor! 56 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Multi-Vari •Identifica Diversos tipos de variação •A análise de efeitos é similar em DOE Sinter.mtw •Permite identificar interações •Não é o mesmo que Estatística Multivariada TempoSinter Use os 0,5 23,5 Dados a seguir 1,0 2,0 22,5 <Stat> 21,5 Força <Quality Tools> <Multi-Vari>: 20,5 19,5 Response: Força (y) 18,5 Factor1: TempoSinter (x1) 17,5 Factor2: TipoMetal (x2) 15 18 21 TipoMetal 57 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Nível 0,5 x1 x2 y 0,5 15 23 0,5 15 20 0,5 15 21 0,5 18 22 0,5 18 19 0,5 18 20 0,5 21 19 0,5 21 18 0,5 21 21 Multi-Vari – Monte a Tabela Nível 1,0 x1 x2 y 1 15 22 1 15 20 1 15 19 1 18 24 1 18 25 1 18 22 1 21 20 1 21 19 1 21 22 Nível 2,0 x1 x2 y 2 15 18 2 15 18 2 15 16 2 18 21 2 18 23 2 18 20 2 21 20 2 21 22 2 21 24 58 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada 2 - DISTRIBUIÇÕES DE PROBABILIDADE 59 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Sumário 1 - Motivação 2 - Distribuições de Probabilidade • Distribuições Contínuas • Distribuição Discretas 60 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Motivação •O reconhecimento da importância dos processos estocásticos; •A consideração da “Incerteza” associada aos eventos; •Exatidão na modelagem matemática; •Correta determinação da probabilidade de ocorrência dos fenômenos; •A otimização de processos industriais e de serviços através de técnicas de SIMULAÇÃO. 61 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada DISTRIBUIÇÕES DE PROBABILIDADE 62 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Formatos de Distribuições 63 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuições Contínuas de Probabilidade f ( x )≥0 Área da curva é unitária Probabilidade está associada a área ∫ ∞ −∞ f (x ) = 1 P(a ≤ X ≤ b ) = ∫ f ( x)dx b a f(x) => fdp Função densidade de probabilidade (b > a ) Algumas Distribuições Contínuas: Normal Uniforme Chi-square Fisher(F) Student(t) Beta Cauchy Exponential Gamma Laplace Logistic Lognormal Weibull 64 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Distribuição Normal Estatística Aplicada a) ∫ ∞ −∞ f ( x )dx = 1 b) f ( x ) ≥ 0 f(x) c) lim f ( x ) = 0 x→ ∞ e lim f ( x ) = 0 x→ −∞ d) f(µ + x) = f(µ - x) µ 1 f ( x) = e σ 2π x−µ − (1 2 ) σ µ+σ 2 x e) M áx f(x) o co rre em x = µ f) O s p o nto s d e inflexão são x = µ ± σ g ) E (X ) = µ h) V a r(X ) = σ 2 65 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Distribuição Normal Estatística Aplicada Pouca Utilidade Prática Retorna a probabilidade Acumulada Retorna a Variável quando é dada a probabilidade acumulada Exemplo X:N(100,5) P(X<=95)=0,1587 66 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Distribuição Normal Estatística Aplicada Se a dimensão de uma peça segue uma distribuição Normal X: N(80,3) qual a Probabiliade de ter uma peça defeituosa de acordo com a figura? µ X : N (µ ;σ ) 1σ σ p(d) T LSE 3σ σ Used With Permission 6 Sigma Academy Inc. 1995 67 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição Normal Exercício 1: Em uma população onde as medidas tem Média 100 e Desvio Padrão 5, determine a probabilidade de se ter uma medida: a) Entre 100 e 115 Dica: b) Entre 100 e 90 c) Superior a 110 d) Inferior a 95 Crie uma coluna com os valores 100 115...98 no Minitab e) Inferior a 105 f) Superior a 97 g) Entre 105 e 112 h) Entre 89 e 93 i) 98 Use: <Calc><Probability Distribution><Normal> Crie uma coluna com os valores 0,74...0,05 no Minitab Exercício 2: Em uma população onde as medidas tem Média 100 e Desvio Padrão 5, determine os valores k tais que se tenha a probabilidade: a) P(X>k)=0,26 b) P(X<k)=0,32 c) P(100-k<100<100+k)=0,47 d) P(x<100-k)+P(x>100+k)=5% 68 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Probabilidades e Escores padronizados (z) Exemplo Um cliente tem um portfólio de investimentos cuja média é US$ 500.000 com desvio padrão de US$ 15.000. Determine a probabilidade de que o valor de seu portfólio esteja entre US$ 485.000 e US$ 530.000. zi = xi − µ σ 69 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Probabilidades e Escores padronizados (z) Exemplo Se X tem distribuição normal N(15, 4), encontre a probabilidade de X ser maior que 18. Exemplo Uma companhia produz lâmpadas cuja vida segue uma distribuição normal com média 1.200 horas e desvio padrão de 250 horas. Escolhendo-se aleatoriamente uma lâmpada, qual é a probabilidade de sua durabilidade estar entre 900 e 1.300 horas? 70 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Probabilidades e Escores padronizados (z) Exemplo Um grupo de estudantes obtém notas que são normalmente distribuídas com média 60 e desvio padrão 15. Que proporção dos estudantes obtiveram notas entre 85 e 95? Exemplo No caso da prova do exercício anterior, determine a nota acima da qual estão 10% dos melhores alunos da classe. 71 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Probabilidades e Escores padronizados (z) Exercício É sabido que a quantidade anual de dinheiro gasto em livros por alunos de uma universidade, segue uma distribuição normal com média $380 e desvio padrão de $50. Qual é a probabilidade de que um aluno escolhido aleatoriamente no campus gaste mais do que $ 360 por ano? 72 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Probabilidades e Produção Exercício A demanda antecipada de consumo de um certo produto é representada por uma distribuição normal com média 1.200 unidades e desvio padrão de 100. a) Qual é a probabilidade de que as vendas excedam 1.000 unidades? b) Qual é a probabilidade de que as vendas estejam entre 1.100 e 1300 unidades? c) A probabilidade de se vender mais do que k unidades é de 10%. Determine k. 73 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Probabilidades e Investimentos Exercício Um portfólio de investimentos contém ações de um grande número de empresas. Ao longo do último ano as taxas de retorno das ações dessas corporações seguiram distribuição normal com média de 12,2% e desvio padrão de 7,2%. a) Para que proporção de empresas o retorno foi maior que 20%? b) Para que proporção de empresas o retorno foi negativo? c) Que proporção de empresas tiveram retornos entre 5% e 15%? 74 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Probabilidades e Investimentos Exercício Considere dois investimentos. Em ambos, a taxa de retorno segue uma distribuição normal, com média e desvio padrão conhecidos conforme tabela a seguir. Deseja saber qual dos investimentos é mais provável de produzir retornos de no mínimo 10%. Que investimento deveria ser escolhido? Média Desvio Investimento A 10,4 1,2 Investimento B 11,0 4,0 75 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Probabilidades e Finanças Exercício Um portifólio de investimentos contém ações de um grande número de empresas. Ao longo do último ano as taxas de retorno das ações dessas corporações seguiram distribuição normal com média de 12,2% e desvio padrão de 7,2%. a) Para que proporção de empresas o retorno foi maior que 20%? b) Para que proporção de empresas o retorno foi negativo? c) Que proporção de empresas tiveram retornos entre 5% e 15%? 76 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição Uniforme +∞ +∞ −∞ −∞ µ = E ( X ) = ∫ xf ( x)dx σ 2 = Var ( X ) = 2 ( ) x − µ f ( x)dx ∫ A =1 A = b.h = (b − a) f ( x) = 1 F(x) a 1 f ((xx) = (b − a) b 1 a+b µ = E(X ) = ∫ x dx = b−a 2 a b σ 2 = Var ( X ) = +∞ 2 ( ) x − µ ∫ −∞ a + b 1 ( b − a) f ( x) dx = ∫ x − dx = 12 2 b − a − ∞ 77 +∞ 2 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 2 Estatística Aplicada Distribuição Exponencial Função Exponencial 0 0,06 f (x ) = λ.e 0,05 − λxi F(x) 0,04 0,03 0,02 0,01 0,00 0 0 20 40 60 80 100 120 140 x ∞ 1 − λx ( ) µ = E X = ∫ xλe dx = λ 0 σ 2 = Var ( X ) = +∞ 2 ( ) µ x − ∫ −∞ +∞ 2 1 1 − λx f ( x)dx = ∫ x − λe dx = 2 λ λ 0 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 78 Estatística Aplicada Distribuição Weibull Weibull 0 1,0 Variable C7 * Weibull 1 1 C8 * Weibull 3,4 2 C9 * Weibull 4,5 6.2 Y-Data 0,8 β x f (x ) = δ δ β −1 e x − δ β 0,6 0,4 0,2 0,0 0 0 2 4 6 8 10 X-Data 79 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição Uniforme Exemplo A espessura de um componente é uma variável aleatória uniformemente distribuída entre os valores 0,95 a 1,05 cm. a) Determine a proporção de componentes que excedem a espessura de 1,02 cm. b) Qual é o valor de espessura que é excedida por 90% dos componentes? c) Qual é o valor da espessura abaixo da qual estão 75% dos componentes? 80 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição Uniforme Exemplo Suponha que uma variável aleatória seja uniformemente distribuída no intervalo [1.5; 5.5]. a) Determine a probabilidade de x ser menor que 2,5. b) Qual é a probabilidade de x ser maior que 3,5? c) Determine o valor de k, de modo que a probabilidade de x ser maior que k seja de 40% 81 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição Exponencial Exemplo Considere o seguinte conjunto de dados: [26, 22, 21, 19, 8, 4]. Ajustando estes dados por distribuição exponencial, determine: a) A probabilidade de uma v.a. x ser menor que 10. b) A probabilidade de uma v.a. x ser menor que 5. c) P(5< x < 10). 82 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição Exponencial Exemplo Suponha que X tem uma distribuição exponencial com média igual a 10. Determine: a) A probabilidade de uma v.a. x ser maior que 10. b) A probabilidade de uma v.a. x ser menor que 20. c) Encontre k tal que P(X<k)=0,95 83 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição Exponencial Exemplo O tempo entre as chamadas telefônicas para uma loja de suprimentos é distribuído exponencialmente com um tempo médio de 15 minutos entre as chamadas. Determine: a) A probabilidade de não haver chamadas por um período de 30 minutos. b) A probabilidade de que no mínimo uma chamada chegue dentro do intervalo de 10 minutos. c) A probabilidade de que a primeira chamada chegue entre 5 e 10 minutos. d) O intervalo de tempo, tal que exista uma probabilidade de 90% de haver no mínimo uma chamada no intervalo. Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 84 Estatística Aplicada Distribuição Exponencial Exemplo O tempo entre as chegadas de ônibus a uma estação rodoviária é distribuído exponencialmente, com média 10 min. Determine: a) x, tal que a probabilidade de vc esperar mais de x minutos seja de 10%. b) x, tal que a probabilidade de vc esperar menos de x minutos seja de 90%. c) x, tal que a probabilidade de vc esperar menos de x minutos seja de 50%. 85 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição Exponencial Exemplo O tempo entre a chegada de e-mails em seu computador é distribuído exponencialmente com média igual a duas horas. Determine: a) Qual a probabilidade de vc não receber uma mensagem durante o período de duas horas? b) Se vc não tiver recebido uma mensagem na últimas quatro horas, qual será a probabilidade de vc não receber mensagens nas próximas duas horas? 86 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição Exponencial Exemplo O tempo entre as chamadas para o escritório do CEO de uma corporação é exponencialmente distribuído com média igual a 10 minutos. Determine: a) Qual a probabilidade de não haver chamadas dentro de meia hora? b) Se a secretária do CEO se ausentar por 5 minutos, qual será probabilidade dela não atender (e repassar) uma “importante” ligação para o chefe? 87 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição Discretas de Probabilidade f ( xi )≥0 Algumas Distribuições Discretas A Distribuição Binomial A Distribuição de Poisson n A soma das frequências é unitária ∑ f (x ) = 1 A Distribuição Geométrica A Distribuição de Pascal A Distribuição Multinomial A Distribuição Hipergeométrica i =1 i P( X = xi ) = f ( xi ) A probabilidade é a frequência 88 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição Binomial Use o programa Statdisk <Analysis> <Probability Distribution> <Binomial Distribution> Observe em <Options> os valores acumulados 89 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição Binomial n! x p (1 − p ) n − x x = 0,1,2,...n P ( X = x ) = x!(n − x )! =0 para outros valores E(X) = np e Var (X) = npq Ex.: A probabilidade de um teste “Burn in / Burn out” queimar um componente eletrônico é 0,2 (p). Colocando-se três (n) componentes sob teste, qual a probabilidade de que pelo menos dois deles (x) se “queime”? 90 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição Binomial E = {QQQ, QQN, QNQ, NQQ, NNQ, NQN, QNN, NNN} onde Q e N representam a queima ou não do componente x P(x) 0 P{NNN} = P(X = 0) = q3 = (0.8)3 1 P{NNQ} + P{NQN} + P{QNN} = P(X = 1) = 3pq2 = 3(0.2)(0.8)2 2 P{QQN} + P{QNQ} + P{NQQ} = P(X = 2) = 3p2q = 3(0.2)2(0.8) 3 P{QQQ} = P(X = 3) = p3 = (0.2)3 X: Número de Queimas Q P(X ≥ 2) = P(X=2) + P(X= 3) = 3p2q + p3 = 0.104 = 10,4% 91 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição Binomial Exercício: Suponha que uma válvula eletrônica, instalada em determinado circuito, tenha probabilidade 0.2 de funcionar durante o tempo de garantia. São ensaiadas 20 válvulas. a) Qual a probabilidade de que delas, exatamente k, funcionem durante o tempo de garantia (k = 0, 1, 2, ... 20)? b) Qual a probabilidade de que 4 funcionem durante o tempo de garantia? c) Qual o número médio e o desvio padrão de válvulas que irão funcionar durante o tempo de garantia? X ≡ Número de válvulas que funcionam durante o tempo de garantia. p = 0.2 X = 0, 1, 2, ... 20 92 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Distribuição Binomial Estatística Aplicada P(X = x) n x P( X = x ) = p (1 − p ) n − x x = 0,1,2,Ln x =0 para outros valores E(X) = np e Var (X) = npq com média E(x) = np = 20.(0.2) = 4 . e desvio padrão npq = 1788 20 k 20 − k P( X = k ) = (0.2 ) (0.8) k 0 1 2 3 4 5 6 7 8 9 18 x 93 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Distribuição Binomial Estatística Aplicada Exercício: Complete a tabela referente a Distribuição Binomial a seguir: n p k 4 0,2 2 8 0,5 4 12 0,7 3 20 0,8 12 P(X=k) F(k) P(X>k) P(X<k) E(x) 100 0,6 63 94 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Distribuição Binomial Estatística Aplicada n p k P(X=k) 4 0,2 2 0,1536 8 0,5 4 0,2734 12 0,7 3 F(k) left k 0,97 P(X>k) P(X<k) E(x) right left k-1 n.p 0,0272 0,8192 0,8 0,3633 0,0899 4 0,0015 0,0017 0,9983 0,0002 8,4 20 0,8 12 0,0222 0,9679 0,0099 16 100 0,6 63 0,0682 0,2386 0,6932 60 95 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição Hipergeométrica Ex.: Pequenos motores elétricos são expedidos em lotes de 50 unidades. Antes que uma remessa seja aprovada, um inspetor escolhe 5 desses motores e os inspeciona. Se nenhum dos motores inspecionados for defeituoso, o lote é aprovado. Se um ou mais forem verificados defeituosos, todos os motores da remessa são inspecionados. Suponha que existam, de fato, três motores defeituosos no lote. Qual a probabilidade de que a inspeção 100% seja necessária? 3 47 0 5 P( X ≥ 1) = 1 − P( X = 0) = 1 − ≅ 0.28 50 5 96 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição Hipergeométrica P(X ≥1) =1− P(X = 0) 97 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Distribuição de Poisson Estatística Aplicada e − λ λk P( X = k ) = X = 0 , 1, 2,L k! λ = µ = np σ = µ = np Ex.: Em uma experiência de laboratório passam, em média, por um contador, quatro partículas radioativas por milissegundo. Qual a probabilidade de entrarem no contador seis partículas em determinado milissegundo? Utilizando a distribuição de Poisson com λ = 4, então: −4 6 e 4 P ( X = 6) = = 0.1042 6! No Minitab use: <Calc> <Probability Distribution> <Poisson> 98 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição de Poisson Use o programa Statdisk <Analysis> <Probability Distribution> <Poisson Distribution> Observe em <Options> os valores acumulados 99 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Distribuição de Poisson Estatística Aplicada Exercício: Complete a tabela referente à Distribuição Poisson: Média k P(X=k) F(k) P(X>k) P(X<k) 4 2 0,14 0,23 0,76 0,091 8 4 12 3 20 12 100 63 100 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição de Poisson Ex.: Chegam, em média, 10 naviostanque por dia a um movimentado porto, que tem capacidade para 15 desses navios. Qual a probabilidade de que, em determinado dia, um ou mais navios tanque tenham de ficar ao largo, aguardando vaga? Temos aqui que, para λ = 10: P ( X > 15) = 1 − P ( X ≤ 15) = 1 − 0.9513 = 0.0487 101 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição de Poisson Ex.: Uma central telefônica recebe em média 300 chamadas por hora e pode processar no máximo 10 ligações por minuto. Estimar a probabilidade de a capacidade da mesa ser ultrapassada. Temos agora: λ = 300/60 = 5 chamadas/minuto em média P ( X > 10) = 1 − P ( X ≤ 10) = 1 − 0.986 = 0.014 = 1,4% 102 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Distribuição de Poisson Estatística Aplicada Aproximação da Distribuição Binomial Seja X uma v.a. distribuída binomialmente com parâmetro p (baseado em n repetições de um experimento). Isto é, n k n−k P( X = k) = p (1− p) k Admita-se que quando n → ∞, p →0 e np → λ. Nessas condições é possível demonstrar uma importante consideração: e−λλk limP(X = k) = n→∞ k! 103 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição de Poisson Aproximação da Distribuição Binomial Ex.: A probabilidade de um indivíduo ter reação negativa a certa injeção é de 0,001. Determinar a probabilidade de que de 2.000 indivíduos injetados, exatamente 3 tenham reação negativa. Usando a distribuição binomial com n = 2.000 e p = 0.001 temos: 2000 (0.001) 3 (0.999)1997 P( X = 3) = 3 O cálculo desses números dá origem a considerável dificuldade. Pela aproximação de Poisson temos: −2 3 e 2 α = np = (2000)(0.001) = 2 P ( X = 3) = = 0.1804 3! 104 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Distribuição de Poisson Estatística Aplicada Aproximação da Distribuição Binomial Ex.: Consideremos um experimento binomial com n = 200, p = 0.04 em que se pede a probabilidade de, no máximo, 5 sucessos. O cálculo direto é impraticável, usando a Distribuição Binomial 200 (0.04) k (0.96) 5− k P ( X ≤ 5) = ∑ k =0 k 5 λ = np = (200) (0.04) = 8 P(X ≤ 5) = 0.1912 Obtido de Tabela (ou micro) 105 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Distribuição de Poisson Ex.: A probabilidade de um indivíduo ter reação negativa a certa injeção é de 0,001. Determinar a probabilidade de que de 2.000 indivíduos injetados, mais de quatro tenham reação negativa. α = np = (2000)(0.001) = 2 P( X > 4 ) = 1 − [ P( X = 4 ) + P( X = 3) + P( X = 2 ) + P( X = 1) + P( X = 0 )] e − 2 2 4 e − 2 23 e − 2 2 e − 2 20 = 1− + + + 4 ! 3 ! 1 ! 0 ! 8 4 − 2 16 = 1 − e + + + 2 + 1 = 0.0526 24 6 2 106 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada 3 - Estimação de Parâmetros e Intervalos de Confiança Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Estimação de Parâmetros e IC Idéia Central: Criar e avaliar intervalos de Confiança para dados amostrais. Tópicos abordados: • Inferência Estatística • O Teorema Central do Limite • Intervalos de Confiança • A Distribuição t de Student. 108 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada População Estimação de Parâmetros Noções Amostragem Ex.: Para a distribuição normal os parâmetros são µ e σ2. Estimação de parâmetros Inferência e escolha da Distribuição Estatística Cálculo de Probabilidades (Usando a Distribuição acima) Os termos população e distribuição são equivalentes. Informação para tomada de decisão 109 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Nomenclatura 110 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada O Teorema Central do Limite “Para uma população não normal com média µ e desvio padrão σ, a distribuição da média amostral X para amostras de tamanho n suficientemente grande é aproximadamente normal com média µ e desvio padrão σ n , isto é: X − µ ~ N : (0,1)” Ζ= σ n Ou seja: Se X:(µ, σ) então a distribuição amostral de X é N(:(µ, σ n) 111 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada TCL “Para uma população normal com média µ e desvio padrão σ, a média amostral X para amostras de tamanho n suficientemente grande é aproximadamente normal com média µ e desvio padrão σ n , isto é: X −µ ~ N : (0,1)” Ζ= σ n Ou seja: Se X:N(µ, σ) então a média amostral de X é N:(µ, Erro Padrão = Standard Error=SE= σ Pedro Paulo Balestrassi - www.pedro.unifei.edu.br σ n n) 112 Estatística Aplicada =IC ( µ :95%) ... para Sigma conhecido Consideremos uma população normal com média µ, desvio padrão σ e uma amostra dessa população. X −u σ n Fixando α em 0.05, ou seja, 1- α=0.95, ~ N : (0,1) Pelos resultados do Teorema do Limite Central 0.95 P (−1.96 < Z < 1.96) = 0.95 0.025 0.025 X -1.96 0 1.96 z 113 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Confiança e Significância População normal com média µ e desvio padrão σ Pelos resultados do TCL: X −u σ n α : Nível de significância 1- α: Nível de confiança ~ N : (0,1) P (−1.96 < Z < 1.96) = 0.95 X −µ P− 1.96 < < 1.96 = 0.95 σ n [ ] [θˆ ;θˆ ] = [X − 1.96(σ n ); X + 1.96(σ n )] =IC (µ :95%) P X − 1.96(σ 0 n ) < µ < X + 1.96(σ n ) = 0.95 1 114 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada [ IC - Interpretação P X − 1.96(σ n ) < µ < X + 1.96(σ ] n ) = 0.95 Ela não significa que a probabilidade do parâmetro µ cair dentro de um intervalo especificado seja igual a 0.95. µ sendo o parâmetro, está ou não, dentro do intervalo. θ “0.95 é a probabilidade de que um intervalo aleatório contenha µ .” 115 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada =IC ( µ :95%) ... para Sigma Desconhecido [ ( IC ( µ : (1 − α )100) = X − tα 2 S ( X − µ) t= S n ) ( n ; X + tα 2 S n )] 1 n 2 S = ( X − X ) ∑ i n − 1 i =1 2 1-α α/2 α/2 t - tα/2 0 tα/2 116 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada “Distribuição t de Student”, com v graus de liberdade v=n-1 (Distribuição t de Student) (X − µ) t= S n 1 n 2 S = ( X − X ) ∑ i n − 1 i =1 2 Normal hv(t) Tal distribuição é usualmente tabelada para alguns valores de v e α t 117 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Intervalos de Confiança para PROPORÇÕES Exemplo Uma amostra aleatória de 85 camisas, 10 apresentaram algum tipo de defeito (furos, manchas, costuras soltas etc). Construa um intervalo de confiança de 95% para a proporção populacional de defeituosos. pˆ − Zα 2 pˆ (1 − pˆ ) ≤ p ≤ pˆ + Zα 2 n pˆ (1 − pˆ ) n Usando a aproximação pela NORMAL. 118 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Tamanho de Amostra Exemplo Um candidato político deseja avaliar se as suas intenções de votos são maiores do que as do concorrente, com uma margem de pelo menos 5%. Possui, na última pesquisa realizada, 35% da preferência do eleitorado. Admitindo a = 1% e b = 5%, qual o tamanho de amostra necessária? 119 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Power and Sample Size selecionar: Stat > Power and Sample Size > 2 Proportions “Proportion 1 values”: < 0,35 > “Power values”: < 0,95 > “Proportion 2”: < 0,30 > selecionar: Options marcar “Greater Than” “Significance level”: < 0,01 > OK OK 120 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Teste de Hipóteses 4-Teste de Hipóteses H0 : µ A = µB B A Rejeita-se H0 P_value<0.05 Pedro Paulo Balestrassi | www.pedro.unifei.edu.br Teste de Hipóteses São diferenças Estatisticamente Significantes? A perda em um processo caiu de uma proporção de 10% para 5%. Dois operadores tem em média tempos de 34 e 40 minutos, respectivamente para desenvolver uma atividade. Quanto maior o número de horas-extras maior a insatisfação dos trabalhadores (correlação de 0.40) Pedro Paulo Balestrassi | www.pedro.unifei.edu.br Teste de Hipóteses • • • • • • • Procedimentos Gerais Teste de média Z para 1 amostra Teste de média t para 1 amostra Teste de variância para 2 amostras A Distribuição de Fisher Teste de média t para 2 amostras Teste de média para Observações Emparelhadas Teste de proporções Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 123 Teste de Hipóteses Erros e Hipóteses •Na afirmação: “Uma pessoa é considerada inocente até que se prove o contrário pois é um erro maior condenar um inocente do que libertar um culpado.”, defina: •Erros Tipo I e Tipo II •Hipóteses Nula e Alternativa Situação Real RC Ho Ho H1 Correta Erro II β Decisão H1 Erro I Correta α Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 124 Teste de Hipóteses Testes Paramétricos e Não Paramétricos Paramétricos Não Paramétricos Ho: Dados Normais H1: Dados não normais P_value Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 125 Teste de Hipóteses Algoritmo Básico de Implementação No Minitab: Análise do p-value ! Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 126 Teste de Hipóteses Exemplo de Algoritmo Básico Teste de dois tipos de Amplificadores Amostra de 25 amplificadores Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 127 Teste de Hipóteses Exemplo de Algoritmo Básico 4º passo: Cálculo da média amostral com base nas 25 amostras 5º passo: Caso a média amostral pertença à região crítica, rejeita-se H0 e aceita-se H1 (Dizemos que os amplificadores são do tipo “Não Americano”). Em caso contrário, aceita-se H0. Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 128 Teste de Hipóteses Marcianos ou Venusianos? Ver Programa John Hattie e Teste_Hipóteses (flash) Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 129 Teste de Hipóteses Exemplos: • Duas linhas de produção supostamente idênticas estão apresentando resultados diferentes. Como confirmar isso? • A variabilidade de um processo é maior que outro. Temos certeza? • Os dados estão normalmente distribuídos? • Como saber estatisticamente se dois funcionários tem o mesmo desempenho? Pedro Paulo Balestrassi | www.pedro.unifei.edu.br Teste de Hipóteses Quick Guide 1/2 Pedro Paulo Balestrassi | www.pedro.unifei.edu.br Teste de Hipóteses Quick Guide 2/2 Pedro Paulo Balestrassi | www.pedro.unifei.edu.br Teste de Hipóteses Exemplo Teste de média Z para 1 amostra Processo de fabricação de latas A Resistência ao Estufamento das latas para a inspeção final deve ser maior que 90 psi. Tal resistência obedece a uma distribuição normal com desvio padrão de 1 psi . As medidas da Resistência para uma determinada linha/turno estão dadas na planilha Resistência.MTW Teste a Hipótese de que as medidas da Resistência ao Estufamento estão dentro do limite de especificação. (Prove que as medidas são maiores que 90) Pedro Paulo Balestrassi | www.pedro.unifei.edu.br Resistência.MTW 133 Teste de Hipóteses <1-Sample Z> H1 é geralmente o que se deseja provar Geralmente não é fornecido Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 134 Teste de Hipóteses 1-Sample Z: Resultados One-Sample Z: Resistencia H0 H1 Uma boa regra: Quando P_value< 0,05, rejeita-se Ho Test of mu = 90 vs mu > 90 The assumed sigma = 1 Variable Resistencia Variable Resistencia N 15 Valor dentro da Região Crítica Mean 91,111 95,0% Lower Bound 90,686 Região Crítica Pedro Paulo Balestrassi | www.pedro.unifei.edu.br StDev 0,834 Z 4,30 SE Mean 0,258 P 0,000 Rejeita-se H0 135 Teste de Hipóteses 1-Sample Z: Histograma Histogram of Resistencia (with Ho and 95% Z-c onfidenc e bound for the mean, and s igma = 1,0000) A média pertence a região crítica para rejeição de Ho 6 5 Frequency 4 3 2 1 0 _ X Ho [ 89,5 90,0 90,5 91,0 91,5 92,0 92,5 93,0 Resistencia Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 136 Teste de Hipóteses Exemplo Teste de média t para 1 amostra Processo de fabricação de latas A especificação da Largura da Flange das latas para a inspeção final é definida como 0.082’’+/- 0.010’’ e obedece a uma distribuição normal. As medidas da Largura da Flange para uma determinada linha/turno estão dadas na planilha. Teste a Hipótese de que as medidas da Largura da Flange estão dentro do limite de especificação. (Prove que os valores são em média maiores que 0,072” e menores que 0,092”) Pedro Paulo Balestrassi | www.pedro.unifei.edu.br flange.MTW 137 Teste de Hipóteses <1-Sample t> Teste 1 Teste 2 Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 138 Teste de Hipóteses 1-Sample t: Resultados One-Sample T: Largura Flange H0 H1 Test of mu = 0,092 vs mu < 0,092 Variable Largura Flan Variable Largura Flan N 15 Mean 0,083522 StDev 0,003446 95,0% Upper Bound 0,085089 T -9,53 SE Mean 0,000890 P 0,000 Rejeita-se H0 One-Sample T: Largura Flange H0 H1 Test of mu = 0,072 vs mu > 0,072 Variable Largura Flan Variable Largura Flan N 15 Mean 0,083522 StDev 0,003446 95,0% Lower Bound 0,081955 Pedro Paulo Balestrassi | www.pedro.unifei.edu.br T 12,95 SE Mean 0,000890 P 0,000 Rejeita-se H0 139 Teste de Hipóteses 1-Sample t: Histogramas Histogram of Largura Flange (with Ho and 95% t-confidenc e bound for the mean) 5 4 Frequency O Teste t é usado para comparar médias quando o desvio padrão da população é desconhecido 3 2 1 Histogram of Largura Flange _ X 0 [ (with Ho and 95% t-confidenc e bound for the mean) 0,079 5 0,081 0,083 0,085 0,087 0,089 0,091 Largura Flange Frequency 4 3 2 1 _ X 0 Ho ] 0,079 0,081 0,083 0,085 0,087 Largura Flange 0,089 0,091 O teste t é usado na maioria dos casos. O termo t deve-se ao estatístico Gosset que criou a distribuição t de Student. Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 140 Teste de Hipóteses Exemplo Teste de Variância para 2 amostras Processo de fabricação de latas Dois tipos de Bico de Aplicação de verniz (Tipo I e Tipo II) foram avaliados. Deseja-se investigar o efeito desses dois Bicos com relação ao Peso do Verniz (em mg) medido após o processo. Tais medidas são dadas na planilha ao lado. As variâncias são iguais? (Teste a Hipótese nula de que os dois bicos produzem um peso de Verniz com mesma variância, ou seja, mesma dispersão). Pedro Paulo Balestrassi | www.pedro.unifei.edu.br Peso_Verniz.MTW 141 Teste de Hipóteses <2 Variances> Usando 2 Variances Obs.: Teste o Procedimento Stack Columns Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 142 Teste de Hipóteses 2 Variances – Levene’s Test Test for Equal Variances 95% Confidence Intervals for Sigmas Factor Levels Verniz_tipo1 Prefira sempre pois independe da distribuição dos dados Verniz_tipo2 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 F-Test Levene's Test Test Statistic: 2.738 Test Statistic: 1.505 P-Value P-Value : 0.150 : 0.236 Boxplots of Raw Data As variâncias são iguais! Verniz_tipo1 Verniz_tipo2 110.0 110.5 111.0 111.5 Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 112.0 112.5 143 Teste de Hipóteses 2 Variances – Teste F de Fisher Probability Density Function y=F(x,10,10) 1.500 A Distribuição F de Fisher 1.125 O Teste F testa se duas Variâncias são iguais. Em caso de Variâncias idênticas, F=1. Tal distribuição é geralmente utilizada para cálculos manuais pois é tabelada! 0.750 0.375 0.000 0 1 2 Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 3 4 144 Teste de Hipóteses <Anova> <Test for equal variances> USANDO Test for Equal Variances (melhor!!!) Level1 Verniz_tipo1 Level2 Verniz_tipo2 ConfLvl 95.0000 <Anova> <test for equal variances> Esse método é melhor pois pode testar mais que dois conjuntos de dados. Bonferroni confidence intervals for standard deviations Lower Sigma Upper N Factor Levels 0.358564 0.548160 1.10380 10 Verniz_tipo1 0.216713 0.331303 0.66713 10 Verniz_tipo2 F-Test (normal distribution) Test Statistic: 2.738 P-Value : 0.150 Levene's Test (any continuous distribution) Test Statistic: 1.505 P-Value : 0.236 (variâncias iguais) Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 145 Teste de Hipóteses Teste de média t para 2 amostras Exemplo: Em relação ao problema anterior, teste se as médias são diferentes. (Peso_Verniz.MTW) Do teste de Levene Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 146 Teste de Hipóteses <2-Sample t> Two-Sample T-Test and CI: Verniz_tipo1, Verniz_tipo2 Two-sample T for Verniz_tipo1 vs Verniz_tipo2 N Mean StDev SE Mean Verniz_t 10 110.792 0.548 0.17 Verniz_t 10 112.205 0.331 0.10 Difference = mu Verniz_tipo1 - mu Verniz_tipo2 Estimate for difference: -1.413 95% CI for difference: (-1.838, -0.987) T-Test of difference = 0 (vs not =): T-Value = -6.97 P-Value = 0.000 DF = 18 Both use Pooled StDev = 0.453 Pedro Paulo Balestrassi | www.pedro.unifei.edu.br Médias diferentes 147 Teste de Hipóteses 2-Sample t: Boxplots Boxplots of Verniz_t1 and Verniz_t2 (means are indicated by solid circles) 112.5 112.0 111.5 111.0 110.5 110.0 Verniz_t Pedro Paulo Balestrassi | www.pedro.unifei.edu.br Verniz_t 148 Teste de Hipóteses Exemplo Teste para observações emparelhadas Processo de fabricação de latas Suspeita-se que dois funcionários estão monitorando o Manômetro do processo de Minster de uma forma desigual. Para diferentes pressões foram lidas (de uma forma emparelhada) os resultados da planilha. Teste a Hipótese Nula de que os dois operadores tem o mesmo desempenho. Pedro Paulo Balestrassi | www.pedro.unifei.edu.br Oper_Pressao.MTW 149 Teste de Hipóteses <Paired t> Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 150 Teste de Hipóteses Paired t: Resultados Paired T-Test and CI: Operador 1, Operador 2 Paired T for Operador 1 - Operador 2 N Mean StDev SE Mean Operador 1 10 194 428 135 Operador 2 10 196 428 135 Difference 10 -2.400 1.075 0.340 95% CI for mean difference: (-3.169, -1.631) T-Test of mean difference = 0 (vs not = 0): T-Value = -7.06 P-Value = 0.000 Médias diferentes Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 151 Teste de Hipóteses Paired t: Boxplot Boxplot of Differences (with Ho and 95% t-confidence interval for the mean) [ -4 ] _ X -3 Ho -2 -1 0 Differences Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 152 Teste de Hipóteses Teste para proporção de 1 amostra Exemplo: Durante a Inspeção final da lata acabada a especificação define que entre 6 latas (vistas a cada hora em cada linha) 5 não devem apresentar defeitos visuais por palete. As inspeções correspondentes a 24 horas são feitas para dois dias em meses diferentes (admita que a proporção se mantenha constante ao longo dos dois dias). Temos Assim: Dia 1: 12 Defeitos Visuais em 144 Latas Inspecionadas Dia 2: 23 Defeitos Visuais em 144 Latas Inspecionadas Teste a Hipótese Nula de que as duas proporções atendem às especificações. Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 153 Teste de Hipóteses <1 Proportion> Teste 1 Teste 2 Uma lata em cada 6 são defeituosas 1/6=0,166667 Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 154 Teste de Hipóteses 1 Proportion: Resultados Test and CI for One Proportion Test of p = 0,166667 vs p > 0,166667 Sample 1 X 23 N 144 Sample p 0,159722 95,0% Lower Bound 0,111691 Exact P-Value 0,623 Estão dentro da especificação Test and CI for One Proportion Test of p = 0,166667 vs p > 0,166667 Sample 1 X 12 N 144 Sample p 0,083333 95,0% Lower Bound 0,048788 Pedro Paulo Balestrassi | www.pedro.unifei.edu.br Exact P-Value 0,999 155 Teste de Hipóteses <2 Proportions> Em relação ao exemplo anterior, Teste a Hipótese Nula de que as duas proporções são iguais. Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 156 Teste de Hipóteses 2 Proportions: Resultados Test and CI for Two Proportions Sample 1 2 X 12 23 N 144 144 Sample p 0,083333 0,159722 Estimate for p(1) - p(2): -0,0763889 95% CI for p(1) - p(2): (-0,151343; -0,00143469) Test for p(1) - p(2) = 0 (vs not = 0): Z = -1,98 P-Value = 0,047 São diferentes Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 157 Teste de Hipóteses TESTES DE INDEPENDÊNCIA χ2 Suponha que uma amostra com n observações possa ser classificada em uma tabela cruzada, formada por um fator de linha e um de coluna. Se a hipótese nula puder ser escrita como: H0: Não há associação entre os dois atributos. Então a freqüência esperada dentro de cada célula será: Eij = Ri C j n Onde: Ri = total da linha i; Cj = total da coluna j Pedro Paulo Balestrassi | www.pedro.unifei.edu.br Teste de Hipóteses A rejeição da hipótese nula se dará se: r c χ = ∑∑ 2 T i =1 j =1 (O ij − Eij ) 2 Eij >χ 2 ( r −1)( c −1),α O teste é baseado na magnitude da discrepância entre as quantidades observadas e esperadas. 159 Pedro Paulo Balestrassi | www.pedro.unifei.edu.br Teste de Hipóteses Exemplo: De acordo com os dados da tabela abaixo, avalie se existe relação entre o método de reserva de passagens e o sexo do passageiro. Método Agência 160 H M 256 (233,5) 74 (96,5) Total 330 Internet 41 (58,7) 42 (24,3) 83 Toll-free 66 (70,8) 34 (29,2) 100 Total: 363 150 513 Pedro Paulo Balestrassi | www.pedro.unifei.edu.br Teste de Hipóteses A rejeição da hipótese nula se dará se: 2 2 2 ( ) ( ) ( ) 256 233 , 5 74 96 , 5 34 29 , 2 − − − χ2 = + + ... + T 233,5 96,5 29,2 = 26,8 O valor crítico do teste será: χ (2r −1)( c −1),α = χ 22, 0.05 = 5,99 Como o valor de teste é maior que o valor crítico, rejeita H0. Logo, o tipo de reserva está relacionado ao sexo do 2 passageiro. O indício da diferença está no maior χ cel . 161 Pedro Paulo Balestrassi | www.pedro.unifei.edu.br Teste de Hipóteses Exemplo: Following a presidential debate, people were asked how they might vote in the forth coming election. Is there any association between one’s gender and choice of a candidate? Gender Total 162 Candidate Male Female A B Total 150 100 250 130 120 250 Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 280 220 500 Teste de Hipóteses Análise Bidimensional Distribuição Conjunta A Distribuição Conjunta é usada para o estudo da associabilidade entre variáveis. Ex.: A partir de uma renda familiar podemos estimar a classe social de uma pessoa, pois sabemos da existência de dependência entre essas duas variáveis. Como ver a associação das variáveis na Distribuição Conjunta abaixo? X Y Masculino Feminino Total Economia 85 35 120 Administração 55 25 80 Total 140 60 200 Distribuição conjunta das freqüências das variáveis X (Curso) e Y (Sexo) Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 163 Teste de Hipóteses X Y Ex.: Independência de Eventos Masculino Feminino Total Economia 85 35 120 Administração 55 25 80 Total 140 60 200 Distribuição conjunta das freqüências das variáveis X (curso) e Y (sexo) Economia 61% 58% 60% Administração 39% 42% 40% Distribuição conjunta das proporções em relação aos totais de cada coluna. Independente do sexo, 60% preferem Economia e 40% preferem Total 100% 100% 100% Administração X X Y Y Masculino Feminino Total Masculino Feminino Total Economia 71% 29% 100% Administração 69% 31% 100% Total 70% 30% 100% Distribuição conjunta das proporções em relação aos totais de cada linha. Independente do Curso, 70% é Masculino e 30% é feminino Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 164 Teste de Hipóteses X Y <Chi-Square Test> Masculino Feminino Total Economia 85 35 120 Administração 55 25 80 Total 140 60 200 Escola A X Y Masculino Feminino Total Engenharia 100 20 120 C. Sociais 20 60 80 120 80 200 Total Desenvolva a análise de Independência de Eventos para cada uma das tabelas, usando o Minitab (Bidimensional.mtw) <Stat> <Tables> <Cross -Tabulation> <Chi-Square Analysis> Escola B Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 165 Teste de Hipóteses Estado Esperados e Observados Tipo de Cooperativa Consumidor Produtor Escola São Paulo 214 (33%) 237 (37%) 78 (12%) 119 (18%) Paraná 51 (17%) 102 (34%) 126 (42%) 22 ( 7%) 301 (100%) Rio G.Sul 111 (18%) 304 (51%) 139 (23%) 48 ( 8%) 602 (100%) Total 643 (42%) 343 (22%) 189 (12%) 1551 (100%) 376 (24%) Estado Outros Total 648 (100%) Tipo de Cooperativa Consumidor Produtor Escola Outros Total 156 (24%) 272 (42%) 142 (22%) 78 (12%) 648 (100%) 72 (24%) 127 (42%) 66 (22%) 36 (12%) 301 (100%) Rio G.Sul 144 (24%) 254 (42%) 132 (22%) 72 (12%) 602 (100%) Total 376 (24%) 643 (42%) 343 (22%) 189 (12%) 1551 (100%) São Paulo Paraná Pedro Paulo Balestrassi | www.pedro.unifei.edu.br Distribuição conjunta das proporções em relação aos totais de cada linha. oij Distribuição conjunta dos valores esperados em relação aos totais das linhas eij 166 Teste de Hipóteses Chi-Square Test Estado Tipo de Cooperativa Consumidor Produtor Escola Outros São Paulo 58 -35 -64 41 Paraná -21 -25 60 -14 Rio G. Sul -33 50 7 -24 Estado nij = oij − eij Tipo de Cooperativa Consumidor Produtor Escola Outros São Paulo 21,56 4,50 28,84 21,55 Paraná 6,12 4,92 54,54 5,44 Rio G. Sul 7,56 9,84 0,37 8,00 Qui-Quadrado χ 2 =∑ i ∑ j (o − e ) ( o −e ) = 2 nij ij ij eij 2 ij ij eij = 21,56 + 6,12 + L + 8,00 = 173,379 Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 167 Teste de Hipóteses Cross Tabulation Estado Tipo de Cooperativa Consumidor Produtor Escola São Paulo 214 (33%) 237 (37%) 78 (12%) 119 (18%) Paraná 51 (17%) 102 (34%) 126 (42%) 22 ( 7%) 301 (100%) Rio G.Sul 111 (18%) 304 (51%) 139 (23%) 48 ( 8%) 602 (100%) Total 643 (42%) 343 (22%) 189 (12%) 1551 (100%) 376 (24%) Outros Total 648 (100%) Desenvolva a análise de Independência de Eventos para a tabela, usando o Minitab (Bidimensional.mtw) <Stat> <Tables> <Cross Tabulation> Stacked <Stat> <Tables> <Chi-Square> Unstacked Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 168 Estatística Aplicada 5– ANÁLISE DE VARIÂNCIA (ANOVA) Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada ANOVA Análise de Variância • • • • • As bases da Análise de Variância Um fator (One-way) Dois fatores (Two-way) Análise de Médias (ANOM) Balanced ANOVA ANOVA é um Teste para Comparar Médias (O nome é enganoso!) 170 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada ANOVA - Visualmente Entendendo o significado da ANOVA... 171 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada As Bases da ANOVA Tratamentos A B C 5 9 10 4 1 5 6 8 8 7 11 7 8 6 10 Somatório 30 35 40 Médias 6 7 8 Resposta As médias são realmente diferentes ou tudo não passa de casualidade? H 0 : µ A = µ B = µC H1 : Pelo menos um dos sinais = vai ser negado 172 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Algoritmo: Variação Total Média geral Passo 1: Cálculo da Variação Total ∑ Xi X i − X = xi 5 5-7=-2 4 4 4-7=-3 9 Etc. Etc. Etc 7 0 0 10 3 9 105 0 96 Foram considerados 15 observações: DF=14 xi 2 Como SS>0 é razoável imaginar que ela se compõe de variações que ocorrem Dentro dos Grupos (Within) e Entre os tratamentos (Between) Variação Total (SS: Sum Squares) Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 173 Estatística Aplicada Algoritmo: Variação Within Passo 2: Cálculo da Variação Dentro do Grupo - Within X A X A − X A ( X A − X A ) ( X B − X B ) ( X C − X C )2 2 5 5-6=-1 1 4 -2 4 6 0 0 7 1 1 8 2 4 10 VarWithin=SSW=10+58+18=86 2 58 18 Foram considerados 5 observações em cada caso: DF=12 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 174 Estatística Aplicada Algoritmo: Variação Between Passo 3: Cálculo da Variação Entre Tratamentos (Between) XA XA − X (X A − X ) 6 -1 1 6 -1 1 6 -1 1 6 -1 1 6 -1 1 5 SSB=5+0+5=10 2 (X B − X ) 0 2 (XC − X ) 5 Foram considerados 3 observações: DF=2 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 2 175 Estatística Aplicada SS=SSW+SSB ! Algoritmo: Graus de Liberdade 96=86+10 Graus de Liberdade (DF): SS possui (15-1)=14 DF (3 Tratamentos) (5 Observ/Trat) SSW possui (5-1)(3)=12 DF (5 Observ/Amostra)(3 Amostras) A B C 5 9 10 4 1 5 6 8 8 7 11 7 8 6 10 SSB possui (3-1)=2 DF (3 Tratamentos -1) DFSS=DFSSW+DFSSB ! 14=12+02 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 176 Estatística Aplicada SS=SSW+SSB ! Algoritmo: Teste de Fisher para Médias 96=86+10 DFSS=DFSSW+DFSSB ! 14=12+02 Estimativas de Variâncias: <Calc F> SSB/DFSSB = 10/2 = 5 SSW/DFSSW = 86/12 = 7,17 F0= 5/7,17=0,70 Fcrítico= 3,89 (em função dos DFSSW, DFSSB e alfa=5% F0<Fcrítico Não se Rejeita Ho Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 177 Estatística Aplicada Algoritmo: Quadro resumo Quadro Resumo Básico Fonte de Variação Própria Variação DF Variância Estimada F0 SSB (ou SS Factor) 10 2 10/2=5 5/7,17=0,70 SSW (ou SS Error) 86 12 86/12=7,17 SS 96 14 178 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Minitab <ANOVA>One-Way Unstacked One-way ANOVA: A; B; C (use unstacked) Analysis of Variance Source DF SS MS F P Factor 2 10,00 5,00 0,70 0,517 Error 12 86,00 7,17 Total 14 96,00 Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev A 5 6,000 1,581 B 5 7,000 3,808 C 5 8,000 2,121 ----+---------+---------+---------+-(------------*------------) (------------*------------) (------------*------------) ----+---------+---------+---------+-- Pooled StDev = 2,677 4,0 6,0 8,0 10,0 179 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada One-Way ANOVA Anova1.mtw Exemplo Na definição do Setup dos fatores para o processo Inside Spray quatro conjuntos de níveis para os parâmetros de Temperatura foram avaliados. Deseja-se investigar o efeito desses quatro Setups com relação a Distribuição do Verniz interno no fundo para cerveja medidas em mg/pol2 após o processo. Tais medidas são dadas na planilha ao lado. 180 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada ANOVA One-Way (Unstacked) ANOVA One-Way (Unstacked) Usar o Procedimento Stack Columns para executar o Teste ANOVA One-Way (preferível pois faz a análise de resíduos!!) 181 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada ANOVA One-Way: Resultados As médias são diferentes 182 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada ANOVA One-Way: Boxplots Boxplots of Setup1 - Setup4 (means are indicated by solid circles) 8.5 7.5 6.5 5.5 Setup4 Setup3 Setup2 Setup1 4.5 183 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada ANOVA One-Way: Residuals x Fitted Residuals Versus the Fitted Values (response is mg) 1.5 1.0 Residual 0.5 0.0 -0.5 -1.0 -1.5 6.0 6.5 7.0 Fitted Value 184 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Two-Way ANOVA Exemplo Processo de fabricação de latas No processo Bodymaker desejase investigar a Profundidade do Dome em função de 3 conjuntos de parâmetros (envolvendo pressão, Temperatura Vazão, etc...) e também em dois turnos de operação. Foram então colhidas amostras da Profundidade do Dome (em polegadas) para diferentes Turnos e diferentes Conjuntos de Parâmetros. Anova_2.MTW 185 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada ANOVA Two-Way: Follow along 186 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada ANOVA Two-Way: Resultados Diferentes Iguais 187 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada ANOM Análise de Médias Exemplo Foram avaliados três níveis de pressões de ar draw pad (em psi) e também três níveis de pressões de ar blow off (em psi) na influência de problemas visuais após o processo Minster. O número de defeitos visuais (Riscos, Abaulamento, orelhas, rebarbas, rugas e ovalização) está mostrado na planilha ao lado. Anova_3.MTW ANOM: Para identificar qual média é diferente e avaliar a Interação! 188 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada ANOM Isso é melhor estudado em DOE! 189 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada ANOM: Gráficos Não há interação entre as pressões Blow e Draw. O Efeito de Blow é significativo! 190 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada ANOM: Resultados Blow Draw A Pressão Blow afeta mais a média 3,0 e 8,83 são valores distantes de 6,22 191 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Balanced Anova Exemplo Processo de fabricação de latas Deseja-se avaliar o tempo gasto (em minutos) por seis funcionários para ajustar o Setup de dois processos (I e II) usando dois diferentes procedimentos (um novo e um antigo). A planilha seguinte mostra os resultados obtidos. Isso é a base para DOE - Delineamento de Experimentos! Anova_5.MTW 192 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Balanced ANOVA 193 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Balanced ANOVA: Resultados Diferentes 194 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br TWO-WAY Estatística Aplicada Ex.: An engineer suspects that the surface finish of metal parts is influenced by paint used and the drying time. Using a 5% significance level, test the influence of these two factors as also its interaction. 195 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br TWO-WAY Estatística Aplicada Drying Time (min) Paint 20 25 30 Total (yi..) 1 74 64 50 188 73 61 44 178 78 85 92 255 621 2 92 86 68 246 98 73 88 259 66 45 85 196 701 Total: (y.j.) 434 437 451 1322 (y…) 196 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br TWO-WAY Estatística Aplicada Ex.: An experiment describes an investigation about the effect of glass type and phosphor type on the brigtness of a television tube. The response is the current (mA) necessary to obtain a specified brightness level. Using a 5% significance level, test the influence of these two factors as also its interaction. 197 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada 6 – CORRELAÇÃO E REGRESSÃO Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Análise de Regressão • • • • • • Correlação Procedimentos Gerais Y=f(X) Regressão linear Ajuste da Regressão Regressão linear Múltipla Best Subsets A análise de regressão é uma técnica estatística usada para modelar e investigar a relação entre duas ou mais variáveis. O modelo é freqüentemente usado para previsões. Regressão é um teste de hipótese Ha: O modelo permite significativamente prever a resposta. 199 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Coeficiente de Correlação Agente x y A 2 48 Diagrama de Dispersão 70 Clien ntes Ex.: Suponha que o nosso desejo seja o de quantificar a associabilidade entre duas variáveis relacionadas a cinco agentes de uma seguradora. Assim, temos: X≡ ≡ Anos de experiência do agente. Y ≡ Número de clientes do agente. 60 50 2 B 4 56 C 5 64 D 6 60 E 8 72 3 4 5 6 7 8 Anos de Experiência (x, y) é um par aleatório – Dados emparelhados Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 200 Estatística Aplicada r=Correlação de Pearson y− y = zy sy y−y y x Série de dados originais (x e y) são valores quantitativos. x−x O conjunto de pontos é deslocado, tendo agora como centro, os valores médios. 1 n r = Corr ( X , Y ) = ∑ z xi z yi n i =1 x−x = zx sx A escala de x e y é agora padronizada. Isso torna os valores independente da sua unidade. Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 201 Estatística Aplicada Coeficiente de Correlação x−x y−y Agente x y zx zy zx . zy A 2 48 -3 -12 -1.5 -1.5 2,25 B 4 56 -1 -4 -0.5 -0.5 0,25 C 5 64 0 4 0 0.5 0 D 6 60 1 0 0.5 0 0 E 8 72 3 12 1.5 1.5 2,25 Total 25 300 0 0 0 0 4,75 x = 5 y = 60 4,75 Sx = 2 S y = 8 r = Correlação ( X , Y ) = 5 = 0,95 = 95% 202 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada P_value p/ Correlação 1 n 1 n xi − x yi − r = Corr ( X , Y ) = ∑ z xi z yi = ∑ n i =1 n i =1 s x s y y 1 ∑ ( x i − x )( y i − y ) Covariância ( X , Y ) −1 ≤ r ≤ 1 r= = n sx ⋅ s y sx ⋅ s y A correlação apresentada aqui é linear. Existem outros tipos de correlação! Agente x y A 2 48 B 4 56 C 5 64 D 6 60 E 8 72 Ex.: Cálculo da correlação da tabela ao lado Pearson correlation of Anos Exp and Clientes = 0,950 P-Value = 0,013 Forte Correlação pois P-Value <0,05 203 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Correlação no Minitab Faça a análise de Correlação das variáveis ao lado na planilha Bidimensional.mtw O Coeficiente de Correlação é também chamado de Coeficiente de Pearson. 204 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Algumas questões sobre Correlação: A) Uma medida de Correlação fornece dois tipos de informações a respeito do relacionamento de duas variáveis. Quais são elas? B) Qual coeficiente de correlação abaixo indica o mais forte relacionamento? a) 0.70 b) 0.03 c)-0.77 d) 0.10 C) Se a correlação Rxy=0.45, então Ryx= D) Qual o valor do coeficiente de correlação melhor descreve os seguintes valores das variáveis X e Y, relacionadas abaixo: X: 20 30 40 50 60 Y: 40 30 20 10 0 a) -1.0 b) 0.0 c) 0.5 d) 1.0 E) Qual a correlação do gráfico abaixo? 205 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada F) Algumas questões sobre Correlação: Se um coeficiente de correlação for de +1.4, o que ocorre? a) O Relacionamento é extremamente forte b) O Relacionamento é positivo c) As respostas acima estão corretas d) Um erro computacional foi cometido G) Um coeficiente de Pearson de -0.5 entre os valores de Leitura (X) e o número de dias ausentes da escola (Y) indica que: a) Metade dos valores de Leitura são menos do que o número de dias ausentes da escola b) Maiores valores de Leitura são associados com menor ausência da escola c)A soma do produto XY é igual a -0.5 d) Quase não existe relacionamento entre X e Y 206 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Dia 1 2 3 4 Variável Comum Fator 1 Água Água Água Água Fator 2 Whisky Vodka Rum Bourbon Resultado Ficou Bêbado Ficou Bêbado Ficou Bêbado Ficou Bêbado Conclusão: a água embebeda É comum associar-se um defeito com uma variável que está sempre presente quando ele ocorre (é o caso do operador que é culpado, pois quando ele executa a operação ocorre um defeito – Toda operação geralmente tem um operador). 207 1995 Six Sigma Academy Inc. Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada As “armadilhas”: correlações casuais Se a história servisse de base, os Republicanos deveriam estar vestindo a camisa dos Yankees e dando uma força para o New York vencer o campeonato. Desde a Segunda Guerra Mundial, toda vez que os Yanks venceram em um ano de eleição, o Partido Republicano assumiu a Casa Branca. Variável Comum Yankees Republicanos GANHARAM PERDERAM GANHARAM PERDERAM 1976 1964 1960 1956 1952 208 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada As “armadilhas”: causa reversa Um fator “X” tem influência sobre um “Y” quando, na verdade, o que ele está vendo é a conseqüência do “Y” . Um exemplo deste caso é o do Departamento de Vendas que insatisfeito com as Vendas resolve dar uma série de descontos e faz promoções para atrair os clientes . Só que a verdadeira causa do problema é o Serviço de Atendimento ao Cliente . Com os novos descontos e a nova promoção fica mais difícil ainda administrar o Serviço de Atendimento ao Cliente, ocasionando num aumento da insatisfação do cliente e diminuindo mais ainda as vendas (“o tiro saiu pela culatra”) . 209 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada As “armadilhas”: fatores omitidos Pesquisas continuamente demonstram que a medida que o tamanho dos hospitais aumenta, a taxa de mortalidade dos pacientes aumenta dramaticamente. Portanto, deveríamos evitar hospitais grandes? Esta análise é enganadora, pois omite um segundo X2 (fator) importante -- a gravidade da condição do paciente quando é admitido ao hospital. Os casos mais sérios tendem a ser levados aos hospitais maiores! Fumar cigarros causa câncer? E se eu dissesse que ... (1) Médicos franceses não encontram esta correlação; (2) O tabaco dos EUA geralmente é exposto a pesticidas, fertilizantes e preservativos contendo substâncias conhecidamente cancerígenas, e; (3) O tabaco francês raramente entra em contato com tais substâncias químicas. 210 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada O Fazendeiro Radiofóbico Em 1950, um fazendeiro afirmou que suas árvores frutíferas estavam sendo prejudicadas pelas ondas de rádio de uma estação local próxima. Ele colocou uma tela de arame ao redor de algumas das árvores para “protegê-las” destas ondas de rádio e, realmente, as árvores protegidas se recuperaram rapidamente, enquanto que as desprotegidas ainda sofriam. Na mesma época, muitas árvores cítricas em todo país foram ameaçadas por uma doença chamada de “folha pequena”. Alguns fazendeiros Texanos descobriram que uma solução de sulfato de ferro curava a doença. No entanto, nem sempre funcionava no Texas, e praticamente nunca funcionava na Flórida ou na Califórnia. O mistério foi desvendado quando o problema verdadeiro foi revelado -- deficiência de zinco no solo. A cerca do fazendeiro Radiofóbico era de tela galvanizada, sendo que traços do zinco da galvanização eram levados da tela para o solo. O sulfato de ferro nada tinham a ver com a cura, mas sim os baldes de ferro galvanizados usados para espalhar a substância! Em outras regiões, onde outros tipos de baldes eram usados, as árvores continuaram doentes. 211 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada As “armadilhas”: multicolinearidade É difícil saber o quê causa o quê, quando alguns fatores [X’s] tendem a ocorrer juntos regularmente. • “Tenho visto uma redução dramática nas perdas desde que comecei a implementar as ferramentas estatísticas na fábrica!” No entanto, foi exatamente na mesma época em que o RH introduziu seu novo sistema de recompensa e reconhecimento. O que ocasionou a melhoria? • Em 1967, um artigo rotulou um determinado tipo de carro como sendo inseguro. O modelo em questão era um carro pequeno esportivo de alto desempenho. Mas que tipo de motorista seria atraído a tal carro? E se eu dissesse que a maioria dos proprietários deste carro tendiam a ser motoristas jovens menores de 25 anos com novas idéias. Esta faixa etária não paga prêmios de seguro mais elevados devido a maior incidência de acidentes? 212 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Y=f(x) y Linha de Regressão A variável X é dita variável independente (ou exógena), enquanto Y é dita variável dependente (ou endógena). x •Y=f(x) Simples •Y=f(x,y,z...) Múltipla 213 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Regressão Linear Simples (Um X) Múltipla (Dois ou mais Xs) Y Curvilínea (Um X) Y Y X X X Curvilínear (Dois ou mais Xs) 2 X 1 Logística (Ys Discretos) Variáveis Indicativas (para Xs Discretos) 1 x Y x Y x x x X x x x x x x x Xb x x x Xc % yes Xa 2 0 X 1 Xi X 214 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Resíduos y y = α + βx yˆ = a + bx, Curva de Resíduos (e) x1 x2 x3 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br x Uma importante condição para o uso de regressão simples é que os resíduos (e) sejam independentes de x. Porque? 215 Estatística Aplicada Regressão Linear Simples 8 yˆ = a + bx 7 ŷi 6 y ei ei 5 Σ e n 2 i=1 i yi 4 3 2 2 n ˆ minΣ e = minΣ ( yi − yi ) = minΣ i=1( yi − a − bxi ) n 2 i=1 i n i=1 2 50 55 60 65 70 75 x 216 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Σ e n 2 i=1 i A matemática da Regressão Linear yˆ = a + bx minΣ e = minΣ 2 n i=1 i n i=1 ( yi − yˆ i ) 2 = minΣ n i=1 ( yi − a − bxi ) 2 ∂ ∂ n n 2 2 d = 0 e ∑i =1 d i = 0. ∑ i =1 i ∂a ∂b − 2∑i =1 ( yi − a − bxi ) = 0, n − 2∑i =1 xi ( yi − a − bxi ) = 0, n 217 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Ufa! ∑n yi = na + b∑n xi , i =1 i =1 n n n 2 x y = a x + b x ∑i =1 i i ∑i =1 i ∑i =1 i n ( xi − x ) yi S xy ∑ i =1 b = = , n 2 S ( x − x ) xx ∑ i i =1 a = y − bx , 218 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Exemplo Exemplo: Obter a equação da reta (chamada de reta dos mínimos quadrados) para os seguintes pontos experimentais: x y 1 0,5 2 0,6 3 0,9 4 0,8 5 1,2 6 1,5 7 1,7 8 2,0 Traçar a reta no diagrama de dispersão. Calcular o coeficiente de correlação linear. Qual o valor previsto para x=9? Qual a Tolerância de X para 1<Y<1.5? 219 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Regressão: By Hand 36 ⋅ 9,2 S xy = 50,5 − = 50,5 − 41,4 = 9,1, 8 (36) 2 S xx = 204 − = 204 − 162 = 42. 8 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 220 Estatística Aplicada Regressão: Cálculos 36 ⋅ 9,2 S xy = 50,5 − = 50,5 − 41,4 = 9,1, 8 (36) 2 S xx = 204 − = 204 − 162 = 42. 8 S xy 9,1 b= = ≅ 0,217, S xx 42 9,2 36 a = y − bx ≅ − 0,217 ⋅ = 1,150 − 0,976 = 0,174. 8 8 yˆ = 0,174 + 0,217 x 221 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Regressão: Gráfico Fitted Line Plot y = 0,1750 + 0,2167 x S R-Sq R-Sq(adj) 2,00 0,121335 95,7% 95,0% 1,75 y 1,50 1,25 1,00 0,75 0,50 0 1 2 3 4 x 5 6 7 8 222 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Regressão: Correlação 2 (9,2) S yy = 12,64 − = 12,64 − 10,58 = 2,06,∴ 8 S xy 9,1 r= = ≅ 0,98 Relembre Correlação! S xx S yy 42 ⋅ 2,06 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Regressão: Teste Hipóteses Para Teste de Hipóteses, considera-se: yˆ = a + bx, Ho:a=0 Ho:b=0 T=a / SE Coef(a) SE Coef (a)= T=b / SE Coef(b) SE Coef (b)= 224 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Regressão linear simples no Minitab Previsão 225 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Linear Ajuste da Regressão R-quadrado éa porcentagem da variação explicada pelo seu modelo. R-quadrado (ajustado) é a porcentagem da variação explicada pelo seu modelo, ajustada para o número de termos em seu modelo e o número de pontos de dados. O “valor-p” para a regressão é para ver se o modelo de regressão inteiro é significativo. —Ha: O modelo permite significativamente prever a resposta. 226 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Ajuste Quadrático Quadrático 227 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Ajuste Cúbico Cúbico 228 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Intervalos de confiança e de previsão Ajuste da Regressão Uma faixa (ou intervalo) de confiança é uma medida da certeza da forma da linha de regressão ajustada. Em geral, uma faixa de 95% implica em uma chance de 95% de que as linha verdadeira fique dentro da faixa. [Linhas vermelhas] Uma faixa (ou intervalo) de previsão é uma medida da certeza da dispersão dos pontos individuais em torno da linha de regressão. Em geral, 95% dos pontos individuais (da população em que a linha de regressão se baseia) estarão contidos dentro da faixa. [Linhas azuis] 229 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Estreitando Tolerâncias CTQ 2 1 230 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Estreitando Tolerâncias CTQ 2’ 1 2 1’ 231 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Pratique Regressão Linear Simples Determine a função de transferência entre o Número de Setups e o Tempo de Ciclo para diversas operações em uma certa empresa. Use a planilha cycletime.mtw. Faça a análise de Resíduos. Qual a previsão do Tempo de Ciclo para uma operação que consiste em 10 Setups de equipamento? A equação final é adequada? Se não for, como melhorá-la? 232 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Regressão Múltipla Uma reação Química foi realizada sob seis pares de diferentes condições de pressão e temperatura. Em cada caso foi medido o tempo necessário para que a reação se completasse. Obter a equação de regressão do tempo em relação a pressão e temperatura. Regressão.mtw 233 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Regressão Múltipla: Resultados Menores que 0,05 Maior melhor 234 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada 92 estudantes americanos participam de um simples experimento. Cada estudante registra o seu peso, altura, gênero, pulso e se é fumante ou não. Todos eles jogam uma moeda e sorteiam se vão dar uma corrida (cara) ou não por um minuto. Após a corrida, todos os alunos registram o seu pulso novamente. Um aluno sugere que seja inserida a seguinte “importante” consideração: Se a pessoa pinta o cabelo ou não. Best Subsets Regressão.mtw Deseja-se fazer uma regressão do segundo pulso em relação a todas as outras variáveis. Pedro Paulo Balestrassi - www.pedro.unifei.edu.br 235 Estatística Aplicada Best Subsets: Resultados Equação de regressão inicial. Muito complexa Correlação muito alta. Quem pinta cabelo é “geralmente” mulher 236 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Best Subsets: Resultados Melhor ajuste 237 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Análise de Resíduos Ruim Bom Residual Residuals vs Each X Residual 3 3 2 2 1 1 0 0 -1 -1 -2 -2 -3 -3 3 4 5 6 7 8 9 10 11 12 10 20 X Time Plot of Residuals Residual 3 Residual 3 2 2 1 1 0 0 -1 -1 -2 -2 -3 -3 0 50 100 0 Time Order Residuals vs Predicted Y (Fits) 50 Residual 3 Residual 3 2 2 1 1 0 0 -1 -1 -2 -2 -3 30 40 50 0 50 Pred. Y 1 0 -1 -2 -3 100 Pred. Y Nscore 3 2 100 Time Order -3 Normal Probability Plot of Residuals 30 X Nscore 3 Nos casos ruins tente uma transformação em X,em Y ou ambos. Use Box-Cox Transformation Considere a possibilidade da existência de variáveis ocultas que não foram consideradas no modelo (Lurking) Entenda que X e Y não precisam ser normalmente distribuídos. Os resíduos, 238 contudo, deveriam ser. Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Residual Residual 2 1 0 -1 -2 -3 -3 -2 -1 0 1 2 3 -1 0 1 2 3 4 Estatística Aplicada Regressão Curvilínea Um laboratório está fazendo testesSeal Strength (g/cm2) em adesivos em função da 2100 temperatura. Quando a 2050 temperatura aumenta a força do 2000 contato entre duas superfícies aumenta Em um determinado 1950 ponto, contudo a força desse 1900 contato começa a diminuir em função de propriedades térmicas 200 250 300 do adesivo. Qual o modelo Temperature empírico da força (Seal Strength) em função da temperatura? Curve.mtw 350 400 239 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Termo quadrático da regressão Deve-se criar a variável quadrática e em seguida rodar o modelo em Regression Termo quadrático Observe resíduos Função quadrática VIF Armazena resíduos 240 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Regressão Curvilínea The regression equation is SealStrength = 923 + 7.45 Temperature - 0.0125 TempSqrd X X2 Predictor Constant Temperat TempSqrd Coef 922.98 7.4469 -0.0124596 S = 25.18 StDev 72.33 0.5033 0.0008499 R-Sq = 69.4% T 12.76 14.80 -14.66 P 0.000 0.000 0.000 X e X2 são fortemente correlacionados. Nenhuma surpresa VIF 132.9 132.9 R-Sq(adj) = 68.7% Analysis of Variance Source Regression Residual Error Total Source Temperat TempSqrd DF 1 1 DF 2 97 99 SS 139321 61498 200819 Conclusão: Existe uma curvatura significativa MS 69661 634 F 109.87 P 0.000 Seq SS 3051 136270 241 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Exemplo: n PREÇO VENDAS De acordo com os dados da tabela ao lado, há correlação entre o preço de um produto e o respectivo volume de vendas? 1 5,5 420 2 6,0 380 3 6,5 350 4 6,0 400 5 5,0 440 6 6,5 380 7 4,5 450 8 5,0 420 242 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Exemplo: n Price Sales A liquor wholesaler is interested in assessing the effect of the price of a whiskey on the quantity sold. The results in table represent the price (US$) and the respective eight weeks of sales. What are your conclusions? 1 2 3 4 5 6 7 8 19,2 20,5 19,7 21,3 20,8 19,9 17,8 17,2 25,4 14,7 18,6 12,4 11,1 15,7 29,2 35,2 243 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Exemplo: Doctors are interested in the relationship between the dosage of a medicine and the time required for a patient’s recovery. Based on the following data, verify if the variables are correlated. n Dosage Recovery Time 1 1,2 25 2 1,0 40 3 1,5 10 4 1,2 27 5 1,4 16 244 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Exemplo: n x y The table shows, for eight vintages of select wine, purchase per buyer (y) and the wine buyer’s rating in a year (x). 1 2 3 4 5 6 7 8 3,6 3,3 2,8 2,6 2,7 2,9 2,0 2,6 24 21 22 22 18 13 9 6 Are the variables correlated? * Vintage: safra de vinho 245 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br Estatística Aplicada Exemplo: Determine a correlação entre o tempo de experiência e o salário anual do funcionário e se existe diferença significativa entre os salários dos homens e das mulheres. Mulheres Salário ($) Experiência 36730 40650 46820 50149 59679 5 7 9 10 14 67360 17 Homens Salário ($) Experiência 51535 62289 72486 75022 93379 5 7 9 10 14 105979 17 246 Pedro Paulo Balestrassi - www.pedro.unifei.edu.br