Análisis y presentación de datos cuantitativos [Modo de
Transcrição
Análisis y presentación de datos cuantitativos [Modo de
Pesquisa Quantitativa Margareth C. Portela DAPS/ENSP/FIOCRUZ (Aula organizada pela Profa. Carla Andrade) O que é Estatística? Métodos estatísticos são essenciais no estudo de situações em que as características de interesse estão sujeitas, inerentemente, a flutuações aleatórias. Mesmo em um grupo homogêneo de indivíduos, observa-se grande variabilidade entre indivíduos, e no mesmo indivíduo, em ocasiões diferentes. O que é Estatística? Conjunto de métodos para a coleta e análise de dados, provenientes de qualquer área do conhecimento, possibilitando a interpretação e construção de inferências neles baseados. A qualidade das informações depende da qualidade dos dados!!! Motivos para se estudar Estatística • Saber fazer para fazer ou criticar o que está feito. • Tornar-se mais crítico em sua análise de informações quantitativas; • Tornar-se menos sujeito a afirmações enganosas baseadas em números ou gráficos distorcidos. • Aguçar sua capacidade de reconhecer dados estatísticos distorcidos e de interpretar adequadamente dados não distorcidos. • Validar as informações levantadas na dissertação/tese. Estatística Descritiva • O que deve ser feito com os dados depois que eles foram coletados? • O que pode ser concluído a partir da informação disponível? Folha de Dados VARIÁVEIS OBSERVAÇÕES Identificação Sexo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Idade 1 2 2 1 1 1 2 2 1 2 1 1 2 2 2 1 2 1 1 2 1 2 2 1 1 2 1 2 1 Fuma 35 27 32 45 63 54 78 36 42 39 51 63 32 41 54 56 65 48 37 46 51 48 53 62 39 47 58 62 34 0 1 0 0 0 0 1 1 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 Tratamento 1 2 3 1 1 2 1 3 3 2 1 3 1 1 2 2 3 2 1 3 2 1 1 1 3 3 2 2 3 Raça negra branca negra pardo mulato branca Descrição e Apresentação de Dados Basicamente, a Análise Descritiva consiste na organização e descrição dos dados, na identificação de valores que represente o elemento típico e na percepção, avaliação e quantificação da variabilidade do conjunto de dados. Além de se familiarizar com os dados, possibilita identificar estruturas interessantes, como a de valores atípicos. Descrição e Apresentação de Dados • Em estudos pequenos podemos descrever cada observação (este procedimento é tedioso). Ex: Estudo de casos • Na maioria das vezes é impossível analisar observação por observação. Ex: Pesquisas domiciliares Descrição dos Dados Há várias formas de sumarizar os dados, dependendo da natureza dos dados. As mais utilizadas são: ●Tabelas ●Gráficos ●Medidas-resumo numéricas Distribuição de Frequências Tabela de Dados Brutos: obtidos diretamente da pesquisa. Sem tratamento ou síntese. Exemplo: Número de horas dormidas de pacientes hospitalizados após administração de certo anestésico. Distribuição de Frequências Consiste na construção de uma tabela a partir dos dados brutos, em que se leva em consideração a frequência com que cada observação ocorre. A interpretação pode ser auxiliada pela análise de gráficos. Tipos de Dados (Variáveis) Facilita o tratamento estatístico de variáveis, classificá-las em categóricas e quantitativas: Variável é a quantificação ou categorização da característica de interesse do estudo. Nominal Qualitativa (categórica) Ordinal Variável Discreta Quantitativa (numérica) Contínua Tipos de Dados (Variáveis) • Variável resposta: variável a ser explicada no estudo. • Variável explicativa ou covariável: variável que serve de suporte na explicação da variabilidade da variável resposta. Conhecer o tipo da variável resposta é um ponto de partida para determinar os métodos de análise mais apropriados ou válidos. Exemplo de Dados Coletados Questionário de um Inquérito Epidemiológico: • Qual é a sua idade? • Qual o número de pessoas da sua família? Idade Tamanho da • Qual é a renda total de sua família? • Qual é o seu estado civil? família • Você tem emprego fixo? Renda familiar Estado Civil Emprego Variáveis Nominais Não há ordem entre as categorias: • 1. 2. 3. 4. Estado Civil: Casada Solteira Separada / divorciada Viúva • Sexo: 1. Feminino 2. Masculino Variável binária ou Dicotômica • Tipo sanguíneo: A, B, AB, O ⇒ mais categorias Variáveis Nominais - Distribuição de Frequências: Casos de Sarcoma de Kaposi para os primeiros 2560 casos de Aids registrados nos Centro de Controle de Doença, Atlanta, Geórgia. Sarcoma de Kaposi Número de casos Sim Não 246 2314 Variáveis Nominais Distribuição de melanomas por localização anatômica No de casos Percentual Localização anatômica (Frequência (Frequência absoluta) relativa) Cabeça/pescoço 10 33,3 Tronco Membros superiores Membros inferiores Acral Total 7 6 2 23,3 20,0 6,7 5 30 16,7 100,0 Variáveis Ordinais A ordem deve ser levada em consideração: • Auto-avaliação do estado de saúde: 1. Muito boa 2. Boa 3. Regular 4. Ruim 5. Muito ruim • Estadiamento de uma doença: leve, moderada, grave Tabelas de Dupla Entrada (Tabelas de Contingência) Estudo para avaliar a efetividade do uso de capacetes de segurança de acidentes de bicicleta. Amostra de 793 indivíduos envolvidos em acidentes ciclísticos. Lesão na cabeça Sim Não Total Uso de capacete Sim Não 17 218 130 428 147 646 Total 235 558 793 Comparação entre Grupos/Categorias Comparações entre grupos/categorias devem ser feitas através de frequências relativas. Cursinho Aprovados Candidatos Alpha Beta Gama 1600 400 2400 4000 500 6000 % de Aprovação 1600/4000 = 0,40 ou 40% 400/500 = 0,80 ou 80% 2400/6000 = 0,40 ou 40% Qual cursinho pode ser considerado melhor em termos de aprovação de seus alunos? Elementos de uma tabela Título: deve responder as perguntas: o quê?; onde?; quando? Cabeçalho: indica a natureza do conteúdo de cada coluna. Corpo: parte da tabela composta por linhas e colunas. Linhas: parte do corpo que contém uma seqüência horizontal de informações. Colunas: parte do corpo que contém uma seqüência vertical de informações. Coluna Indicadora: coluna que contém as discriminações correspondentes aos valores distribuídos pelas colunas numéricas. Elementos de uma tabela Casa, casela ou célula: parte da tabela formada pelo cruzamento de uma linha com uma coluna. Rodapé: espaço aproveitado em seguida ao término da tabela, onde são colocadas as notas de natureza informativa. Fonte: refere-se à entidade que organizou ou forneceu os dados expostos. Deve ser colocada no rodapé, no final da tabela. Notas: são esclarecimentos contidos na tabela. Também devem ser colocadas no rodapé, depois da fonte, de forma sintética. Recomendações sobre tabelas A tabela deve ser auto-explicativa, isto é, sua compreensão deve estar desvinculada do texto. Nenhuma célula da tabela sempre um número ou um sinal. deve ficar em branco, apresentando Se existirem duas ou mais tabelas em um texto, estas deverão receber um número, que serão referidos no texto. As colunas externas de uma tabela não devem ser fechadas. Nas partes superior e inferior, as tabelas devem ser fechadas por linhas horizontais. O emprego de linhas verticais para a separação de um corpo da tabela é opcional. Deverá ser mantida uniformidade quanto ao nº de casas decimais. Os totais e subtotais devem ser destacados. A tabela deve ser maior no sentido vertical do que no sentido horizontal. Contudo se uma tabela apresentar muitas linhas e poucas colunas (estreita demais), convém separá-la em uma maior quantidade de colunas (separadas por linhas duplas). Exemplo 1 Fonte: Barboni AR, Gotlieb SLD. Impacto de causas básicas de morte na esperança de vida em Salvador e São Paulo, 1996. Rev Saúde Pública 2004;38(1):16-23 Exemplo 2 Fonte: Moreira CMM, Maciel ELN. Completude dos dados do Programa de Controle da Tuberculose no Sistema de Informação de Agravos de Notificação no Estado do Espírito Santo, Brasil: uma análise do período de 2001 a 2005. J Bras Pneumol. 2008;34(4):225-229 Exemplo 3 Fonte: Guerra FAR, Llerena Júnior JC, Gama SGN, Cunha CB, Theme Filha MM. Defeitos congênitos no Município do Rio de Janeiro, Brasil: uma avaliação através do SINASC (2000-2004). Cad. Saúde Pública, 24(1):140-149, 2008 Gráficos – Variáveis Nominais e Ordinais Fonte: Caderno de Informação da Saúde Suplementar: beneficiários, operadoras e planos (2006: Rio de Janeiro, RJ)./ Agência Nacional de Saúde Suplementar. – Ano 1 (mar. 2006) –. Rio de Janeiro: ANS, 2006 –98p. Gráficos – Variáveis Nominais e Ordinais Gráficos – Variáveis Nominais e Ordinais 2500 2000 1500 1000 500 0 Gráfico: Gasto em saúde per capita das nações da OCED Gráficos – Variáveis Nominais e Ordinais Fonte: Peres MFT, Santos PC. Mortalidade por homicídios no Brasil na década de 90: o papel das armas de fogo. Rev. Saúde Pública, 39(1):58-66, 2005 Gráficos – Variáveis Nominais e Ordinais DII = doenças inflamatórias intestinais DC = doença de Crohn RCUI = retocolite ulcerativa idiopática Fonte: Elia PP, Fogaça HS, Barros RGGR, Zaltman C, Elia CSC. Análise descritiva dos perfis social, clínico, laboratorial e antropométrico de pacientes com doenças inflamatórias intestinais, internados no hospital Universitário Clementino Fraga Filho, Rio de Janeiro. Arq Gastroenterol, 44(4):332-339, 2007 Gráficos – Variáveis Nominais e Ordinais Fonte: Guerra FAR, Llerena Júnior JC, Gama SGN, Cunha CB, Theme Filha MM. Defeitos congênitos no Município do Rio de Janeiro, Brasil: uma avaliação através do SINASC (2000-2004). Cad. Saúde Pública, 24(1):140-149, 2008 Gráficos – Variáveis Nominais e Ordinais Fonte: Peres MFT, Santos PC. Mortalidade por homicídios no Brasil na década de 90: o papel das armas de fogo. Rev. Saúde Pública, 39(1):58-66, 2005 Gráficos – Variáveis Nominais e Ordinais Fonte: Peres MFT, Santos PC. Mortalidade por homicídios no Brasil na década de 90: o papel das armas de fogo. Rev. Saúde Pública, 39(1):58-66, 2005 Gráficos – Variáveis Nominais e Ordinais Fonte: Caderno de Informação da Saúde Suplementar: beneficiários, operadoras e planos (2006: Rio de Janeiro, RJ)./ Agência Nacional de Saúde Suplementar. – Ano 1 (mar. 2006) –. Rio de Janeiro: ANS, 2006 –98p. Gráficos – Variáveis Nominais e Ordinais Fonte: Deslandes SF, Silva CMFP. Análise da morbidade hospitalar por acidentes de trânsito em hospitais públicos do Rio de Janeiro, RJ, Brasil. Rev Saúde Pública 2000;34(4):367-72 Gráficos – Variáveis Nominais e Ordinais Variáveis Discretas Ordem e magnitude são importantes. Os valores diferem entre si por quantidades fixas. Nenhum valor intermediário é possível. Geralmente são resultados de contagens. • Tamanho da família: (1, 2, 3, 4, ...18) • Número de internações desde 1980 a 2004 • Número de óbitos Variáveis Discretas Variáveis Discretas Variáveis Contínuas Os valores possíveis pertencem a um intervalo de números reais, que resultam de mensuração. A diferença entre medidas pode ser arbitrariamente pequena e são anotadas até a precisão da medida usada. • Peso; • Altura; • Pressão Sanguínea. Variáveis Contínuas - Tabela Variáveis Contínuas - Histograma Variáveis Contínuas - Histograma Variáveis Contínuas Polígono de Frequências Polígono de frequências: O pontos médio (Xi) de cada uma das classes é encontrado a partir da fórmula : Xi = Lsuperior + Linferior 2 Vantagens: Pode-se sobrepor diversos polígonos de frequências, para comparação de dados de dois ou mais grupos Variáveis Contínuas Polígono de Frequências Vantagem: sobreposição Variáveis Contínuas Polígono de Frequência Acumulada Variáveis Contínuas Diagrama de Ramo-e-Folhas The decimal point is 2 digit(s) to the right of the | 0 | 11 0| 1|2 1 | 5556777778888888899999 2 | 000000011111111122222233333333444444 2 | 5555566678888899 3|2 3|6 4| 4|8 Taxa de colesterol (mg/dL) em 80 indivíduos. Diagrama de dispersão (Variável numérica X variável numérica) Gráfico de Linhas (Variável numérica no tempo) Variáveis Contínuas Boxplot • Gráfico que detecta valores discrepantes (outliers). • Utiliza os quartis: Q1, Q2 e Q3. • Valores mínimo e máximo do conjunto de dados. • DIQ = Q3 – Q1 Variáveis Contínuas Boxplot Limite sup erior = Q3 + 1,5 × DIQ Limite inf erior = Q1 − 1,5 × DIQ Variáveis Contínuas Boxplot Variáveis Contínuas Boxplot Variáveis Contínuas Boxplot Contagem TCD4 em remissão de linfócitos pacientes de doença em de Hodgkin e em remissão de malignidades disseminadas não Hodgkin. Variáveis Contínuas Boxplot Análise Exploratória Refere-se apenas aos dados observados e compreende sua coleta, tabulação, apresentação, análise, interpretação, representação gráfica e descrição, a fim de torná-los mais manejáveis, podendo, assim, compreendelos e interpretá-los melhor. Exemplo: Um estudo foi conduzido comparando mulheres adolescentes que sofriam de bulimia com mulheres adolescentes com composição corporal e níveis de atividade física similares. Abaixo estão listadas as medidas de entrada calórica diária, registradas em quilocalorias por quilograma, para amostra de bulímicas: Dados do consumo diário (kcal/kg): 15,9 18,9 25,1 16,0 19,6 25,2 16,5 21,5 25,6 17,0 21,6 28,0 17,6 22,9 28,7 18,1 23,6 29,2 18,4 24,1 30,9 18,9 24,5 30,6 Medidas-resumo Além das tabelas e gráficos, a estatística descritiva também é composta de medidas de tendência central e posição, que permitem a melhor análise das variáveis quantitativas. Medidas de tendência central • Caracterizam o conjunto de dados por valores que representem todos os outros valores da amostra. • É uma forma de resumir o conjunto de dados em um único valor. • Medidas: média, mediana e moda. Medidas de tendência central • Média • Somam-se todos os n valores da amostra e divide-se pela quantidade total de valores n da amostra. • O valor da média não necessariamente pertence ao conjunto original de valores. • Não é uma medida robusta influenciada por valores extremos. • É expressa por: n ∑x X = i =1 n i Média - exemplo Exemplo: Pressão pacientes Pressão sistólica 15 20 14 14 12 sistólica de uma amostra de 5 x1 + x2 + x3 + x4 + x5 x= 5 15 + 20 + 14 + 14 + 12 x= 5 75 x= = 15 5 Média - exemplo Exemplo: Influência de valores extremos na média 2 2 5 7 6 4 5 2+2+5+7+6+4+5 = 4,4 x= 7 2 2 5 7 6 4 55 2 + 2 + 5 + 7 + 6 + 4 + 55 = 11,6 x= 7 Média – dados agrupados • Em algumas situações temos apenas os dados agrupados em uma distribuição de frequência. • A média é obtida assumindo que os valores em cada intervalo são iguais ao seu ponto médio -> aproximação. • Como obter? Multiplicamos o ponto médio (mi) de cada intervalo pela frequência correspondente. Somamos esses valores e dividimos pelo total do número de observações. k x= ∑m f i i =1 k ∑f i =1 i i Média – dados agrupados Nível de colesterol fi mi 80-119 13 99,5 1293,5 120-159 150 139,5 20925 160-199 442 179,5 79339 200-239 299 240-279 115 219,5 65630,5 259,5 29842,5 280-319 34 299,5 10183 320-359 9 339,5 3055,5 360-399 5 379,5 1897,5 TOTAL 1067 mifi Distribuição de níveis séricos de colesterol para homens dos EUA, com idade entre 24 e 34 anos, 1976-1980. k x= ∑m f i =1 k i ∑f i =1 i i 212167 1 x= [(99,5x13) + (139,5x150) + ... + (379,5x5)] = 198,8 1067 Mediana • Definição: valor que divide o conjunto de dados em duas partes iguais; • 50% das observações ficam acima da mediana e 50% ficam abaixo; • Medida mais robusta de valores extremos. não sofre influência Mediana • Colocar os valores em ordem e, em seguida, aplicar um dos dois processos abaixo: 1. Se o número de valores é ímpar, a posição da mediana é dada pelo elemento de ordem: (n+1)/2 x1 x2 x3 (3+1)/2= 2, ou seja, elemento de ordem 2: x2 2. Se o número de valores é par, a mediana é dada pela média dos elementos de ordem n/2 e (n+2)/2: x1 x2 x3 x4 x2 + x3 md = 2 Mediana - exemplo • Exemplo 1: 1 2 5 6 7 – Número ímpar de elementos mediana é dada pelo valor que ocupa a terceira posição (5+1)/2, que é igual a 5. • Exemplo 2: 1 2 5 6 7 7 – Número par de elementos dada por 5+6 md = = 5,5 2 mediana será Mediana - exemplo Exemplo: Influência de valores extremos na mediana 2 2 4 5 5 6 7 Número ímpar de elementos mediana é dada pelo valor que ocupa a quarta posição (7+1)/2, que é igual a 5. 2 2 4 5 6 7 55 Número ímpar de elementos mediana é dada pelo valor que ocupa a quarta posição (7+1)/2, que é igual a 5. Moda • Definição: valor que ocorre com maior frequência; • A moda sempre pertence ao conjunto original de valores. Uma distribuição pode ser unimodal, bimodal, multimodal ou amodal. • Exemplos: –1113568 Moda = 1 –1122345 Moda = 1 e 2 –MFMMMF Moda = M Qual medida escolher? Mediana versus Média • Média • Medida mais usada na prática; • Facilidade de tratamento estatístico; • Muito influenciada por valores extremos. • Mediana • Não é tão influenciada por valores extremos; • Utiliza no máximo dois valores da amostra (desvantagem). Forma da Distribuição e Medidas de Tendência Central • Uma distribuição de dados é simétrica se a metade esquerda do seu histograma é praticamente uma imagem espelhada de sua imagem direita. • A distribuição de dados é assimétrica quando se estende mais para um lado que para o outro. Assimétrica à esquerda Simétrica Assimétrica à direita Separatrizes • Percentil: O percentil de ordem k (onde k é qualquer valor entre 0 e 100), denotado por Pk, é o valor tal que k% dos valores do conjunto de dados são menores ou iguais a ele. Divide a distribuição em 100 partes iguais em um conjunto ordenado de valores. • Quartil: Divide a distribuição em 4 partes iguais em um conjunto ordenado de valores. • Decil: Divide a distribuição em 10 partes iguais em um conjunto ordenado de valores. Separatrizes • Percentis: 10, 20, 30, ..., 90 → Decis • Percentil 25 → Primeiro quartil (Q1); Percentil 50 → Segundo quartil (Q2) → Mediana; Percentil 75 → Terceiro quartil (Q3) Separatrizes - Percentis Separatrizes – Exemplo • Exemplo: A tabela abaixo lista 40 níveis ordenados de cotinina para fumantes. 0 1 1 3 17 32 35 44 48 86 87 103 112 121 123 130 131 149 164 167 173 173 198 208 210 222 227 234 245 250 253 265 266 277 284 289 290 313 477 491 • Ache o percentil 30. 30 L30 = × 40 = 12 100 Como L é inteiro, tiramos a média entre o elemento L = 12 e L + 1 = 13 Assim, P30 = (103 + 112)/2 = 107,5 Separatrizes – Exemplo • Exemplo: continuação 0 1 1 3 17 32 35 44 48 86 87 103 112 121 123 130 131 149 164 167 173 173 198 208 210 222 227 234 245 250 253 265 266 277 284 289 290 313 477 491 • Ache o percentil 64. 64 L68 = × 40 = 25,6 100 Assim, P68 = 222 Como L é não é inteiro, arredondar L para o maior inteiro mais próximo, ou seja, para o elemento que ocupa a 26º. posição. Medidas de dispersão • A dispersão fornece uma medida da proximidade da série de dados em torno de um valor de tendência central, tomado como comparação. • Medidas para avaliar a dispersão de um conjunto de dados: Amplitude Total, Variância, Desvio Padrão e Coeficiente de Variação. Medidas de dispersão • Amplitude total AT = x ( máx ) − x ( mín ) • Maior amplitude total → maior dispersão. • Problema: somente são usados os extremos do conjunto. • Elemento auxiliar na análise → mostra a faixa de variação onde encontramos todos os elementos do conjunto. Amplitude Total • Exemplo:Pressão sistólica de uma amostra de 5 pacientes Pressão sistólica 15 20 14 14 12 AT = 20 − 12 = 8 Medidas de Dispersão • Poderíamos então pensar na soma das diferenças entre cada valor do conjunto de dados e a média, mas: n ( x1 − x ) + ( x2 − x ) + ... + ( xn − x ) = ∑ ( xi − x ) = 0 i =1 Então essa medida não serve como medida de dispersão. Segundo ela, todos os conjuntos de dados teriam variabilidade nula. Medidas de dispersão • Variância – Medida direta da dispersão → conjunto com os dados mais dispersos terá maior variância. – A variância mede a variabilidade ao redor da média, fornecendo o grau de precisão da média. – Medida em unidade quadrada (exemplo: anos2) → o que dificulta a sua interpretação. Variância e Desvio padrão • Dada por: n s2 = 2 ( x − X ) ∑ i i =1 n −1 Desvio padrão é obtido por meio da extração da raiz quadrada da variância. Representa o desvio médio dos valores em relação a média. Dado por: n s= 2 ( ) x − X ∑ i i =1 n −1 O desvio-padrão possui a mesma unidade de medida que os dados originais. Variância e Desvio padrão • Exemplo: média = 15 Pressão sistólica 15 20 14 14 12 36 s = =9 4 2 (xi – x) (xi – x)2 15 – 15 = 0 02 = 0 20 – 15 - 5 52 = 25 14 – 15 = -1 -12 = 1 14 – 15 = -1 -12 = 1 12 – 15 = -3 -32 = 9 s= 9 =3 Medidas de dispersão • Desvio padrão - Interpretação • Uma pergunta que pode surgir é se um desvio padrão é grande ou pequeno → depende da ordem de grandeza da variável. • Um desvio-padrão de 10 unidades é grande ou pequeno? – Se a média é 10.000 → desvio é pequeno (0,1% da média). – Se a média é 100 → desvio é grande (10% da média). Medidas de dispersão • Coeficiente de variação – É uma medida de dispersão relativa (%) que mede a variação do desvio padrão em relação à média aritmética. – Vantagem: permite a comparação entre variáveis ou populações distintas. – Quanto menor é o coeficiente de variação de um conjunto de dados, menor é a sua variabilidade. Medida Adimensional. s – Dado por: CV (%) = 100 × X Coeficiente de variação • Exemplo: Pressão sistólica 15 20 14 14 12 Média = 15 s= 9 =3 3 CV % = ×100 = 20% 15
Documentos relacionados
Estatistica - Distribuicao de Frequencia
direita) Média e mediana à direita da moda Em geral, média à direita da mediana
Leia maisANÁLISE DO CONTEÚDO DE ESTATÍSTICA DESCRITIVA NO
2. As tabelas devem ser fechadas no alto e embaixo por linhas horizontais, não sendo fechadas à direita ou à esquerda por linhas verticais. É facultativo o emprego de traços verticais para a separa...
Leia mais