amostras 1 2009 amostras Teoria e exercicios passo-a

Transcrição

amostras 1 2009 amostras Teoria e exercicios passo-a
amostras
2009
amostras
Teoria e exercicios passo-a-passo
Amostra e tipos de amostragens
Margarida Pocinho
28-10-2009
1
amostras
2009
Índice Geral
ÍNDICE DE TABELAS .................................................................................................................................................. 3
ÍNDICE DE FIGURAS ................................................................................................................................................... 3
ÍNDICE DE FÓRMULAS ............................................................................................................................................... 3
INTRODUÇÃO ............................................................................................................................................................ 4
1. NOÇÕES GERAIS .................................................................................................................................................... 4
Noções de estatistica ...........................................................................................................................................4
1.2 Noções de bioestatistica ................................................................................................................................6
1.2.1 - Definição ..............................................................................................................................................6
2. POPULAÇÃO E AMOSTRA ....................................................................................................................................... 9
2.1 Noções gerais ................................................................................................................................................9
2.1.1 Cálculo do tamanho mínimo da amostra ..............................................................................................11
3. TIPOS E MÉTODOS DE AMOSTRAGEM ................................................................................................................... 14
3.1 Amostragens Probabilísticas e Não-Probabilísticas ...................................................................................14
3.1.1 As Amostragens Probabilísticas ...........................................................................................................15
3.1.2 As Amostragens Não Probabilísticas: ..................................................................................................25
3.2 Propriedades da distribuição normal ..........................................................................................................26
4. DETERMINAÇÃO DO TAMANHO DA AMOSTRA ...................................................................................................... 31
4.1 Cálculo do Tamanho da Amostra para Populações Infinitas .....................................................................31
4.1.1.Proporção..............................................................................................................................................31
4.1.2. Determinação da Margem de Erro da Amostra ...................................................................................35
4.2. Cálculo do Tamanho da Amostra para Populações finitas ........................................................................36
4.2.1. Proporção.............................................................................................................................................36
4.2.2. Média ...................................................................................................................................................37
2
amostras
2009
Índice de Tabelas
TABELA 1 EXEMPLO 1 DE NÚMEROS ALEATÓRIOS .................................................................................................... 16
TABELA 2: DISTRIBUIÇÃO NORMAL E RESPECTIVOS DESVIOS ................................................................................... 27
TABELA 3: CURVA NORMAL - TABELA Z (REDUZIDA) .............................................................................................. 29
TABELA 4:DISTRIBUIÇÃO NORMAL PADRÃO ........................................................................................................... 32
Índice de Figuras
FIGURA 1:FLUXO DA IMPORTANCIA E CONTRIBUTO DA ESTATISTICA. ........................................................................ 6
FIGURA 2:POPULAÇÃO E AMOSTRA ............................................................................................................................ 9
FIGURA 3:POPULAÇÃO E AMOSTRA .......................................................................................................................... 15
FIGURA 4: AMOSTRA ESTRATIFICADA ...................................................................................................................... 20
FIGURA 5: AMOSTRA ESTRATIFICADA PROPORCIONAL ............................................................................................. 21
FIGURA 6: AMOSTRA ESTRATIFICADA NÃO PROPORCIONAL ...................................................................................... 21
Índice de Fórmulas
FÓRMULA PARA POPULAÇÕES INFINITAS E VARIÁVEL INTERVALAR ........................................................................... 13
FÓRMULA PARA POPULAÇÕES FINITAS E VARIÁVEL INTERVALAR .............................................................................. 13
FÓRMULA PARA POPULAÇÕES INFINITAS E VARIÁVEL
FÓRMULA PARA POPULAÇÕES FINITAS E VARIÁVEL
QUALITATIVA
........................................................................ 13
QUALITATIVA ............................................................................ 14
FIGURA 3:POPULAÇÃO E AMOSTRA .......................................................................................................................... 15
FÓRMULA PARA PADRONIZAR TABELAS COM DISTRIBUIÇÃO GAUSSIANA................................................................... 27
FÓRMULA PARA POPULAÇÕES INFINITAS E VARIÁVEL
DICOTÓMICA .......................................................................... 32
FÓRMULA PARA POPULAÇÕES INFINITAS QUANDO NÃO TEMOS NENHUMA ESTIMATIVA DE P’ ..................................... 34
FÓRMULA PARACONHECER A MARGEM DE ERRO PADRÃO ......................................................................................... 35
FÓRMULA PARA POPULAÇÕES FINITAS ..................................................................................................................... 36
3
amostras
2009
Introdução
Desde séculos o homem tem, muitas vezes, tomado notas de coisas e de pessoas, não com o único fim de
acumular números, mas com a esperança de utilizar os dados do passado para a resolução de problemas do
presente assim como para a previsão de acontecimentos futuros. No entanto, o sucesso quanto a este objectivo
só foi possível em data muito recente: só no final do século XIX e, sobretudo, no princípio do século XX é que,
com a aplicação de probabilidades aos problemas sobre a interpretação dos dados recolhidos, foi possível
resolver alguns deles.
A Estatística conquistou, hoje, o seu lugar entre as ciências. O poder do seu método é, sobretudo, afirmado nas
últimas décadas e aplica-se, agora, nos domínios mais variados. Até aqui, só um pequeno número de pessoas se
preocupou com estudos estatísticos, quer pela natureza das suas investigações, quer por causa da sua utilidade
para as diferentes profissões. O valor e a importância do método estatístico residem no esforço para melhor
compreender o nosso mundo, tão maravilhosamente complexo, tanto no ponto de vista físico como social,
levam-nos a sonhar que ele se torne objecto de um conhecimento como as outras ciências. A vida corrente levanos a decisões para passar do conhecido ao desconhecido, da experiência à previsão.
Este manual tem por fim fornecer conhecimentos estatísticos (sem ter muitos conhecimentos matemáticos) e
ajudar a interpretar os resultados que podem ser obtidos quer através do calculo manual, quer através de
programas de computador.
1. Noções Gerais
Noções de estatistica
Para algumas pessoas, a Estatística não é senão um quadro de colunas mais ou menos longas de números que
dizem respeito à população, à indústria ou ao comércio, como se vê frequentemente em revistas; para outras,
ela dá gráficos mostrando a variação no tempo de um facto económico ou social, a produção ou os números
relativos aos negócios de uma empresa, assim como se encontra nos escritórios de empresas privadas.
Tão diferenciados se apresentam os métodos estatísticos que não é possível estabelecer uma definição que os
contenha a todos. Apesar disso, apresentamos a seguir uma definição que, embora necessariamente incompleta
como qualquer outra, tem a vantagem de introduzir o aluno na matéria.
A Estatística tem como finalidade elaborar de uma síntese numérica que evidencie o que de mais generalizado e
significativo exista num conjunto numeroso de observações. O grande número de observações de que se parte
reflecte uma diversidade tal que se torna ininteligível a sua interpretação. Para que, a partir dessa diversidade
se possa começar a entender logo, torna-se necessário reduzir sucessivamente as observações, ganhando-se em
generalidade o que se vai perdendo em individualidade.
A síntese implica, assim, que nos desprendamos do que é particular e individual para nos atermos ao que existe
de mais geral no conjunto das observações; à medida que a síntese progride, vai-se perdendo o contacto com as
particularidades imediatas.
Deste modo, a Estatística não se ocupa do que é excepcional, mas apenas do que é geral: não se interessa pelo
indivíduo, mas por grupos de indivíduos; não se ocupa, em suma, de uma só medição, mas de um conjunto de
4
amostras
2009
medições. Acrescente-se, ainda, que a síntese é numérica. Quer isto dizer que se prescinde inteiramente das
palavras e dos recursos literários de mais ou menos efeito que elas possibilitam. Alcança-se a síntese pelo
recurso exclusivo dos números.
Daí o afã com que frequentemente se escolhem os números de acordo com os argumentos. A Estatística é
intrinsecamente uma disciplina não literária, manipula exclusivamente números e alcança a síntese ordenandoos e cooperando com eles.
“Estatística”, deriva de “status” que em latim significa Estado, e que só por si demonstra a ligação que sempre
existiu entre ambos. O primeiro levantamento estatístico remonta a 3050 a.C., no Egipto, tendo como objectivo
informar o estado sobre recursos humanos e económicos. No séc. XVII d.C., a disciplina de Estatística era já
leccionada nas universidades alemãs, continuando com a finalidade de descrever as populações e as riquezas
do Estado. Ainda no séc. XVII, dá-se a expansão dos seus campos de investigação a áreas como a Saúde
pública; a Indústria; o Comércio e os Estudos Demográficos.
Os métodos de inferência estatística surgem com Jonh Graunt (1620-1674), um modesto comerciante, que tira
conclusões válidas sobre uma população desconhecida por ele.
Fermat (1601-1665) e Pascal (1623-1662) permitem que o estudo do acaso tome uma expressão matemática,
introduzindo o Cálculo das Probabilidades. Esta expressão matemática e o aparecimento do método dos
mínimos quadrados, vêm credibilizar a Estatística conferindo-lhe a fundamentação matemática em que ela,
hoje, assenta.
No séc. XVIII Lambert Quetelet (1796-1874) introduziu a Estatística nas análises
Antropometria; das Ciências Sociais; da Economia e da Biologia.
da Meteorologia; da
Aos contributos anteriores Francis Galton (1822-1911), acrescenta as noções de regressão e correlação; Karl
Pearson (1857-1936) apresenta a mais bela e acabada teoria de Estatística, ficando também conhecido pelos
seus coeficientes (r; c); Fisher com os seus trabalhos sobre inferência Estatística também deu um grande
contributo ao desenvolvimento da Estatística.
Em 1943, dá-se uma grande reviravolta, uma vez que o tratamento de dados deixa de ser feito manualmente e
passa, numa primeira fase, a ser apoiado por calculadoras potentes para mais tarde ser computadorizado.
O Método Estatístico, segundo a teoria de Cramer, pressupõe as seguintes fases:
Recolha de dados estatísticos: obtenção da amostra a partir da população, devendo depurar e
rectificar os dados estatísticos, que no seu conjunto são denominados série estatística.
Descrição: conjunto de operações, numéricas ou gráficas, efectuadas sobre os dados estatísticos
determinando a sua distribuição; procede-se à sua ordenação, codificação e representação por meio
de quadros e tabelas.
Análise: consiste em tirar conclusões sobre a distribuição da população, determinar o seu grau de
confiança e ainda formular hipóteses, tentando verificá-las, quanto ao fenómeno em estudo.
Predição: é uma previsão do comportamento do fenómeno em estudo, tendo em conta a definição da
distribuição estatística.
Em termos gerais, parece-nos que uma boa definição do que é a estatística, já que resume os conceitos dos
vários autores, é:
Ciência que trata do planeamento, colheita, organização, sintetização, apresentação e análise de
dados, bem como, a obtenção de conclusões válidas e tomada de decisões em diversos campos do
saber (engenharias, saúde, biologia, farmácia, biofísica, ciencias sociais, geografia, etc.).
Com efeito, o papel da Estatística na pesquisa científica é apoiar o investigador na formulação das hipóteses
estatísticas e fixação das regras de decisão, no fornecimento de técnicas para um eficiente plano de
5
amostras
2009
investigação, na colheita, tabulação e análise dos dados (estatística descritiva) e em fornecer testes de
hipóteses a serem realizados de tal modo que a incerteza da inferência possa ser expressa em um nível
probabilístico pré-fixado (inferência estatística) cujo valor máximo de erro mais consensual é de 5%. (fig 1)
FIGURA 1:FLUXO DA IMPORTANCIA E CONTRIBUTO DA ESTATISTICA.
1.2 Noções de bioestatistica
1.2.1 - Definição
Historicamente foram muitas as definições estabelecidas para Estatística. Da mesma forma, são muitas as
definições para Bioestatística. Preferimos adotar a seguinte: Conjunto de técnicas que permite recolher, apurar
e apresentar dados para que sejam analisados, proporcionando inferências indutivas sobre as ciências da vida.
A má utilização de dados médicos ou de outras ciências, com interpretações erróneas ou mal intencionadas, tem
produzido um grande ceticismo em relação à estatística. Podemos encontrar muitos professores, clínicos ou
mesmo profissionais de ciências básicas, que acham que “bom senso" é suficiente para tratar desses dados, que
qualquer coisa que exija prova estatística não pode ter valor prático ou que procurarão um matemático se
tiverem algum problema estatístico em seu trabalho.
É importante compreender, no entanto, que cada vêz que se toma a média de duas leituras de exame, por
exemplo, ou o número médio de dias de internamento no hospital de pacientes com determinada doença, se está
a usar um método estatístico. Do mesmo modo, usamos métodos estatísticos para concluir que a pressão
arterial do paciente está normal ou que um tratamento cirúrgico é melhor que outro. Deste modo, a Estatística
nas ciências da saúde constitui-se realmente nos princípios da Medicina Quantitativa. Muito das ciências da
saúde depende, directa ou indirectamente, de contagem ou mensuração. Isto é óbvio em pesquisa e verdadeiro
também no diagnóstico. Quando um profissional superior de saúde, leva em consideração na avaliação de um
tumor a sua idade e história familiar, está a utilizar dados quantitativos, ou seja, a incidência de tumores por
idade e por família.
Convencionou-ser chamar de Bioestatística o conjunto de conceitos e métodos científicos usados no tratamento
da variabilidade nas ciências da saúde em especial as ciências médicas e biológicas. A Bioestatística fornece
métodos para se tomar decisões ótimas na presença de incerteza, estabelecendo faixas de confiança para a
eficácia dos tratamentos e verificando a influência de factores de risco no aparecimento de doenças. Dentro da
área biológica, compreende-se por Biometria a ciência que estuda as medidas de seres vivos.
A ênfase crescente do papel dos métodos quantitativos na prática da medicina torna imperativo que o estudante
de medicina assim como o profissional de saúde tenham algum conhecimento de estatística.
O estudante aprende na escola o melhor método de diagnostico e terapêutica; depois de formado dependerá
necessariamente de trabalhos apresentados em reuniões, jornais e revistas cientificas, para aprender novos
métodos de terapia, assim como os progressos em diagnostico e técnicas. Portanto, deverá :
6
amostras
2009
estar apto a avaliar por si próprio os resultados de outros pesquisadores, deverá decidir quando uma
nova técnica ou método pode substituir os antigos.
estar apto a dar à família do paciente, ou ao próprio, bem como aos seus colegas de trabalho,
segurança quanto ao diagnóstico, o que pode depender de sua capacidade de avaliar adequadamente
os resultados de exames laboratoriais e outros, como também de seu conhecimento sobre a relação
entre a idade, sexo e outras condições do paciente e uma determinada doença. Os novos
conhecimentos virão através do trabalho de pesquisa realizado por ele próprio ou por outros.
ser capaz de seleccionar, da massa de informações, aquelas que forem válidas e que resistirem a testes
científicos rígidos.
desenvolver um ceticismo sadio em relação a tudo que lê. Uma noção básica é o reconhecimento de
que os indivíduos diferem não apenas uns dos outros, mas também em relação a si próprios, de dia
para dia ou mesmo de hora para hora. Uma certa quantidade de variação é normal, mas a questão que
desafia o profissional de saúde é determinar quando uma variação específica se torna patológica
(referente à doença).
Para isso, o estudante deve aprender como medir a variação em indivíduos normais e definir qual é o limite de
variação normal. Deve aprender que há algum erro aleatório presente em cada medida ou contagem feita. é
altamente improvável que duas contagens sucessivas de glóbulos, feitas na mesma amostra de sangue, sejam
idênticas. Quando, porém, uma diferença se torna maior que o erro de mensuração? Para exercer as suas
funções do melhor modo possível, o profissional de saúde deve saber responder a questões como essa. Para
cada medida ou determinação fornecida pelo laboratório, o profissional de saúde deve conhecer a variação que
é parte do próprio método, para saber quando uma dada variação representa uma mudança real no paciente.
Sempre que novos métodos de terapia são introduzidos, é necessário saber se são realmente superiores, isto é,
mais eficientes que os velhos métodos. Será nacessário fazer-se a avaliação crítica do estudo experimental,
verificando principalmente se as medidas foram realizadas de modo a produzir resultados fidedignos, se o
factor em prova foi o único factor de diferença entre o grupo experimental e o grupo controle, se a diferença
entre os resultados obtidos nos dois grupos foi maior que aquela que poderia ser atribuída ao acaso. Apenas
depois da avaliação, através de técnicas estatísticas adequadas, da fidedignidade dos resultados,
comparabilidade dos grupos experiência e controle e, significância da diferença encontrada é que podemos
tirar as conclusões relativas ao novo método.
O número de falhas encontradas em publicações médicas enfatiza a necessidade de uma avaliação crítica da
literatura. Para ajudar o estudante a desenvolver tal atitude são necessários certos conceitos estatísticos
básicos e uma certa familiaridade com a terminologia mais usada. Os Métodos estatísticos são essenciais no
estudo de situações em que as variáveis de interesse estão sujeitas, inerentemente, a flutuações aleatórias. Este
é o caso da área da saúde principalmente na Medicina. Mesmo tomando-se um grupo de pacientes homogéneos,
observa-se grande variabilidade, por exemplo, no tempo de sobrevida após um tratamento adequado. Dosagens
de características hematológicas flutuam não só entre indivíduos, como também no mesmo indivíduo em
ocasiões diferentes. Na realidade, há variações entre diferentes pacientes para qualquer variável de interesse
clínico. Portanto, para se estudar problemas clínicos, é necessária uma metodologia capaz de tratar a
variabilidade de forma adequada.
Deve-se notar, entretanto, que ao tratar um paciente, o profissional de saúde se vale da experiência de eventos
anteriores, vivenciada pessoalmente ou transmitida por outros através de livros e artigos. Assim, a Estatística
pode ser vista como ferramenta de organização e validação do conhecimento na área da saúde.
É inegável, hoje, que a ciência busca a verdade descrevendo o universo e estabelecendo princípios gerais para
explicar os fenómenos do universo. Para tanto deve valer-se do pensamento científico, que se estabelece ao
nível de uma linguagem teórica de conceitos e hipóteses. As hipóteses precisam ser comprovadas, quando se faz
necessária a utilização de instrumentos operacionais que explicitarão os procedimentos usados para
observação e mensuração do fenómeno. São as hipóteses estatísticas.
7
amostras
2009
A passagem da hipótese teórica para a hipótese estatística poderia ser assim exemplificada: Determinado
investigador estudará a veracidade da hipótese: "Os indivíduos gordos comem mais que os indivíduos magros".
Esta hipótese encerra alguns conceitos, como: gordo, magro e comer mais. Qualquer que seja o entendimento
destes conceitos teóricos, para se operacionalizar a comprovação desta hipótese o investigador deverá
estabelecer a maneira de medir gordo, magro e comer mais. Ou seja, como observar e medir gordo, magro e
comer mais? Uma tradução operacional destes conceitos pode ser de que gordo é o indivíduo que apresente
peso acima da faixa de normalidade no índice de massa corporal (IMC), e magro é o indivíduo que apresente
peso abaixo dessa faixa. Comer mais seria traduzido como consumir mais calorias do que o definido como
necessário pela tabela de ingestão diária de calorias de acordo com o perfil de atividades do indivíduo.
Desta forma, a hipótese científica poderia ser enunciada como uma hipótese estatística da seguinte forma: "Os
indivíduos que apresentam peso acima da faixa de normalidade do IMC, ingerem mais calorias (medidas pela
tabela de ingestão diária), do que os indivíduos que apresentam peso abaixo da faixa de normalidade do IMC".
Se esta hipótese referir-se a poucos indivíduos basta verificar se é verdade para estes indivíduos e a questão
estará resolvida. No entanto, para a ciência não terá muita utilidade tal observação.
Em ciência buscam-se hipóteses mais gerais, referentes a parâmetros populacionais. Para tanto, serão
elaborados planos de coleta e análise de dados que testarão a hipótese. Os dados serão colhidos e analisados
através de técnicas estatísticas adequadas e, através de uma inferência indutiva, aceita-se a veracidade ou
falsidade da hipótese estatística e, conseqüentemente, de sua hipótese científica correspondente.
Esquematicamente:
Observa-se determinado fenómeno e elabora-se uma hipótese científica que procura estabelecer a
relação entre seres e atributos;
A partir da hipótese científica se deduz (inferência dedutiva) uma hipótese estatística que permita
explicar o fenómeno observado dentro de uma estrutura universal e coerente, incorporada ao conjunto
de conhecimentos actuais;
Com a hipótese estatística se deduzem (inferência dedutiva) as conseqüências lógicas quanto ao que
deve ser esperado empiricamente com relação à população;
São estabelecidas as regras de decisão para aceitação ou não aceitação da hipótese;
A hipótese será verificada quanto a sua veracidade ou falsidade através do estudo do comportamento
do fenómeno, com colheita de dados e análise dos resultados através de técnicas estatísticas
adequadas definidas previamente;
De acordo com o definido como regra de decisão, induz-se (inferência indutiva), a partir dos
resultados e com base na teoria das probabilidades, a veracidade ou falsidade da hipótese estatística e
a veracidade científica correspondente.
A inferência indutiva terá tanto mais significado quanto mais rigoroso for o delineamento da colheita de dados
e quanto mais apropriada for a análise estatística destes dados. As falhas nestas fases podem implicar em que
os valores encontrados não reflitam adequadamente os parâmetros correspondentes. A inferência da hipótese
estatística para a científica será tanto melhor quanto mais adequada tenha sido a formulação dos conceitos
teóricos.
Uma conclusão indutiva bem confirmada é provisoriamente aceita como verdade, tornando-se um princípio.
Será ajustada com a aquisição de novos conhecimentos, somando experiências que a regulem, e permitindo o
contínuo ajuste do modelo à realidade do universo.
Ao verificar a provável verdade de uma hipótese, a Estatística fornece, em bases probabilísticas, o risco de
errar ao aceitar ou rejeitar uma hipótese. Constitui-se em um instrumento dos mais poderosos para o
pesquisador na busca da verdade, e o principal instrumento para generalizar conclusões a partir de
experimentos particulares.
8
amostras
2009
2. População e Amostra
2.1 Noções gerais
População: somatório dos indivíduos ou elementos, com qualquer característica comum e que estão sujeitos a
uma análise estatística, por terem interesse para o estudo. Quanto à sua origem pode ser: um conjunto de
pessoas; um conjunto de objectos ou um conjunto de acontecimentos. Quanto à sua natureza pode ser:
Existente ou real; Hipotética ou parcialmente existente. Pode ainda ser: um conjunto finito ou um conjunto
infinito.
Amostra: é um subconjunto retirado da população, que se supõe ser representativo de todas as características
da mesma, sobre o qual será feito o estudo, com o objectivo de serem tiradas conclusões válidas sobre a
população.
Amostragem: é o procedimento pelo qual um grupo de pessoas ou um subconjunto de uma população é
escolhido com vista a obter informações relacionadas com um fenómeno, e de tal forma que a população inteira
nos interessa esteja representada (fig. 2)
FIGURA 2:POPULAÇÃO E AMOSTRA
Parâmetro: uma característica numérica da população, como uma média da população, μ um desvio padrão da
população, σ uma proporção da população e assim por diante.
O Plano de Amostragem serve para descrever a estratégia a utilizar para seleccionar a amostra. Este plano
fornece os detalhes sobre a forma de proceder relativamente à utilização de um método de amostragem para
determinado estudo.
Logo que o investigador delimite a população potencial para o estudo, ele deve precisar os critérios de selecção
dos seus elementos, que podem ser de inclusão ou de exclusão dos sujeitos que farão parte do estudo:
Uma amostra é dita representativa se as suas características se assemelham o mais possível às da populaçãoalvo. É particularmente importante que a amostra represente não só as variáveis em estudo, mas também outros
factores susceptíveis de exercer alguma influência sobre as variáveis estudadas, como a idade, o sexo, a
escolaridade, o rendimento, etc.
A Representatividade avalia-se comparando as médias da amostra com as da população-alvo.
Sendo a População o conjunto de elementos (pessoas, coisas, objetos) que têm em comum uma característica
em estudo, esta pode ser Finita - quando apresenta um número limitado de indivíduos (Exemplo: a população
constituída por todos os pace makers colocados num hospital, num determinado periodo ou o numero de
rastreios auditivos feitos num determinado dia numa unidade de rastreio).
9
amostras
2009
A população pode ainda ser Infinita: quando o número de observações for a partida indetermináve, como por
exemplo a população constituída de todos os resultados (cara e coroa) em sucessivos lances de uma moeda).
Sendo a Amostra o conjunto de elementos retirados da população, suficientemente representativos dessa
mesma população, estaremos aptos para analisar os resultados como se estudássemos toda a população. A
amostra é sempre finita, pelo que quanto maior for, mais significativo é o estudo. Contudo, como existe sempre
a incerteza de que todas as características da população estão presentes numa amostra, já que estas são muitas
vezes desconhecidas, admite-se que existe sempre um grau de erro.
Como preliminar para uma discussão do papel que a teoria desempenha em uma pesquisa por amostragem, é
interessante descrever sucintamente os estágios envolvidos no planeamento e execução de uma pesquisa. As
pesquisas variam grandemente na sua complexidade. Extrair uma amostra de um conjunto de 5000 processos
numerados e ordenados num arquivo de uma instituição de ensino superior é uma tarefa simples. Muito
diferente é a extracção de uma amostra de seropositivos, face quer às várias disposições éticas como o direito à
confidencialidade do seu estado de saúde, quer ao medo do preconceito e respectivas consequências sociais e
profissionais, o que faz com que este tipo de grupos olhe com desconfiança qualquer estranho que comece a
fazer perguntas.
Podemos agrupar as principais fases de uma pesquisa, de forma um tanto arbitrária, nos seguintes 11 tópicos.
Objectivos da pesquisa: devem estar claramente definidos para que todas as decisões estejam de acordo com
os mesmos
População: a população a ser submetida a amostragem deve coincidir com a população sobre quem
desejamos informação (população alvo).
Dados a serem recolhidos: convém verificar se todos os dados que se pretendem são relevantes para a
finalidade da pesquisa e que nenhum dado essencial seja omisso. Há uma tendência frequente,
sobretudo com populações humanas, de formular um número demasiadamente grande de questões,
algumas das quais não chegam sequer a ser analisadas subsequentemente. Um questionário muito
extenso reduz a qualidade das respostas, tanto a questões importantes como a questões secundárias.
Grau de precisão desejado: os resultados de pesquisas por amostragem estão sempre sujeitos a certo grau de
incerteza, não só porque se estudou apenas uma parte da população, mas também em decorrência de
erros de mensuração. Esta incerteza pode ser reduzida aumentando-se o tamanho da amostra e
utilizando-se instrumentos mais precisos de mensuração. O estatístico pode prestar bom auxílio nesta
fase.
Método de mensuração: parte importante do trabalho preliminar é a construção de formulários onde se
registarão as perguntas e as respostas. No caso de questionários simples, as respostas podem às vezes
ser pré-codificadas - isto é, registadas de maneira que possam ser transferidas sem dificuldade para
uma base de dados. De facto, para construir bases de dados adequadas, é necessário pré-visualizar a
estrutura das tabelas finais que serão usadas para tirar as conclusões pretendidas.
Sistemas de referência: a construção de uma lista de unidades de amostragem, chamada Sistema de
Referência, é, em geral, um dos principais problemas práticos. Com efeito, antes de seleccionar a
amostra, a população deve ser dividida em partes, chamadas unidades de amostragem, sendo que estas
devem abranger toda a população, sem qualquer sobreposição. Isto é: cada elemento da população
deve pertencer a uma, e somente uma, unidade.
Escolha da amostra: há uma variedade de planos para a escolha da amostra. Para cada plano considerado,
podem-se fazer estimativas do tamanho da amostra com base no conhecimento do grau de precisão
desejado. Devem-se comparar os custos relativos e o tempo envolvidos em cada plano antes de se
tomar uma decisão.
O pré-teste: deve-se testar sempre o questionário enquanto o método de recolha de dados, numa amostra
semelhante à que vamos utilizar mas em tamanho reduzido. Isto quase sempre resulta em melhoria do
instrumento e pode revelar outros problemas que seriam sérios de ultrapassar de outra forma.
Organização do trabalho de campo: todas as tarefas devem estra previamente definidas em cronograma e em
fases, antecipando desde logo os problemas, muitas vezes de carácter administrativo. É de grande
10
amostras
2009
valia um processo para verificação preliminar da qualidade dos resultados, que devem, desde logo
prever, a ausência de resposta, isto é, a falha do entrevistador em obter informações de determinadas
unidades da amostra.
Resumo e análise dos dados: o primeiro passo é a depuração dos dados (ver se existe omissão de respostas,
eliminar dados erróneos, má inserção de respostas, inconsistências, etc.). Só após a depuração se
precedem aos cálculos que conduzem às estimativas.
Informação e aprendizagem para futuras pesquisas: quanto mais informações tivermos inicialmente sobre
uma população, mais fácil se torna planear uma amostra que dê estimativas precisas. Qualquer
amostragem completada é, em potência, um guia para futuras amostragens, melhoradas nos vários
dados que ela fornece (médias, desvios padrão, natureza da variabilidade das mensurações principais,
o custo da obtenção dos dados, etc.). A prática da amostragem avança mais rapidamente quando se
reúnem e registam informações deste tipo. Relativamente à aprendizagem, é um facto que um
pesquisador arguto aprende a reconhecer erros de execução e fazer com que eles não ocorram em
pesquisas futuras.
Erro de Amostragem: é a diferença que existe entre os resultados obtidos numa amostra e os que teriam sido
obtidos na população-alvo. Para reduzir ao mínimo o erro amostral deve-se recorrer a duas
estratégias:
1. Retirar de forma aleatória e um número suficiente de sujeitos que farão parte da amostra.
2. Procurar reproduzir o mais fielmente possível a população pela tomada em conta das características
conhecidas desta.
2.1.1 Cálculo do tamanho mínimo da amostra
Apesar da existência de várias fórmulas, a amostra varia muito de pesquisa para pesquisa. Porém, deve se levar
em conta o tamanho da população. Todavia, algumas observações podem ser levadas em considerações, a
saber:
Tamanho da diferença considerada importante
Quanto menor a diferença maior a amostra
Quanto maior o número de elementos numa amostra, menor os desvios dos parâmetros em relação ao
valor esperado da população. Quanto maior a homogeneidade da população, menor a amostra a ser
pesquisada.
Poder desejado para o teste
Probabilidade de que a amostra identifique uma diferença real
Tempo, verbas e pessoal disponíveis, dificuldade na obtenção dos dados e complexidade do
experimento
Os pesquisadores de todo o mundo, na realização de pesquisas científicas, em qualquer sector da actividade
humana, utilizam as técnicas de amostragem no planeamento de seus trabalhos, não só pela impraticabilidade
de poderem observar, numericamente, na sua totalidade determinada população em estudo, como devido ao
aspecto económico dessas investigações, conduzidos com um menor custo operacional, dentro de um menor
tempo, além de possibilitar maior precisão nos respectivos resultados, ao contrário, do que ocorre com os
trabalhos realizados pelo processo censitário (COCHRAN, 1965; CRUZ, 1978).
A técnica da amostragem, a despeito de sua larga utilização, ainda necessita de alguma didática mais adequada
aos pesquisadores principiantes. Na teoria da amostragem, são consideradas duas dimensões:
1ª) Dimensionamento da Amostra;
2ª) Composição da Amostra.
11
amostras
2009
2.1.1.1 Procedimentos para determinar o tamanho da amostra
São vários os procedimentos para determinar o tamnho de uma amostra, contudo deve ter-se em atenção a
seguinte sequencia:
Analisar o questionário, ou roteiro da entrevista e escolher uma variável que julgue mais importante
para o estudo. Se possível mais do que uma;
Verificar o nível de mensuração da variável: nominal, ordinal ou intervalar;
Considerar o tamanho da população: infinita ou finita
O tamanho da amostra determina-se em função do nível de mensuração da variável escolhida.
São várias as formulas que permitem calcular o tamanho de uma amostra. A escolha depende do fenómeno em
estudo ou dos paramentros disponíveis:
Para os cálculos que se seguem escolhemos apenas alguns tipos de formulas com base na simplicidade da sua
notação.
12
amostras
2009
2.1.1.1.1 - Variável intervalar e população infinita
Sempre que a variável mais importante do seu estudo for de nível intervalar (variável quantitativa) use a
fórmula:
Fórmula para populações infinitas e variável intervalar
onde: Z = abscissa da curva normal padrão, fixado um nível de confiança (1-)
Z = 1,65 (1 - ) = 90%
Z = 1,96 (1 - ) = 95%
Z = 2,0 (1 - ) = 95.5%
Z = 2,57 (1 - ) = 99%
= desvio padrão da população, expresso na unidade variável, onde poderá ser determinado por:
especificações técnicas
com base em valores de estudos semelhantes
conjecturas sobre possíveis valores
d = erro amostral, expresso na unidade da variável. O erro amostral é a máxima
diferença que o investigador admite suportar entre e x , isto é: x d .
2.1.1.1.2 - Variável intervalar e população finita
Quando a variável é de nível intervalar e a população é considerada finita, determina-se o tamanho da amostra
pela fórmula:
Fórmula para populações finitas e variável intervalar
onde:
Z = abscissa da normal padrão
2 = variância populacional
N = tamanho da população
d = erro amostral
2.1.1.1.3 - Variável qualitativa (nominal ou ordinal) e população infinita
No caso da variável de referencia ser nominal ou ordinal, e a população for considerada infinita, a fórmula
pode ser:
Fórmula para populações infinitas e variável qualitativa
onde: Z = abscissa da normal padrão
𝑝= estimativa da verdadeira proporção de um dos níveis da variável escolhida.
13
amostras
2009
Por exemplo, se a variável escolhida for uma patologia tratada num serviço de um hospital, 𝑝 poderá ser a
estimativa da verdadeira proporção dessa mesma patologia tratadas em todos os hospitais, nesse mesmo
serviço (ficando excluídos os hospitais que não têm esse serviço).
𝑝 será expresso em decimais (𝑝 = 30% 𝑝 = 0.30).
𝑞 1𝑝
d = erro amostral, expresso em decimais. O erro amostral neste caso será a
máxima diferença que o investigador admite suportar entre e 𝑝, isto é:
𝜋 − 𝑝 < 𝑑, em que é a verdadeira proporção (frequência relativa do evento a ser calculado a partir da
amostra.
2.1.1.1.4 - Variável qualitativa (nominal ou ordinal) e população finita
Se a variável for nominal ou ordinal, mas a população for considerada finita, determina-se o tamanho da
amostra pela fórmula:
Fórmula para populações finitas e variável qualitativa
onde:
Z = abscissa da normal padrão
N = tamanho da população
𝑝= estimativa da proporção.
𝑞 1𝑝
d = erro amostral
Estas fórmulas são básicas para qualquer tipo de composição da amostra; todavia, existem fórmulas específicas
segundo o critério de composição da amostra.
- Se o investigador escolher mais de uma variável, poderá acontecer de ter que aplicar mais de uma fórmula,
assim deverá optar pelo maior valor de "n".
Obs.: Quando não tivermos condições de prever o possível valor para 𝑝, admita 𝑝 = 0,50 pois, dessa forma,
você terá o maior tamanho da amostra, admitindo-se constantes os demais elementos.
3. tipos e Métodos de Amostragem
3.1 Amostragens Probabilísticas e Não-Probabilísticas
A amostragem é probabilística quando cada elemento na população tem a mesma probabilidade conhecida e
diferente de zero de pertencer à amostra. É usada alguma forma de sorteio. Permite generalizações para a
totalidade da população.
14
amostras
2009
O tipo de amostragem não probabilística, pode prejudicar a possibilidade de generalizações (validade externa)
de um estudo, fazendo com que não seja representativo em relação à população. Os seus resultados são válidos
para aquele estudo determinado, não permitindo generalizações para outras situações semelhantes.
Exemplos:
por voluntários: os elementos amostrais são voluntários para a pesquisa. Bastante empregada em
experimentos com medicamentos e técnicas médicas.
intencional: o pesquisador escolhe os elementos amostrais. Entrevistar os ex-secretários de saúde para
pesquisa de políticas de saúde.
por acesso mais fácil: os elementos são escolhidos por estarem mais próximos ou em melhores
condições de acesso. Ex: Aplicar questionário na população da zona rural mais próxima do centro.
3.1.1 As Amostragens Probabilísticas
Como já referimos os métodos de amostragem probabilística servem para assegurar uma certa precisão na
estimação dos parâmetros da população, reduzindo o erro amostral.
O objectivo desta abordagem é obter a melhor representatividade possível.
Figura 3:população e amostra
3.1.1.1 Técnicas de Amostragens Probabilísticas
As técnicas de amostragem probababilisticas mais comuns entre nós são:
A Amostragem Aleatória Simples;
A Amostragem Sistemática.
A Amostragem Aleatória Estratificada;
A Amostragem em Cachos;
3.1.1.1.1 - Amostragem Aleatória Simples
A Amostragem aleatória simples é uma técnica segundo a qual cada um dos elementos (sujeitos) que compõe a
população alvo tem igual probabilidade de ser escolhido para fazer parte de uma amostra. É um procedimento
que pode se tornar trabalhoso quando a população é muito grande. É aplicado quando a população é
15
amostras
2009
considerada homogénea. Para manter essa propriedade deve-se numerar todos os elementos da população e,
através de um sorteio ou do auxílio de uma tabela de números aleatórios, obter os elementos que comporão a
amostra desejada. Por exemplo:
Obter uma amostra representativa, de 10%, de uma população de 200 alunos de uma escola.
1º) Numerar os alunos de 1 a 200;
2º) Escrever os números de 1 a 200 em pedaços de papel e colocá-los em uma urna;
3º) Retirar 20 pedaços de papel, um a um, da urna, formando a amostra da população.
Nesta técnica de amostragem, todos os elementos da população têm a mesma probabilidade de serem
selecionados: 1/N, onde N é o número de elementos da população.
Um outro exemplo é recorrer a uma lista com números aleatórios (LNA).
Tabela 1 exemplo 1 de números aleatórios
Os números aleatórios podem ser seleccionados de qualquer lugar da tabela, o importante é seleccionar e
manter uma sequência lógica (ex: coluna de cima para baixo, linha esquerda para a direita, etc). Existem
várias tabelas de números aleatórios com sequência de três, quatro ou cinco números. Essas tabelas também
podem ser obtidas em programas como Excel.
Apesar de se pretender representatividade quando recorremos a uma técnica de amostragem aleatória, pode
ocorrer que a amostra não seja representativa da população.
Por exemplo, uma população formada por 50% de mulheres e 50% de homens, a amostragem probabilística
simples pode resultar numa amostra de 65% de mulheres e 35% de homens. Nesse caso a amostra continua a
ser aleatória, mas não é representativa.
Uma amostra aleatória simples poder ser constituida segundo duas técnicas:
amostra com reposição
amostra sem reposição
16
amostras
2009
Na amostragem com reposição, a unidade selecionada retorna para a população. Portanto, em cada nova
selecção, a população mantém a mesma quantidade de unidades elementares.
Na amostragem realizada sem reposição, a unidade seleccionada não retorna para a população. Portanto, em
cada seleção a população é reduzida de uma unidade elementar.
É importante observar que, em geral, as amostragens são realizadas sem reposição e os cálculos estatísticos
nos dois tipos de amostragens são os mesmos.
Por exemplo, numa pesquisa de intenção de voto para escolha do presidente da republica, espera se que cada
pessoa seja entrevistada apenas uma vez. Se o tamanho da população for suficientemente maior que o tamanho
da amostra, (pelo menos vinte vezes), os resultados estatísticos das amostras com e sem reposição não serão
muito diferentes, pois a probabilidade de escolher o mesmo elemento é muito pequena. Contudo, deve-se ter
cuidado redobrado quando a população é pequena quando comparadas com o tamanho da amostra a ser
extraída.
3.1.1.1.1 - E1:
Imagine que queria identificar uma amostra aleatória simples de 12 centros de saúde de um total de 372 de uma
determinada sub-região, para passar um inquérito ou consultar um conjunto de processos clinicos. Os nomes
dos centros estavam disponíveis na administração regional dessa mesma região. Como regra de aleatorização
usou a oitava coluna de números aleatórios de cinco dígitos da tabela 1, ignorou os dois primeiros dígitos
aleatórios em cada um dos grupos de números aleatórios de cinco dígito., começou com o número aleatório 108
(resultado de um sorteio) e continuou de cima para baixo na coluna de números aleatórios.
Qual foi o resultado da selecção1?
No caso da técnica de amostragem em referencia, sendo “N” o número total de elementos da população e “n”
o número total de elementos da amostra, a probabilidade de cada elemento pertencer à amostra será de n/N.
É a mais simples de ser obtida mas, como já referimos, contudo, a sua aplicação restringe-se à investigação de
características distribuídas homogeneamente na população.
3.1.1.1.2 - Amostragem Sistemática
Tal como a técnica de amostragem aleatória simples, só se pode utilizar quando existe uma lista ordenada de
elementos da população, seja por ordem alfabética, seja em arquivo, processo clinico ou numa lista telefónica.
Esta técnica consiste em retirar K elementos dessa lista sendo o primeiro elemento da amostra retirado ao
acaso. O que a faz diferir da técnica anterior é o tamanho do intervalo, que aqui corresponde à razão entre o
tamanho da população e da amostra.
É aplicada em populações finitas; os elementos são escolhidos por um sistema, utilizando a sua ordenação
natural (listagens, registos, alunos, etc.). Define-se a quantidade “k” que é a sigla que representa o intervalo de
amostragem (k=N/n); a seguir deve ser sorteado o início do sistema, a partir do qual serão definidos os
elementos amostrais para cada “k”.
1
Resolução: 108 290 201 292 322 009 244 249 226 125 147 113
17
amostras
2009
Face ao exposto podemos referir que uma amostra sistemática de tamanho n é constituída dos elementos de
ordem K, K + r, K + 2r, ...,
onde
K é um inteiro escolhido aleatoriamente entre 1 e n
r é o inteiro mais próximo da fração N/n.
já que esta técnica de amostragem em populações que possuem os elementos ordenados, em que não há a
necessidade de construir um sistema de referência, a selecção dos elementos que comporão a amostra pode ser
feita por um sistema criado pelo pesquisador.
K
Exemplo 1
N
n
Obter uma amostra de 80 casas de uma rua que contém 2000 casas. Nesta técnica de amostragem, podemos
realizar o seguinte procedimento:
1º) Como 2000 dividido por 80 é igual a 25, escolhemos, por um método aleatório (por exemplo sorteio)
qualquer, um número entre 1 e 25, que indica o primeiro elemento seleccionado para a amostra.
2º) Consideramos os demais elementos, periodicamente, de 25 em 25.
Se o número sorteado entre 1 e 25 for o número 8, a amostra será formada pelas casas: 8ª, 33ª, 58ª, 83ª, 108ª,
etc.
Apesar de esta técnica ser de fácil execução, há a possibilidade de haver ciclos de variação, que tornariam a
amostra não-representativa da população.
Por exemplo, se a população tem 100 elementos e vamos escolher uma amostra de tamanho 6, K é um inteiro
escolhido aleatoriamente entre 1 e 6 e r = 100/6 = 16,6 = 17.
Se K = 3, a amostra será composta pelos seguintes elementos: 3, 20, 37, 54, 71, 88.
Se o tamanho da população é desconhecido, não podemos determinar exatamente o valor de r. Escolheremos
intuitivamente um valor razoável para r.
Às vezes a amostragem sistemática é preferida à amostragem aleatória simples, porque é mais fácil de executar,
estando portanto sujeita a erros, e proporciona mais informações com menor custo.
Exemplo: técnica adequada para extrair uma amostra de 50 internautas de um cibercafé
Solução: A amostragem aleatória simples não pode ser empregada neste caso, pois o entrevistador não pode
determinar quais os utilizadores a serem incluídos na amostra, uma vez que não se conhece o tamanho
N da população, até que todos os internautas tenham ido ao respectivo cibercafé.
A amostragem sistemática é a mais apropriadas pois podemos defenir um intervalo (digamos 1 em cada 20
internautas que aparecam para utilizar a internet) até obter a amostra do tamanho desejado.
18
amostras
2009
3.1.1.1.2 – E1:
Em 1500 alunos de uma escola foram sorteados 150 para compor a amostra de um estudo. Estando esses
alunos ordenados em listagens, ficou definido o seguinte intervalo de sorteio:
1500 ÷ 150 = 10
Sorteou-se um número entre para dar início à composição da amostra cujo resultado foi 3
Quais foram as unidades amostrais2?
3.1.1.1.2 – E2:
Defina k para uma amostra de 100 indivíduos com a população de 10003
3.1.1.1.3 - Amostragem Aleatória Estratificada
A amostragem estratificada utiliza-se quando a população possui características que permitem a criação de
subconjuntos, já que nestes casos as amostras extraídas por amostragem simples são menos representativa.
Com efeito, a amostragem aleatória estratificada é mais uma variante da amostra aleatória simples, uma vez
que após divisão da população alvo em subgrupos homogéneos chamados «estratos», a seguir se tira de forma
aleatória uma amostra de cada estrato.
A Amostragem aleatória estratificada é utilizada, ao contrário das anteriores, quando a população inteira é
reconhecida por certas características precisas, tais como a idade, o sexo, a incidência de uma condição de
saúde, tudo isto para assegurar a melhor representatividade possível. Com efeito, quando os elementos da
população estão divididos em grupos não sobrepostos, é mais fácil e mais eficiente escolher,
independentemente, uma amostra aleatória simples dentro de cada um destes grupos, os quais são chamados
estratos.
Esta forma de amostragem é uma das mais utilizadas, já que a maioria das populações têm estratos bem
definidos: os homens e as mulheres; os alunos das escolas X, Y, Z; os operários pertencentes aos indices
salariais 190, 195, etc.
O mais comum é utilizar-se a amostragem estratificada proporcional, que consiste em seleccionar os elementos
da amostra entre os vários estratos, em número proporcional ao tamanho de cada um dos estratos.
Como a população se divide em subconjuntos, convém que o sorteio dos elementos leve em consideração tais
divisões, para que os elementos da amostra representem o número de elementos desses subconjuntos. Como
exemplo observe a figura abaixo:
2 3 + 13 + 23 + 33 + ... + 1493.
3 10
19
amostras
2009
FIGURA 4: AMOSTRA ESTRATIFICADA
Em outras palavras, sejam:
N - o número de elementos da população
L - o número de estratos
Ni - o número de elementos do estrato i
n - o tamanho da amostra a ser seleccionada.
Note-se que: N = N1 + N2 + ... + NL
Número de elementos a serem sorteados em cada estrato será: N1f, N2f, ..., Nkf
Exemplo 1:
Numa população de 200 estudantes, há 120 rapazes e 80 raparigas. Pretende-se extrair uma amostra
representativa, de 10%, dessa população.
Neste exemplo, há uma característica que permite identificar 2 subconjuntos, a característica Sexo.
Considerando essa divisão, vamos considerar a população e extrair a amostra da população.
SEXO
Masculino
Feminino
Total
POPULAÇÃO
120
80
200
AMOSTRA (10%)
12
8
20
Portanto, a amostra deve conter 12 alunos do sexo masculino e 8 do sexo feminino, totalizando 20 alunos, que
correspondem a 10% da população.
Para seleccionar os elementos da população para formar a amostra, podemos executar os seguintes passos:
1º) Numerar os estudantes de 1 a 200, sendo os alunos numerados de 1 a 120 e as alunas, de 121 a 200;
2º) Escrever os números de 1 a 120 em pedaços de papel e colocá-los em uma urna A;
20
amostras
2009
3º) Escrever os números de 121 a 200 em pedaços de papel e colocá-los em uma urna B;
4º) Retirar 12 pedaços de papel, um a um, da urna A, e 8 da urna B, formando a amostra da população.
O próximo exemplo, também, representa populações com características heterogéneas cujas conclusões podem
ficar comprometidas se estas não forem consideradas na composição da amostra. Assim a população é
subdividida em grupos homogéneos (estratos) e a amostra será sorteada intragrupos. O tamanho de cada
estrato será definido pela variância da característica a ser estudada ou seja proporcional (exemplo 1 e 2) ou
através da definição de uma percentagem dos estratos ou seja não proporcional (exemplo 3).
Exemplo 2:
População-Alvo
2000 estudantes em Ciências
Sociais
Classificação
População-Alvo
Estratificação
Proporcional
Estrato 1
2000 estudantes
Ciências
Estratoem
2
Sociais
Mestrado
Doutoramento
400 = 20%
600 = 30%
Classificação
Estrato 3
Licenciatura
1000 = 50%
FIGURA 5: AMOSTRA
ESTRATIFICADA PROPORCIONAL
Estratificação Proporcional
Escolha Aleatória
Estrato 1
Doutoramento
Exemplo
3:
400 = 20%
Estrato 2
Estrato 3
Mestrado
Licenciatura
600 = 30%
1000 = 50%
Estratificação Não-Proporcional
Amostra = 200
Escolha Aleatória de 10% em cada Estrato
Escolha Aleatória
40 Estudantes
60 Estudantes
100 Estudantes
Doutoramento
Mestrado
Licenciatura
Estratificação Não-Proporcional
Amostra = 200
Escolha Aleatória de 10% em cada Estrato
40 Estudantes
60 Estudantes
100 Estudantes
Doutoramento
Mestrado
Licenciatura
FIGURA 6: AMOSTRA ESTRATIFICADA NÃO PROPORCIONAL
Perguntas frequentes:
1.
2.
Como calcular o valor/ percentagem apropriada para escolher dentro dos estratos?
a. A resposta é simples. Utiliza-se uma formula adequada ao tamanho da população, mas sobre
esse assunto dissertaremos mais adiante.
Como seleccionar os sujeitos dentro dos estratos?
a. Como estamos perante uma amostra aleatória, embora estratificada, recorre-se ao sorteio ou
a uma LNA
21
amostras
2009
3.1.1.1.3 – E1:
De um conjunto de 30 utentes de um serviço portadores de uma determinada patologia, pretendia-se
seleccionar 8 deles para um seguimento especifico (n) em função do seu sub-grupo (estrato de gravidade da
patologia). Em termos de severidade, 6 utentes (N1) a forma moderada da patologia e 24 utentes (N2) tinha a
forma mais grave. Calcule-se uma amostra aleatória proporcional.
Sabendo que de cada estrato é constituído por N1 e N2 serão sorteadas n1 e n2 unidades, respectivamente.
01. Aristóteles
02. Cardoso
03. Ernesto
04. Guilherme
05. Joana
01. Anastácio
05. Carlos
09. Elisabete
13. David
17. Jorge
21. Luisa
02. Arnaldo
06. Cláudio
10. Francisco
14. Raul
18. Joaquina
22. Maria José
03. Bartolomeu
07. Gabriel
11. Fernando
15. Sergio
19. José da Silva
23. Ma Cristina
04. Joaquim
08. Marco
12. André
16. Nelo
20. Mauro
24. Bernardino
06. Andreia
Assim em primeiro calcula-se o tamanho da amostra (neste caso 8 utentes) e depois a fracção (f) da
amostragem, multiplicando f por N e por fim calculamos o numero de sujeitos que devem ser escolhidos dentro
de cada estrato multiplicando f pelo tamanho de cada estrato (N1f, N2f, ..., Nkf) que neste exemplo é 6 e 24
FÓRMULA PARA DETERMINAR A FRAÇÃO (f) PARA CADA ESTRATO
Assim o resultado seria
f= 8/30 = 0,27
Feitos os calculos recorremos a um sorteio ou a uma LNA.
No caso em explanação escolhemos uma tabela de números aleatórios e seleccionámos os 2 do estrato que
apresentam grau moderado e os 6 utentes do que apresentam grau severo da patologia em causa, seguindo a
regra :
Os primeiros 2 numeros não superiores a 6 (já que 6 é o numero máximo possível) e os primeiros 6 numeros
não superiores a 24 (já que este é o numero máximo neste estrato).
De acordo com a regra para a selecção escolhida (comecar no 6.º numero da 2.ª linha em ambos os casos e
quando chegar ao fim da tabela subir pelo lado esquerdo virando à direita) quais os utentes seleccionados?
59 58 48 36 47
92 85 05 38 65
47 49 10 41 05
10 75 59 75 99
17 28 97 99 75
53 26 21 50 21
37 93 85 52 86
86 22 75 34 37
69 85 25 03 78
50 26 18 25 10
Os resultados foram:
22
amostras
2009
01. Aristóteles
02. Cardoso
03. Ernesto
04. Guilherme
05. Joana
01. Anastácio
05. Carlos
09. Elisabete
13. David
17. Jorge
21. Luisa
02. Arnaldo
06. Cláudio
10. Francisco
14. Raul
18. Joaquina
22. Maria José
03. Bartolomeu
07. Gabriel
11. Fernando
15. Sergio
19. José da Silva
23. Ma Cristina
04. Joaquim
08. Marco
12. André
16. Nelo
20. Mauro
24. Bernardino
06. Andreia
Confira.
Veja a diferença entre quem era selecionado por este método ou se tivéssemos escolhido uma amostra aleatória
simples.
A tabela que se segue tem os utentes numerados de 1 a 30
01. Aristóteles
06. Cardoso
11. Ernesto
16. Guilherme
21. Joana
26. Andreia
31. Paula
02. Anastácio
07. Carlos
12. Elisabete
17. David
22. Jorge
27. Luisa
32. Paulo César
59 58 48 36 47
92 85 05 38 65
47 49 10 41 05
10 75 59 75 99
17 28 97 99 75
53 26 21 50 21
37 93 85 52 86
86 22 75 34 37
69 85 25 03 78
50 26 18 25 10
01. Aristóteles
06. Cardoso
11. Ernesto
16. Guilherme
21. Joana
26. Andreia
02. Anastácio
07. Carlos
12. Elisabete
17. David
22. Jorge
27. Luisa
03. Arnaldo
08. Cláudio
13. Francisco
18. Raul
23. Joaquina
28. Maria José
03. Arnaldo
08. Cláudio
13. Francisco
18. Raul
23. Joaquina
28. Maria José
04. Bartolomeu
09. Gabriel
14. Fernando
19. Sergio
24. José da Silva
29. Ma Cristina
04. Bartolomeu
09. Gabriel
14. Fernando
19. Sergio
24. José da Silva
29. Ma Cristina
05. Joaquim
10. Marco
15. André
20. Nelo
25. Mauro
30. Bernardino
05. Joaquim
10. Marco
15. André
20. Nelo
25. Mauro
30. Bernardino
(confira os seus resultados com as soluções que apresentámos).
As diferenças são evidentes, apenas 1 com patologia moderada era seleccionado e dos restantes apenas a Mª
José coincidia. As regras são importantes e a técnica de selecção faz toda a diferença.
Com efeito, entre as vantagens da amostragem estratificada destacam-se:
Os dados são geralmente mais homogéneos dentro de cada estrato do que na população como um todo;
O custo da recolha e análise dos dados é frequentemente menor do que na aleatória simples, devido a
conveniências administrativas;
Podem-se obter estimativas separadas dos parâmetros populacionais para cada estrato sem seleccionar outra
amostra e, portanto, sem custo adicional.
23
amostras
2009
3.1.1.1.4 - Amostragem em Cachos ou conglomerados
Consiste em retirar de forma aleatória os elementos por cachos em vez de unidades. É útil quando os elementos
da população estão naturalmente por cachos e por isso devem ser tratados como grupos ou quando não é
possível obter uma listagem de todos os elementos da população-alvo. Como exemplo de amostragem por
cachos podemos referir a escolha de um grupo de escolas C+S para avaliar o conhecimento que os alunos do 5º
e 6º anos têm acerca da recolha e separação de resíduos. Como seria muito difícil obter uma lista de todos os
alunos que frequentam aqueles anos e escolher aleatoriamente quais constituíram a amostra recorre-se a
cachos (escolas) e dentro destas far-se-á a selecção. É importante reter que em qualquer tipo de agrupamento
(cachos ou estratos), a amostra só é considerada probabilística se os grupos foram escolhidos ao acaso antes
da repartição aleatória dos sujeitos nos grupos.
Uma amostra por cachos ou conglomerado é uma amostra aleatória simples na qual cada unidade de
amostragem é um grupo, um cacho ou um conglomerado de elementos.
O primeiro passo para se usar este processo é especificar os cachos apropriados, já que todos os elementos
devem ter características similares. Como regra geral, o número de elementos em cada cacho deve ser pequeno
em relação ao tamanho da população, mas o número de cachos deve ser, razoavelmente, grande.
Tanto no caso da amostragem estratificada como no da amostragem por cachos, a população deve estar
dividida em grupos. Na amostragem estratificada, entretanto, selecciona-se uma amostra aleatória simples
dentro de cada grupo (estrato), enquanto que na amostragem por cachos seleccionam-se amostras aleatórias
simples de grupos, e todos os itens dentro dos grupos (conglomerados) seleccionados farão parte da amostra.
A amostragem por cachos é recomendada quando:
Ou não se tem um sistema de referência listando todos os elementos da população, ou a obtenção dessa
listagem é dispendiosa;
O custo da obtenção de informações cresce com o aumento da distância entre os elementos.
3.1.1.1.4 – E1:
Suponha que se deseja estimar a despesa média mensal que uma familia tem com a saúde numa cidade grande,
como deve ser escolhida a amostra?
24
amostras
2009
Solução:
A amostragem aleatória simples é inviável, pois pressupõe uma listagem de todas as famílias da cidade, o que é
praticamente impossível de se obter.
A alternativa da amostragem estratificada é também inviável, já que aqui também é necessária uma listagem
dos elementos por estrato.
A melhor escolha é amostragem por cachos. O sistema de referência pode ser constituído por todas as
freguesias da cidade. Cada freguesia é um cacho. Extrai-se uma amostra aleatória simples das freguesias e
nelas pesquisa-se a despesa familiar em todas as casas.
3.1.2 As Amostragens Não Probabilísticas:
É um procedimento de selecção segundo o qual cada elemento da população não tem a mesma probabilidade de
ser escolhido para formar a amostra. Este tipo de amostragem tem o risco de ser menos representativa que a
probabilística no entanto é muitas vezes o único meio de construir amostras em certas disciplinas profissionais
nomeadamente na área da saúde. Este tipo de amostragens requerem critérios de inclusão e exclusão rígidos
para evitar o maior numero possível de viezes. O tamanho da amostra neste tipo de amostragens é muito
importante pois quanto maior for menor é a probabilidade de que casos idiosincráticos possam afectar o todo
de uma forma significativa. Daí que as amostras provindas deste tipo de amostragens devam ter sempre um n
suferior aquele que seria representativo do todo se utilizasse uma amostragem do tipo probabilistica
3.1.2.1. Técnicas de Amostragens Não-Probabilísticas:
A Amostragem Acidental ou de Conveniência (por substituição da aleatória simples);
A Amostragem por Cotas (por substituição da amostragem estratificada ou por cachos);
A Amostragem de Selecção Racional ou Tipicidade (por substituição da estratificada);
A Amostragem por Redes ou Bola de Neve (por substituição da sistemática).
3.1.2.1.1 - Amostragem Acidental ou de Conveniência
É formada por sujeitos facilmente acessíveis, que estão presentes num determinado local e momento preciso.
Neste tipo de amostra tem a vantagem de ser simples de organizar e pouco onerosa, todavia este tipo de
amostra provoca enviesamentos, pois nada indica que as primeiras 30 a 40 pessoas sejam representativas da
população-alvo. São utilizadas em estudos que não têm como finalidade a generalização dos resultados. Esse
tipo de amostragem, embora não aleatória, é bastante utilizada na área da saúde, geralmente são amostras
obtidas em consultórios, hospitais, etc. Neste caso, é importante o senso crítico do pesquisador para evitar
vieses, por exemplo, não seleccionar sempre pessoas de mesmo sexo, de mesma faixa etária, etc. utilizando
critérios específicos de inclusão/ exclusão. Uma técnica possível de aproximar este tipo de amostragens o mais
possível às probabilísticas é ir verificando, à medida que os dados vão sendo colhidos, se os seus subgrupos
estão, proporcionalmente à população alvo, representados na amostra.
25
amostras
2009
3.1.2.1.2 - Amostragem por Cotas
Idêntica à amostragem aleatória estratificada, já que é constituída por um número pré-determinado de pessoas
em cada uma das várias categorias da população.
A amostragem por cotas difere da estratificada apenas pelo facto dos sujeitos não serem escolhidos
aleatoriamente no interior de cada cota ou de cada grupo.
3.1.2.1.3 - Amostragem por Selecção Racional, Julgamento ou por Tipicidade
Tem por base o julgamento do investigador ou especialista para constituir uma amostra de sujeitos em função
do seu carácter típico ou atípico cujos membros tenham boas perspectivas de fornecerem as informações
necessárias ao estudo. Por exemplo: o estudo de casos extremos ou desviantes como uma patologia rara ou uma
instituição.
3.1.2.1.5 - Amostragem por Redes ou Bola de Neve
Consiste em escolher sujeitos que seriam difíceis de encontrar de outra forma. Toma-se por base, redes sociais
amizades e conhecimentos. Por exemplo: quando o investigador encontra sujeitos que satisfazem os critérios
escolhidos pede-lhes que indiquem outras pessoas de características similares.
3.2 Propriedades da distribuição normal
A distribuição Normal é a mais familiar das distribuições de probabilidade e também uma das mais importantes
em estatística. Esta distribuição tem uma forma de sino.
1ª - A variável aleatória X pode assumir todo e qualquer valor real.
2ª - A representação gráfica da distribuição normal é uma curva em forma de sino, simétrica em torno da
média, que recebe o nome de curva normal ou de Gauss.
3ª - A área total limitada pela curva e pelo eixo das abscissas é igual a 1, já que essa área corresponde à
probabilidade de a variável aleatória X assumir qualquer valor real.
4ª - A curva normal é assintótica em relação ao eixo das abscissas, isto é, aproxima-se indefinidamente do eixo
das abscissas sem, contudo, alcançá-lo.
26
amostras
2009
5ª - Como a curva é simétrica em torno da média, a probabilidade de ocorrer valor maior que a média é igual à
probabilidade de ocorrer valor menor do que a média, isto é, ambas as probabilidades são iguais a 0,5 ou 50%.
Cada metade da curva representa 50% de probabilidade.
Mas a curva é afectada pelos valores numéricos de µ e σ. Ver diagrama ao lado.
A notação para a distribuição gaussiana é: Х ~N (µ, σ)
A área sob a curva
normal (na verdade
abaixo de qualquer
função de densidade de
probabilidade)
é
1.
Então, para quaisquer
dois valores específicos
podemos determinar a
proporção de área sob a
curva entre esses dois
valores.
Para a distribuição Normal, a proporção de valores caindo dentro de um, dois, ou três desvios padrão da média
são:
TABELA 2: DISTRIBUIÇÃO NORMAL E RESPECTIVOS DESVIOS
Amplitude
µ ± 1σ
µ ± 2σ
µ ± 3σ
Proporção
68.3%
95.5%
99.7%
Ou seja, a média mais ou menos um desvio, tem área de 0,683 sob a curva, ou, uma probabilidade de 68,3%. A
média mais ou menos dois desvios tem probabilidade de 95,4% e a média mais três desvios e menos três
desvios, tem 99,7% de probabilidade
Quando a distribuição possui média zero e desvio-padrão igual a um, ela é chamada de distribuição gaussiana
padrão. Uma variável que tem a curva de Gauss padrão como distribuição é denotada pela letra Z e é
representada por Z ~ N(0,1).
O cálculo de probabilidade é a área sob a curva, e as tabelas trazem o valor da probabilidade calculada de
forma numérica. As tabelas com a distribuição gaussiana são padronizadas, então, se a variável não tem média
zero e desvio-padrão igual a 1, é necessário padronizá-la:
Fórmula para padronizar tabelas com distribuição gaussiana
27
amostras
2009
Para a distribuição normal, graficamente, têm-se
A distribuição normal calculada no intervalo P(a < Z < b) é a área dada :
então pode-se escrever P(a < Z < b) = P(Z < b) - P(Z<a).
Exemplo: Seja X a variável aleatória que representa a amplitude da onda R em V1 o padrão
electrocardiográfico normal em crianças. Vamos supor que essa variável tenha distribuição normal com média
= 0,15 e desvio padrão = 0,04. Qual a probabilidade de uma criança ter uma amplitude entre 0,15 e 0,2?
P ( 0,15 < X < 0,2) = ?
28
amostras
2009
Com o auxílio de uma distribuiçào normal reduzida, isto é, uma distribuição normal de média = 0 e desvio
padrão = 1. Resolveremos o problema através da variável z , onde z = (X - µ) / S. Utilizaremos também uma
tabela normal reduzida, que nos dá a probabilidade de z tomar qualquer valor entre a média 0 e um dado valor
z, isto é: P ( 0 < Z < z). Temos, então, que se X é uma variável aleatória com distribuição normal de média e
desvio padrão S, podemos escrever: P( < X < x ) = P (0 < Z < z)
No nosso problema queremos calcular P(0,15< X < 0,154). para obter essa probabilidade, precisamos, em
primeiro lugar, calcular o valor de z que correponde a x = 0,2
z = (0,2 – 0,15) / 0,04 = 1,25
Utilização da tabela Z reduzida
TABELA 3: CURVA NORMAL - TABELA Z (REDUZIDA)
Procuremos, agora, na tabela Z o valor de z = 1,25
Na primeira coluna encontramos o valor até uma casa decimal = 1,2. Em seguida, encontramos, na primeira
linha, o valor 0,05, que corresponde ao último algarismo do número 1,25. Na intersecção da linha e coluna
correspondentes encontramos o valor 0,3944, o que nos permite escrever: P (0 < Z < 1,25 ) = 0,3944 ou 39,44
%, assim a probabilidade de uma certa criança apresentar uma amplitude da onda R em V1 entre 0,15 e 0,2 é
de 39,44 %.
Exercícios resolvidos do uso de z lendo uma tabela normal reduzida
29
amostras
2009
Qual é a área sob a curva normal contida entre z = 0 e z = 2 (ou z = -2)?
Procura-se o valor 2,0 nas linhas da tabela de z e o valor 0,00 na coluna. O valor da intersecção é de 0,4772,
ou seja, 47,72%. Entretanto, lembrando que a curva normal é simétrica, sabe-se que a área sob a curva contida
entre z = 0 e z = -2 também é 47,72%, somam-se ambas e a área referente a -2 < z < 2 vale 95,44%.
Qual é a área sob a curva normal contida entre z = 0 e z = 3 (ou z = -3) ?
Procura-se o valor 3,0 nas linhas da tabela de z e o valor 0,00 na coluna. O valor da intersecção é de 0,4987,
ou seja, 49,87%. Sabe-se que a área sob a curva contida entre z = 0 e z = -3 também é 49,87% já que a curva
normal é simétrica. Uma vez mais, somam-se ambas e a área referente a -3 < z < 3 vale 99,74%.
Numa população de indivíduos adultos de sexo masculino, cuja frequência cardiaca (FC) é em média 84,98 e
desvio padrão é 14,45, qual é o intervalo de frequências cardiacas em que 95% da população está
compreendido?
0,95/2=0,475
Procuremos na tabela o valor 0,475=1,96
95% = 84,98± 1,96 x 14,45 (sendo que 1,96 * 14,45 = 28,322)
A maior FC será: 84,98 + 28,322 = 113,302 e a menor FC será: 84,98 - 28,322 = 56,658
Assim sendo, 95% da população tem FC entre 57 e 113 batimentos por minuto (bpm).
Será pouco provável encontrar alguém com FC superior a 113 bpm (P = 2,5%) ou abaixo de 57 bpm (P =
2,5%).
Na mesma população, qual a probabilidade de um indivíduo apresentar FC entre 80 e 100 bpm?
Calcula-se dois valores de z:
zmin = (80 – 84,98) / 14,45 = -0,35
zmax = (100 – 84,98) / 14,45 = -1,0
Consultando a Tabela de z, verifica-se que a área entre z = 0 e z = -0,35 é de 13,68 e a área entre z = 0 e z = 1
é de 34,13%.
Portanto, a probabilidade de se encontrar alguém com estatura entre 1,60 e 1,82 m é de:
0,1368 + 0, 3413 = 0,4781 = 47,81%
Qual a probabilidade de se encontrar 1 indivíduo com FC menor que 58 bpm?
z = (58 – 84,98) / 14,45 = -1,9
Consultando a Tabela de z, verifica-se que a área entre z = 0 e z = -1,9 é 47,13 (0,4713). Portanto, a área além
de z determina a probabilidade = 50 - 47,13 = 2,87%
Sabendo-se que o índíce de massa corporal numa população de pacientes com diabetes mellitus obedece uma
distribuição normal e tem média = 27 kg/cm2 e desvio-padrão = 3 kg/cm2, qual a probabilidade de um indivíduo
sorteado nessa população apresentar um índíce de massa corporal entre 26 kg/cm2 e a µ?
30
amostras
2009
Como z = ( x - µ) /𝜎, z = ( 26 - 27 ) / 3, z = - 0,333
Consultando a Tabela de z, verifica-se que a área entre 26 e 27 é igual a 0,1293. Portanto, a probabilidade de
um indivíduo sorteado nessa população ter indice de massa corporal entre esses valores é 12,93%.
Quando uma amostra tem n > 30 uma curva binomial tende a assemelhar-se a uma curva normal. No caso de n
= 31 a distribuição (p + q) terá os seguintes valores:
Se p = 0,5 q = 0,5
Se p = 0,75 e q = 0,25
µ = 15,5 e s = 2,78
95% da distribuição está entre 10,05 e 20,95
(Confira este resultado).
µ = 7,75 e s = 2,41
95% da distribuição está entre 3,02 e 12,47
(Confira este resultado).
4. Determinação do Tamanho da Amostra
Os tamanhos das amostras são relativos, isto é, depende do tamanho da população. Para determinar as
amostras existem várias fórmulas, consoante o parâmetro em critério. As mais utilizadas na saúde são as que se
baseiam na percentagem (proporção) do fenómeno.
A amostra depende da extensão do universo; do Nível de Confiança; do Erro Máximo permitido; da
percentagem com que o fenómeno se verifica. Os universos de pesquisa podem ser finitos ou infinitos.
Convencionou-se que os finitos são aqueles cujo número de elementos não excede a 100.000 e os infinitos, por
sua vez, são aqueles que apresentam elementos em número superior a esse.
Este tópico apresenta alguma dificuldade técnica e só um conhecedor dos detalhes da situação, poderá calcular
o tamanho da amostra necessária numa pesquisa específica.
4.1 Cálculo do Tamanho da Amostra para Populações Infinitas
Relativamente aos cálculos a efectuar neste ponto, limitar-nos-emos a apresentar algumas fórmulas para
cálculo do tamanho da amostra em duas situações simples, admitindo que será usada a amostragem aleatória
simples.
4.1.1.Proporção
Se o problema de partida é do tipo dicotómico (presença ou ausência do acontecimento ou fenómeno em estudo)
e queremos, com nível de confiança, 1 − 𝛼 que a proporção estimada esteja, no máximo, a uma distância d da
proporção verdadeira (erro amostral, também denotado com a letra ε), ou seja, se queremos que
O valor de n é dado por
onde
P é uma estimativa preliminar de p; Q = 1 – P e d (ou ε) é o maior desvio aceitável ou erro amostral.
31
amostras
2009
As notações mais comuns para esta fórmula são
Fórmula para populações infinitas e variável dicotómica
n
ou
[ z / 2 ] 2 p ' q '
n
2
[ z / 2 ] 2 p ' q '
d2
Como obtemos o Z para a formula do cálculo amostral?
Os estudos estatísticos aprofundados deram origem a uma tabela – a que chamamos tabela de distribuição
normal padrão – e é a essa tabela que vamos buscar o valor de Z para o nível de confiança que pretendemos,
que é o método estatístico para expressar a nossa aproximação estimada ao valor da população. Esta tabela ao
contrário da tabela reduzida apresenta os valores padrão
TABELA 4:DISTRIBUIÇÃO NORMAL PADRÃO
Começamos por aplicar a
formula em função do nível
de confiança escolhido
1 − 𝛼 . Se escolhemos um
α de 5% para um o valor de
Z  / 2 a consulta na tabela
32
amostras
2009
resultará do cálculo de 1-0,025=0,975. Procuramos este valor na tabela e Z será igual à contigencia da
primeira parte inteira e primeira decimal de Z com a segunda decimal de Z.
Mas se escolhemos um α de 10% para um o valor de Z
0,05=0,95. Procuramos
este valor na tabela e Z
será
igual
à
contigencia
da
primeira parte inteira e
primeira decimal de Z
com a segunda decimal
de Z.
 /2
a consulta na tabela resultará do cálculo de 1-
z é tal que A(z)=0,95
Pela tabela z = 1,64 ou 1,65
Z
Exemplo: queremos realizar uma pesquisa de opinião pública para determinar a proporção de pessoas que
sofreram lesões respiratórias devido a contágio em meio hospitalar (visitas a familiares doentes, marcações de
consulta, etc.). Quantas pessoas deverão ser ouvidas para que sejam satisfeitas as seguintes condições: ε =
0,02, p = 10%, α = 5%
Solução:
n
[ z / 2 ]2 p' q'

2

[1,96]2 (0,1)(0,9)
0,022
 865
4.1.1– E1:
Suponha que quer conhecer o valor de Z
 /2
para um α de 1% ?
Qual o resultado4?
4.1.1– E2:
Para um fenómeno que tenha uma prevalência de 25%, quantas pessoas deverão constituir a amostra para que
sejam satisfeitas as seguintes condições: ε = 0,05, p = 25%, α = 5%5?
Resolva:
4
z / 2
n
5
=2,58
[ z / 2 ]2 p' q'

2

[1,96]2 (0,25)(0,75)
0,052
 238
33
amostras
2009
4.1.1– E3:
Desejamos estimar, com uma margem de erro de 3%, a percentagem de motoristas profissionais que referem
sonolencia durante a condução, considerando =0,05. em que a proporção estimada de 18% esteja, no
máximo, a uma distância [ε] da proporção verdadeira de 3%.
Quantos motoristas constituiriam a amostra?6 Calcule.
Supondo que não tinhamos nenhuma estimativa de p’a fórmula de cálculo deveria ser:
Fórmula para populações infinitas quando não temos nenhuma estimativa de p’
n
[ z / 2 ]2 0,25
2
2
Com efeito, observando a tabelas da distribuição normal padrão, f(x) já cobre 0,975 ( [ z / 2 ] =1,96), pelo que
basta acrestentar o 0,25 na formula para que se cubra toda a area da distribuição (1).
4.1.1– E4:
E se não tivessemos nenhuma estimativa, quantos motoristas constituiriam a amostra se mantivessemos o
mesmo ε?7
n
[ z / 2 ]2 p' q'
n
[ z / 2 ]2 0,25
6
7


2
2


[1,96]2 (0,18)(0,82)
0,032
[1,96]2 0,25
0,032
 630,0224  631
 1067,1111  1068
34
amostras
2009
4.1.2. Determinação da Margem de Erro da Amostra
A Margem de erro de uma amostra que, por sua vez, representa aproximadamente (e nunca exactamente) uma
população é lida assim:
se uma pesquisa tem uma margem de erro de 2% e a Doença Cardíaca teve 25% de prevalência na amostra
recolhida, podemos dizer que, naquele instante, na população, ela terá uma prevalência entre 23% e 27% (25%
menos 2% e 25% mais 2%).
Nível de confiança – As pesquisas são feitas com um parâmetro chamado nível de confiança, geralmente de
95%. Estes 95% querem dizer o seguinte: se realizarmos uma outra pesquisa, com uma amostra do mesmo
tamanho, nas mesmas datas e locais e com o mesmo instrumento de recolha de dados, há uma probabilidade de
95% de que os resultados sejam os mesmos (e uma probabilidade de 5%, é claro, de que tudo difira).
Quando já se efectivou uma pesquisa e se deseja conhecer a margem de erro utilizada (não esquecer que uma
amostra é sempre finita) aplica-se:
Fórmula paraconhecer a margem de erro padrão
p =
(p.q)
n
Onde:
n = Tamanho da amostra
p = Erro padrão ou desvio da percentagem com que se verifica determinado fenómeno
p = percentagem do fenómeno
q = percentagem complementar
Exemplo: Numa pesquisa efectuada com 1000 adultos, verificou-se que 30% bebem café pelo menos uma vez
por dia. Qual a probabilidade de que tal resultado seja verdadeiro para todo o universo.
p =
(30.70)
1000
p = 1,45
Como o valor encontrado (margem de erro) corresponde a um desvio, então para dois desvios (95,5%), temos
1,45 *2=2,90.
Para 3 desvios é o triplo (4,35).
Isto significa que, por exemplo, para um nível de confiança de 95% (2 desvios) o resultado da pesquisa
apresentará como margem de erro 2,90 para mais ou menos.
É provável, portanto, que o n.º de consumidores de café esteja entre 27,10% (30%-2,90) e 32,90% (30%+2,90).
35
amostras
2009
4.2. Cálculo do Tamanho da Amostra para Populações finitas
4.2.1. Proporção
Uma das formulas comummente aplicada no cálculo das amostras finitas éconstituida por dois tipo de cálculos:
A Primeira parte da amostra dá-nos uma primeira aproximação do tamanho da amostra (n 0), isto é, um grupo
alvo para servir de apoio estatistico de cálculo, pois sabemos que existem menos de 100.000 elementos e
embora não saibamos quantos existem sabemos que são demasiadas para partir do numero exacto (por exemplo
aproximadamente 20.000 elementos).
1
n0 
E02
A segunda parte da amostra é calculada a partir da primeira aproximação, que corresponde ao grupo alvo.
n
N .n0
N  n0
Fórmula para populações finitas
n0 
1
E02
e
n
N .n0
N  n0
Onde:
N = tamanho da população
E0 = erro amostral tolerável
n0= primeira aproximação do tamanho da amostra
n = tamanho da amostra
Exemplo
N=200 famílias, E0=4%(0,04)
n0=1/(0,04)2  n0=625 famílias
n = 200x625/200+625  n = 152 famílias
36
amostras
2009
4.2.1 – E1:
Para N=20.000 famílias qual o tamanho da amostra8
4.2.1 – E2:
Numa pesquisa para uma eleição presidencial, qual deve ser o tamanho de uma amostra aleatória simples, se se
deseja garantir um erro amostral não superior a 2% 9?
Resolva
Numa escola com 1000 alunos, deseja-se estimar a percentagem dos que estão satisfeitos com a direcção. Qual
deve ser o tamanho da amostra aleatória simples que garanta um erro amostral não superior a 5% 10?
Resolva
4.2.2. Média
Quando utilizamos dados amostrais calcula-se um valor da estimativa do parâmetro populacional e com isso
tem-se uma estimativa por ponto do parâmetro analisado, contudo podemos não ter acesso a um ponto médio
mas um intervalo médio
8
n = 20.000x625/20.000+625  n = 623 famílias
9
n = n0 = 1/(0,02)2 = 1/0,0004 = 2500 eleitores
10
N = 1000 empregados
E0 = erro amostral tolerável = 5% (E0 = 0,05)
n0 = 1/(0,05)2 = 400 alunos
n = 1000x400/(1000+400) = 286 alunos
37
amostras
2009
Assim, o valor da média amostral ( x ) é uma estimativa por ponto da média populacional ( ). De maneira
análoga, o valor do desvio padrão amostral (s) constitui uma estimativa do parâmetro ( )
Por exemplo, uma amostra aleatória de 200 alunos de uma universidade de 20.000 estudantes revelou uma
média amostral de 5,2. Logo
x = 5,2 é uma estimativa pontual da verdadeira nota média dos 20.000 alunos.
Neste caso é necessário:
Controlar o erro relativo da estimativa da média de uma característica da população, com nível 1 - 
de confiança: ou seja, queremos:
Onde  = média amostral,
 = média populacional.
Neste caso o valor de n é dado por
onde
s=desvio padrão preliminar
r=erro relativo
 =média preliminar
Exercicio resolvido:Quantos doentes devem ser examinados num serviço de ressonância magnética para se
determinar ao nível  = 5% e com r = 10%, e duração média por atendimento,  =40 minutos e s = 10
minutos?
Solução:
Se
Então:
𝑧𝑠
𝑛=
𝑟𝑦
2
=
1,96 10
0,1 40
2
= 24 𝑑𝑜𝑒𝑛𝑡𝑒𝑠
38
amostras
2009
Já uma estimativa por intervalo para um parâmetro populacional é um intervalo determinado por dois números,
obtidos a partir de elementos amostrais, que se espera que contenham o valor do parâmetro com dado nível de
confiança ou probabilidade de (1 - )%. Geralmente (1 - )% = 90%, 95%, 99% são os mais usados.
Por exemplo, o intervalo (1,60 m; 1,64m) contém a altura média dos moradores do município X, com
nível de confiança de 95%..
Note-se a necessidade de estimativas preliminares dos parâmetros, o que constitui mais uma razão para se fazer
um estudo piloto.
1.
Controlar o erro absoluto da média, ou seja, se quisermos que
O valor de n é dado por
onde,
 = desvio padrão populacional,
d = distância da média estimada à média verdadeira.
4.2.2– E1:
Quantos doentes devem ser examinados num serviço de ressonância magnética para se determinar a um Z
 /2
de 95% com uma distância da média estimada à média verdadeira de 5% e desvio padrão populacional de 12
minutos 11?
Resolva:
11
𝑛=
𝑧𝜎 2
𝑑
=
1,96
5
12
2
= 23 𝑑𝑜𝑒𝑛𝑡𝑒𝑠
39

Documentos relacionados