A lógica da determinação do tamanho da amostra em investigações

Transcrição

Anreos
A lée¡m 0A oETERillilA0Ao D0 rAüAilHo
DA
At 0STBA
Et
il'¡vEsTtcAqóEs
tPtDEliloLóGlcAs
The
llgic of sample
s¡ze determ¡natiln in epidemiological research
Ronir Raggio Luizl, Monica M. F. Magnanini,
RESUMo
Uma das perguntas mais freqüentcs por partc dos pesquisadores da área da Saúde,
seja para um estudo em labo¡atório, clinico ou cpidcmiotógico, sc rcfe¡c ao númcro
de elementos que deve ser invcstigado a $m dc se tcr um cstudo "confiável" ou
"sigli6cativo", Ou scja, dcscja-sc sabcr qual o tamanho da amostra. Basicamcntc,
o ta¡nanho da a¡nostm dcpendc da prccisáo dcscjada, dc a¡üít¡io do pesquisador.
Entender a lógica por trás da sua detcrminagño é fundamental pam o plancjamcnto
c suportc ¿s conclusóes dc qualqucr invcstigagáo cpidcmiológica. Estc artigo procura
explorar as idéias e os ele$entos influcntcs na dctcrminagáo do tamanho da amostra.
PALAVR^s-c HAvI
Tamanho amostral, precisáo, cstatística, pcsquisa cpidemiológica
Aas'r'RAc'r'
Resea¡clrcrs arc very much co¡rccmcd about thc Dumbm of units tl¡at nccd to bc
investigated in ordcr to generate "rcliablc" or "significant" rcsults from laboratory,
clinical, and epidemiologic studics. Brielly, thcy would likc to know whar an adcquatc
sample size should be. In essencc, samplc sizc rclics on tl¡c dcsired statistical prccision,
as establishcd by investigator. Understanding of thc logic const¡uct wlúch stands
behind it is required for consistcnt rcsca¡ll¡ dcvclopment. This papcr prcsents thc
unde*ying principles involved in sample size detcrmination.
Key words
Sample size, precision, statistics, cpidcmiological research
tPr1Íessor de Bioestatisica d0 NESC/UFRJ
e da FM/UFRJ.
!
Estatísüca do NESC/UFRJ
CÁoG¡ros S¡úoc
Corrrrvr, Rro Dr J^[Et¡o,
I
(2]:9.28,2000
- I
I
lRoun
R¡eero Lurz, M0¡rca
L
M, F, M¡e¡¡¡
¡¡
IN |RorJUe^o
Uma das perguntas mais freqr-ientes por parte dos pesquisadores da
área de saúde, seja para um estudo em laboratório, clínico ou
epidemiológico, se refere ao número de elementos (cobaias, pacientes ou
indivíduos) que deve ser investigado a fim de se ter um estudo ou amostra
"confiável" ("representativo(a)" ou "significativo(a)"). Ou seja, deseja-se
saber qual o tamanho da amostra.
As aspas nos adjetivos citados sáo para reproduzir as palavras utilizadas pelos pesquisadores, cabendo logo um primeiro esclarecimento a fim
de se obter alguma uniformidade semantica. Pode-se considerar que um
estudo é "confiável" (na linguagem utilizada, mas que se refere ao conceito de "validade") se ele reproduz a verdade dos fatos. Entretanto, qualquer estudo pode falhar neste aspecto por dois tipos de erros: o erro
sistemático ou viés e o erro aleatório, este natural de qualquer processo
amostral. Admitindo-se que a amostra seja aleatória, premissa necessária
para qualquer estudo onde o cálculo do tamanho da amostra constitua
uma tarefa preliminar, espela-se que náo haja nenhnm erro sistemático.
Isto é, espera-se obter uma amostra "representativa" da populagáo da
qual se pretende fazer alguma inferéncia. Qualquer erro seria enteo atribuível ao erro aleatório. quanto ao termo "significativo(a)" utilizado pelos pesquisadores, pode-se atribuí-lo á expectativa deles em obter resultados (dados) que ge¡em testes e statisticamente "significativos" (p-valor pequeno).
Assim, diferente do conceito de validade, ao tamanho amostral associa-se o conceito de precisáo. E a imprecisáo é o prego a ser pago por
qualquer investigagáo onde uma amostra aleatória esteja presente. No
caso de uma amostra náo-aleatória, situagáo muito comum na investigagáo em saúde, o conceito de validade é fundamental, dado que qualquer
analise estatística feita com esses dados deve estar condicionada á hipótese de que a amostra estudada se "comporta" tal como se comportaria
tivesse ela sido selecionada aleatoriamente. E freqüente o caso onde o
pesquisador já tem a sua máo uma amostra neo-aleatória (os casos de
uma certa doenqa registrados em um hospital num certo período, por
exemplo) e quer saber se esse tamanho amostral é "suficiente" para responder certa pergunta. Nesses casos, é mais prudente uma discussáo con-
10
-
C¡o¡nros Sarto€ Corrry^, Rto 0r J¡[Et¡o,
I
(2): 9-28, 2000
A
LóGrca DA DE¡ERMlr¡C¡o Do
ra[Ailr0
oA aMosTn¡
rr
rilrrsTrcagóEs aprDrM¡0rócrc^s
I
sistente de validade do que de tamanho amostral, mesmo porque qual-
quer eventual avaliagáo de tamanho amostral "pequeno" seria de dificil
solugáo dada as freqüentes limitagóes operacionais de se coletar mais
casos. Poderia se recomendar entáo, uma vez discutida a questáo da
validade, a realizaEáo do estudo com aquele tamanho amostral disponível, inforrnando a precisáo encontlada, mesmo que esta náo tenha sido
aquela que se desejaria. Estudos estatisticamente "náo-significativos" também sáo importantes de serem relatados, seja como base para futuros
estudos ou sistematizaEóes, seja pela eventual significáncia clínica dos seus
resultados. Diferente do conceito de significáncia estatística, significáncia
clínica se refere a um resultado cuja magnitude seja de tal forma expressiva que merega ser considerado pelo pesquisador.
Ainda sobre uma amostra náo-aleatória, é comum a situaqáo onde o
pesquisador dispóe de toda uma populagáo embora possa acreditar estar
trabalhando com uma amostra, Todos os pacientes internados em certo
hospital, por exemplo, constituem uma populaEáo. Se o interesse é só
nesta populagáo, náo há razáo para se fazer nenhum tipo de inleréncia
(construgáo de interualos de confianga ou cálculo de p-valores), bastando
uma descrigáo dos dados. Por outro lado, pode-se imaginar estes pacientes como sendo uma amostra de outros pacientes (internados em outros
hospitais) e, aí entáo, seria legítimo fazer inferéncias estatísticas. Mais
uma vez a questáo da validade deve ser conside|ada com cuidado, já que
a populaEáo referenciada freqüentemente náo é claramente definida.
Como último comentário introdutór'io, para se calcular um tamanho
amostral é necessário se ter uma pe¡'gLlnta bastante específica. Quer'-se
uma amostra especificamente para qué? E comum, também, a situaqáo
onde o pesquisador tem um enorme questionário e quer sabet'quantos
indivíduos ele precisa investigar par'a traEar um "perfil" de uma certa
populagáo. Neste caso, é dificil uma resposta satisfatór'ia porque, na realidade, para cada pergunta daquele questionário havelia um tamanho
amostral associado. Uma saida seria verificar qual pergunta exigiria, para
uma precisáo desejada, um tamanho amostral maior', entáo adotálo. Isto
faria com que, para as outras perguntas teriamos uma amostla maior dr¡
que a necessária. Felizmente, na maioria dos estudos epidemiológicos, as
perguntas náo sáo táo abrangentes como "qual o perfil de uma popula-
CaDEBIos S^úDE
Corr¡rva, Rro 0€ Ja¡rrso, 8 (2):
9-28,2000- I I
lR0nn
Ra66r0
[ur¿, Mon¡c¡ M. F. M¡ol¡¡ru
gáo?", podendo freqüentemente ser respondidas pela estimaEáo de um
parametro populacional. "Com que freqüéncia surgem novos casos de
AIDS na cidade X por ano?", "há mais hipertensos na comunidade X
que na comunidade Y?", "exposigáo E está relacionada á doenga D?" e
"droga A é melhor que droga B no tratamento para a doenqa D?" sáo
exemplos de perguntas que podem entáo ser respondidas através de amostras que estimem grandezas associadas a elas.
2. El.llrlN |os
Do r'^\t^NHo
^NrostRAL
Voltando á questáo do tamanho da amostra, é intuitivo perceber ser ele
dependente do eno aleatório mencionado acima. Há uma relagáo inversa
IN¡I.UENTES NA Du l !:,RNrN^q^o
entre o erro e o tamanho da amostra. Amostras "grandes" estáo associadas
a erros "pequenos" e amostras "pequenas" a en'os "grandes". E, assim, a
mdo,
parecem náo haver amostras "grandes" nem amostras "pequenas". Há amostras que sáo compativeis com o erro que se "tolera"
cometer em um particular estudo. Isto náo melhora muito o problema de
gmsso
determinagáo do tamanho da amostra, mas pelo menos transfere para
quem deve ser o responsável pela solugáo: o pesquisador. Isto porque a
magnitude do erro tolerável deve ser atribuído por ele, de tal sorte que seu
estudo tenha reconhecimento pela comunidade cientifica.
Entretanto, náo é somente o erro tolerável de amostragem o único
elemento que pode afetar o tamanho da amostra. Por exemplo, diante de
um estudo de preval€ncia, é intuitivo imaginar que quanto mais rara for
a doenqa, maior deverá ser o tamanho da amostra. No caso de um estudo
comparativo, um estudo de coorte por exemplo, é também intuitivo considerar que, quanto maior for a diferenga realmente existente enre as
incidéncias nos gn¡pos exposto e náo-exposto, menor será a amostra total
necessária para detecáJa. Em havendo, de fato, uma diferenga entre
estas incidéncias, mas de "pequena" magnitude, somente
uma amostra
"grande" será capaz de detectá-la.
No caso de um estudo onde se quer estimar a média de uma variável
contínua (por exemplo, glicemia), é também intuitivo perceber que, quanto
maior for a variabilidade desta variável, maior será o tamanho da amosra
necessáúa para se estimar sua média, com uma precisáo desejada.
12
-
C¡o¡¡r¡os S¡úoE
Cor.lva,
Rro or
Jrrtrao, S {2):9-28,2000
A
LóGtcÁ
D¡ oErE¡xltÁCÁo Do TAx¡tilt0 o¡ ai¡ostB¡ E¡ livEsTtcacoEs
EptDÉr¡r0L0Gtcas I
Além destes elementos que, intuitivamente, perxebemos inlluir no tamanho da amostra, há ainda outros que exigem uma maio¡' rellexáo. O
processo de inferir a partir de uma amostra pode-se dar pol estimagáo de
um parámetro populacional ou pelo teste de uma hipótese, sendo o cálculo do tamanho da amostra dependente de um desses objetivos. Sob um
processo de estimagáo, é possível que seja selecionada uma amostra que
resulte numa estimativa cujo valor possa estar fora dos limites estabelecidos pelo erro tolerável mencionado acima, incorrendo, assim, em um
outro erro que se gostaria de poder minimizar. O tamanho da amostra
mais uma vez é um regulador deste erro, e vice-versa. Esta idéia é a
mesma daquela presente na construgAo de intervalos de confianga e será
usada na segáo seguinte para desenvolver um raciocinio geral pala o
cálculo do tamanho da amostra. Este último erro é conhecido como nível
de significáncia (ct), com valor complementar igual á confianga desejada
(l- a)(Soares & Siqueira, 19997.
Se o objetivo do estudo é testar uma hipótese colocada a prinri (bipótese nula = H,), entáo um outro erro pode acontecer. E possível que esta
hipótese náo seja verdadeira e o estudo, em fungáo do tamanho da amostra, nAo ser capaz de rejeitá-la. Entretanto, este eri'o náo é somente dependente do tamanho da amostra, dependendo também de alternativas
áquela hipótese. Para um tamanho de amostra e um erro g fixados,
valores alternativos müto distantes daquele estabelecido a prinri teráo un
erro associado menor, e valores alternativos próximos, um erro maior,
Este erro é conhecido como B e seu complementar, l-p, como o poder
(Soares & Siqueira, 1999). Assim, fixados um rl e uma hipótese alternativa, quanto maior a amostra, maiol será também o poder do estudo em
indicar a hipótese alternativa, quando de fato ela for verdadeira (Ler.y &
Lemeshow, 1999). A fixagáo de uma hipótese alternativa deve respeitar'
condigóes impostas pelo pesquisador, de modo a se conseguir um tamanho amostral que tenha um poder "razoável" para se detectar a diferenga
entre as hipóteses nula e alternativa. Esta diferenga deve tel alguma releváncia "clínica", ou seja, uma diferenga que, se de fato existe, o estudo
náo deve deixar de captáJa.
Um outro elemento eventualmente importante na deterninagáo do
tamanho da amostra é o tamanho da populagáo. Observa-se com relagáo
a este elemento, entretanto, uma curiosidade que su¡preende os pesquisaC¡DEnilos S^rioE
Corrrvr,
Rro oe
Jrrrrno, 8 (21: 9-28,2000-
l3
I
I
Bo¡¡¡ R¡ocro Lurz, lilonrcl M.
dores.
t. M¡al¡¡¡n
A intuigáo dita que quanto maior a populagáo maior deve ser a
amostra para representá-la, com uma precisáo desejada. Isto, entretanto,
é "parcialmente" verdadeiro. E verdadeiro porque, de fato, quanto maior
a populagáo maior deverá ser a amostra. Porém, mostra-se que
esta
lelagáo só é importante para populagóes "pequenas". Para populagóes
"¡pandes", o tamanho da amostra náo será substancialmente influenciado pelo tamanho da populaqáo, podendo esta ser considerada como infi-
nita. Em outras palawas, o que importa é o tamanho da amostra e náo a
fiaqáo amostral (relagáo amostra/populaqáo). Uma fragáo amostral de
l0o/o, por exemplo, pode gerar uma amostra gigantesca ou muito pequena, dependendo do tamanho da populagáo. Esta propriedade será ilustrada mais á frente.
3. ,Asplc
|os
IEóRtcos
)(:i\to cl:R^t.
Para entendimento da lógica que está por trás do cálculo do tamanho
3.1 Dr:sr:¡rvol.r t:¡lDo
u\t
R
\ctr
de uma amostra, seja o problema de se estimar uma prevaléncia. Quando se estuda inferéncia estatística, aplende-se quer para um deterninado
tamanho amostral (z), pode+e estimar a preva.léncia de uma doenga,
incorporando sua precisáo, a partir da construqáo de um intervalo de
confianga (Soares & Siqueira, 1999). Por outro lado, quando se aprende
amostragem discute-se o conceito de erro-padráo (-E4, q"e se refere a
uma medida de variabilidade de um estimador de um parámeuo
populacional e depende do tamanho da amostra (n) (Fleiss, l98l). Esses
conceitos seráo usados para se determinar o tamanho de uma amostra
para um estudo de prevaléncia.
O erro-padráo para uma proporgáo .EP6 é dado por:
EPF =
P(l-P)
n
(r)
onde P é a prevaléncia. Assim, os limites do lntervalo de confianga de
95o/o para a prevaléncia P, aproximando-se pela distribuigáo normal, sáo
dados entáo Dor:
14
C¡o¡¡¡os
SaúDE C0tE¡tv¡, Rro ¡E
J¡rrrño,
I
(2): 9.28, 2000
A LÓotcr Dt o€rtixrxaoÁo Do T¡Ía¡Ho
DA
a¡ostBA
r¡
r¡ycsrcAcé[8 EpTDH|loLéorc¡s
Ptl,96
I
(2)
onde P é a prevaléncia amostra.l (Fleiss, l98l) e 1,96 é o valor tabelado
da distribuigáo nornal padronizada (p= 6 e o = l) correspondente a um
intervalo de 9570.
Associado ao intervalo de confianga de 950/o, tem-se um d = 0,05. Entáo,
para um ct qualquer, tem-se urn intervalo de confianga de 100(l-a )%. E,
lembrando da distribuigáo normal padronizada, para cada o há um valor
zút2tzJ qLre o intervalo entre -zd2 e z* corresponde a uma probabiüdade de
100(l-C[)%. Assim, de forrna geral, os limites do intervalo de confianga de
100(l-o)% para a prevaléncia P podem ser ilusrados pela desigualdade:
u-,r,P=r=F*,",,p-
(3)
Isto é, a prevaléncia amostral (p) dista do parámetro de interesse, a
prevaléncia populacional P, por um erro € tal que
m-P)
"=rrrrl-T
(4)
A partir desta expressáo, fica fácil calcular um tamanho amostral para
se estimar uma prevaléncia e reconhecer seus elementos influentes. Elevando ao quadrado ambos os lados da equagáo acima, tem-se:
e' E, explicitando em z.
P(l-P)
"3p
zlregn=*.
e¡
(6)
Assim, no cálculo dci tamanho amostral para estimar uma prevaléncia
é necessário informar trés elementos:
l) o erro tolerável
de amostragem (e). Isto é, quanto de afastamento
entre a prevaléncia popuiacional (parámetro desconhecido) e a estimativa
a ser obtida na amostra o pesquisador tolela. Exempüficando, se o pesquisador estabelece um eno absoluto de 2o/o (e=0,02) para a estimagáo de
uma prevaléncia que ele acredita ser de 30V0, entáo ele estaria satisfeito
C^DEf, 0s SaúoE
Cor¡r¡vr, Bro !E J¡¡ú¡0,
I
{2):
9"28,2000- 15
I
Ro¡rn R¡ono Lu¡¿, Mo¡rc¡ M. F. M¡e¡¡r¡n¡
com qualquer valor entre 2go/o e 32o/o para a sua estimativa;
2) o erro ct (através do zr2).Isto é, a probabilidade de que a estimativa
a ser obtida pela amostra esteja além do limite tolerável de
l€
. Este erro
náo apresenta muita dificuldade para sua determinaqáo, sendo quase que
uma regra o valor de 5% (com correspondente zúz=1,96), inclusive para
qualquer outro tipo de investigagáo epidemiológica. Os valores de 0= l0o/o
Q"/2=1,64) e d,=lo/o (zrr=2,58) sáo também referéncias clássicas. É importante observar a diferenga entre os erros t e d, e entender porqué um
é mais facil de ser arbitrado que o outro.
3)
A dependéncia sobre este elemento costuma incomodar os pesquisadores já que esta é exatamente a informagáo que eles
a prevaléncia P.
desejam conhecer, sendo necessário, entáo, arbitrar um valor (ou utilizar
resultados de estudos similares, ou ainda, na hipótese de náo haver ne-
nhuma informagáo, [azer um estudo-piloto). Ao invés de se preocupar
muito com o P isoladamente, pode-se olhar a dependéncia em fungáo de
(l-.fl e observar que este produto toma seu valor máximo quando F0,5.
Portanto, se náo se quer arbitrar nenhum valor utiliza-se o valor máximo
(0,5x0,5=0,25), maximizando-se assim o tamanho da amostra. Por outro
lado, o que pode causar estranheza é o fato de para doenqas raras o
tamanho da amostra ser cada vez menor, já que (l-fl diminui em fungáo de P, diminuindo assim o tamanho da amostra para uma precisáo
desejada. A explicaqáo é que, pala cr e e fixados, uma diminuigáo em P
implica em um erro relativo maior. Um estudo com um t=50lo, por
exemplo, é bastante diferente quando se tem um F500/o de quando se
tem um FlOVo. No primeiro, o erro relativo é de l0% (0,05/0,5) enquanto que no segundo o erro relativo é de 50% (0,05/0,10). Imagine
entáo um estudo com um t=50/o em uma populagáo com prevaléncia
esperada de l%. De fato, com um erro táo grande quanto esse (em
relagáo á prevaléncia), uma amostra pequena é suficiente.
3.2 O l:nno nur.n rrvo
(e. )
O problema acima poderia ser contornado pelo pesquisador informando um eno absoluto, €, que fosse compatível com a prevaléncia
presumida (ou esperada). Entretanto, pode-se facilmente generalizar o
problema do cálculo do tamanho da amostra quando se quer controlar o
erro relativo ao invés do erro absoiuto.
16 -
C¡or¡¡os
SÁúDE
CoL€Ív¡, Rro or
Jllrrro,
I
(2): 9-28, 2000
A
Ló6rca oa DÉrE¡xmÁc¡o D0
r¡¡¡uro
0Á
ar¡0sr¡¡
rx
n¡vrslrcagors E¡rorxrorócrc¡s
I
A partir da expressáo (4), diüdindo-se ambos os lados da equaqao por
P de modo a relativizar o erro g. tem-se:
¿
'a.12
(7)
PP
E, fazendo-se e/.Fe", tem-se
FUn
"'= prl ,
zo/2
(B)
Assim, elevando ao quadrado e explicitando em z, obtém-se um tamanho amostral para prevaléncia a paltir do erro relativo:
zlog*
r¡
(e)
-"-'
Deve-se observar que as duas expressdes desenvolvidas, (6) e (9), sao
equivalentes. O pesquisador ao arbitrar um erro tolerável absoluto e uma
preval€ncia presumida, obtém imediatamente o erro relativo, e üce-vena.
Basta, portanto, a identificaqáo de apenas um deles.
Todo este desenvolümento até aqui para estudos de preval€ncia se
aplica diretamente a um estudo de incidéncia. Assim como a prevaléncia,
a incidéncia (acumulada) também é uma proporgáo. A diferenga obüamente está na interpretaqáo epidemiológica destas medidas de freqüéncia.
3.3 O r¡¡¡¡r.lHo D^ PoPUrAqAo (¡9
Pelas expressóes (6) e (9), viu+e que o tamanho amostral náo depen-
dia do tamanho da populagáo.
A
razáo é que estas expressóes foram
obtidas supondo uma populagáo infinita. Na realidade, quando a populagáo náo é táo grande, a expressáo para o erro-padráo da prevaléncia tem
uma corregáo, passando a depender também do tamanho da populagáo,
e é dado nor
EPF
-
N
-n P(l-
P)
(10)
onde o termo
N-n
N-l
(l l)
é conhecido como fator de corregáo para populagáo finita (Lely &
Lemeshow, 1999). Percebe-se pela Tabela I que quando N cresce muito
CaDtfxos SaúDE CoLr¡rvA, Rro o! J¡¡Er¡o, 8
(2):9-28,2000- 17
I
Ro¡rn R¡ee¡o Lurz, M0¡rc¡
il.
F. MaGraf¡r
l
fator converge para l. Outra forma de entender o efeito
desta corregáo é verificar que quando a populagáo é finita, as probabili-
(N+oo¡,
este
dades de selegáo de cada unidade náo sáo mais iguais (dadas
por l/AJ),
caracterizando um desenho amostral "sem reposigáo", diferente do desenho anterior que pode-se considelar "com reposigáo". O termo acima é a
razáo entre as imprecisóes desses dois desenhos, que como será discutido
na segáo seguinte, é conhecido como efeito de desenho
Tafrla l: Convcrgincia do fator (N-¡l/t'J-L)cm
(,r'q¿f).
fungáo do tarnanho proporcional para
trós t¡ma¡rhos amostrais
Considerando-se agora o tamanho da populagáo, o tamanho da amos-
tra pode ser obtido de forma análoga ao caso anterior, utilizando-se o
novo valor para
EP, . Assim,
e = zol2
N
-n P(r-
P)
(1
2)
Elevando ao quadrado ambos os lados da equagáo acima e, após
algumas manipulagóes algébricas, obtém-se o seguinte tamanho amostral
para uma prevaléncia (ou incidéncia acumulada):
n=
z:/,NP(l- P)
e2(N-l)+z3pP(1-P)
',
(13)
onde os elementos influentes e, P e z2 rrsáo aqueles já definidos anteriormente e N é o tamanho da populaqáo.
Pode-se agora observar o papel do tamanho da populaqáo sobre o
tamanho da amostra. Foi dito que o tamanho da populagáo tem um
18 -
C¡ornrios S¡úoE CorEry¡, ¡ro 0€
Jaifl¡o,
I
(2): 9-28, 2000
A !óctcl 0a ot¡Enütil¡!¡o oolAt¡¡uio o¡ aüosl¡a É[¡
l{vEsTtoaQóEs
tptDtttotoctc¡s
I
efeito importante no cálculo do tamanho da amostra apenas para popula9óes "pequenas". Para populagóes
"glandes", náo é necessário se preocupar com ele. Uma vez fixados os valores de e, P e z2r, o tamanho
amostral z pode ser escrito somente como fungáo de N. A Figura l, a
seguir, ilustra esta propriedade, fixando uma prevaléncia presumida F0,5
(ou 50%) e combinando dois valores pan a, (5o/o e l%) e e (0,05 e 0,07).
Percebe-se que o tamanho da amostla coüverge para um certo valor á
medida que o tamanho da populagáo aumenta. Quando o =5% e e=0,05,
este valor é igua.l a 384, obtido a partir da expressáo (6). Para todas as
curvas ilustradas, o tamanho amostral muda bastante quando se altera o
tamanho populacional de 500 para 1000 individuos. Entretanto, quando
se altera de 6500 para 7000, uma variaEáo populacional também de 500
individuos, o tamanho amostral náo se altera tanto.
Figura
l:
Tamanho amostral scgundo o tama¡l¡o populacional para sc cstimar uma
prevalóncia, prcsumida em 50o/,,
rAlñ=5%
o €lto=0,05
'A]f¿--5% e
€
- Alfa=l%e
-Alf¡=l%
eFo:0,07-
700
ó{n
500
400
'
3oo
200
100
0
orb¿a1dsq2qpqlqlsab@sqrsqf
sqrooqtfsqToq/tq,o-.8,-8tq
Embora este exemplo tenha sido construído para apenas dois valores
de t e c[ e para um valor fixado P, pala quaisquer outras combinagóes de
valores a forma da fungáo será a mesma. O que difere é a "velocidade"
com que ocone a convergéncia para um tamanho amostral, Isto e, para
algumas combinagóes de valores e , P e a, pode-se pcrceber. mais
"rapidamente" a convergéncia que pal'a outras.
De forma análoga ao caso de uma populagáo considerada infinita,
pode-se chegar facilmente a um tamanho de amostra, considerando também o tamanho populacional, onde se considere o erro relativo 9,, e neo
C¡0Ei¡o$ SaúDr Courrvl, f,ro
oE
J^rErB0,8 (2):
9-28,2000- 19
I
I
Ro¡r¡ 8a66r0 Lur¿, Monc¡ M. F, M¡e¡¡lrru
o erro absoluto e. Ou seja, após algum algebrismo,
n--
z:pN(r- P)
e:p(N -r)+ zh,(- p)
3.4 O r¡¡r'r'o Dn DEsENHo
(14)
(¿¿lF)
Outra característica que exerce influ€ncia no tamanho amostral é o
desenho amostral, isto é, de que forma as unidades amostrais sáo
selecionadas. Os principais desenhos amostrais sáo amostragem aleatíria
simples (,41S), com ou sem reposigáo, amostragem estraúfrc da (estrai e
amostragem por conglomerados (cluster) (Silva, 1998).
As expressóes colocadas até agora para o erro-padráo, tanto para popu-
lagáo infinita quanto finita, sáo obtidas para um processo de amostragem
aleatória simples, que do ponto de üsta teórico é
o mais
simples. Para
estimagáo de uma proporqáo popr-rlacional (ou de um parámetro 0 qualquer),
as expressóes para o
erro-padráo, tanto para uma amostragem estratilicada
quanto para conglomerados, sáo mais complexas. Entretanto, do ponto de
vista prático (ou operacional), uma amostragem por conglomerados é mais
simples e, freqüentemente, a mais usada (Lery
& Lemeshow,
1999). Mas
determinar um tamanho amostral sob este desenho é mais dificil devido á
forma mais complexa de seu erro-padráo.
De forma geral, para a estimagáo de um parámero 0 tem-se a
seguinte relagáo
EPu^, < EP s
<EP.bb,.
(15)
Isto é, usar conglomeragáo implica em uma maior imprecisáo na
estimativa que usar uma amostragem a.leatória simples, que por sua vez,
implica em mais imprecisáo que uma amostra esratificada. Embora esta
relagáo valha na prática, ela náo é matematicamente verdadeira, podendo.se encontrar casos onde seja inversa (Bolfarine & Bussab, 1994). Em
outras palavras, para uma mesma precisáo, uma amostragem por conglomerados deve exigir uma amostra maior que uma amostragem aleatória
simples, e uma amostragem estratificada seria a que exigiria o menor
tamanho amostral.
20 -
C¡otn¡os
SaúoE C0LEÍV¡, Rro 0E
J^{Er¡o,
I
(2)t g-28, 2000
A Ló6rca !A DErERrna0¡0 0o tar¡mo 0A A¡0sr¡a Er
Nestas circunstáncias,
r¡vEsTrGAQoEs rprDELl0róGtcts
o ideal seria entáo trabalhar com
I
amostras
estratificadas. Entretanto, tal como a amostragem aleatória simples, ela é
freqüentemente de dificil operacionalizaqáo, dependendo, além de um
cadastro geral, da informagáo sobre qual estrato a unidade pertence.
Além disso, se há muita heterogeneidade entre os estratos, o que seria
bom no sentido de diminuir o erro-padráo, ter uma medida geral para a
popr,rlagáo pode ser de pouca utilidade para o pesquisador. Mais interessante seria manter a informagáo por estrato.
Em sendo entáo a amostragem pol conglomerados a de mais lácil
operacionalizagáo, como calcular de forrna simples um tamanho amostml
para estimagáo de um parámetro usando este desenho? Define-se uma
quantidade conhe cida por def (design ffia= efeito de desenho) como sendo
a tazáo entre as imprecisóes associadas á estimagáo de um parámetro sob
dois desenhos amostrais. Usando a amostragem aleatíria simples como
referéncia, tem-se:
d"fr
' --
EPi?'"'
(r6)
EPÍ^t
O def funciona como urn "preEo" a ser pago pelo
pesquisad<.rr
por rer
sua tarefa facilitada ao investigar apenas os c/zs&rs sorteados, aumentando
sua imprecisáo deüdo ás possíveis correlaqóes das unidades amostr.ais
dentro e entre os chnters. Um valol de def=l é, obviamente, indicagáo de
que a conglomeragáo nl,o tem nenhum eleito sobre o tamanho amostral
quando comparada com a amostragem aleatória simples.
Assim, pode-se simplificar o cálculo do tamanho amostral usando a
teoria da Amostragem Aleatória Simples quando o estudo deve ser feito
por Conglomeragáo, corrigindo a imprecisáo maior devido a este dese-
nho amostral através de algum valor para o d4f. Surge, por outro lado,
uma outra dificuldade que é saber qual o valor a ser atribuido ao dzfpara
se corrigir adequadamente o tamanho amostr.al. Para se at buir um valor
razoável deveria se ter uma idéia da var.iabilidade das observagóes entre e
dentro dos cltsters, o que freqüentemente nao se disp6e. No caso de um
estudo de prevaléncia, quanto mais próximas as prevaléncias entre os
cltutns, menor seria o drf necessáno. Na prática, salvo em situagóes especiais,
um def de 1,4 ou 1,5 (uma correqáo no tamanho amostral entre 4090 e
CADE¡{os S¡úoE
Corrrrvr,
Rro
ol Jaxr¡¡o,
I
(2):
9-28,2000- 21
.
I
I
H0¡rn
50o/o)
Ra0Gr0
já
L0rr, il0ftc¡ M. F, MaGrailrrl
deve ser suficiente para resguardar a precisáo desejada do
pesquisador.
3.5 GEN¡rRAr.rz^NDo
De forma geral, o tamanho amostral para se estimar um parámetro
populacional 0 qualquer (como prevaléncia, incidéncia, risco relativo, razáo
de chances, média, diferenga de duas proporgóes ou diferenga de duas
média$ pode ser obtido através da expressáo seguinte, que relaciona o
erro tolerável de amostragem á idéia de intervalo de confianga para
estimagáo do parámetro 0. A premissa necessária é_o conhecimento da
expressáo do erro-padráo associado a um estimador, 0, daquele parámetro.
A regra geral é:
(l
i)
onde EP6 é o erro-padráo do estimador 0. O tamanho amostral estará
sempre embutido em EP6. Uma vez identificada a expressáo EP6, basta
explicitáJa em z e, assim, obter-se uma expressáo para o tamanho amostral
para estimagáo de um parámetro 0. Pela expressáo acima, os elementos
€ e c[ (as especificagóes de erros) certamente exercem inlluéncia em z e
eventuais outros elementos influentes apareceráo dependendo da expressáo para EP6.
Poder-se-ia listar aqui os erros-padróes dos principais estimadores
envolvidos numa investigagáo epidemiológica (Sahai & Khurshio, 1996),
Entretanto, dada a assimetria das distribuigóes amostrais de alguns deles,
suas expressóes sáo mais complexas, apresentando-se numa escala
logarítmica (freqüentemente de base r). Mesmo assim, poder-se-ia a partir
delas e algum algebrismo obter o tamanho amostral utilizando a equaqáo
geral acima.
4. Tts ¡ n¡¡no
u\t¡
HrPór'r:sr;
outro lado, o pesquisador tem como objetivo testar uma hipótese previamente estabelecida, surge um outro elemento influente na determinaqáo do tamanho amostral. Suponha que a situagáo de interesse
seja investigar se um novo tratamento é melhor que um tratamento tradicional, cuja proporgáo de sucesso é conhecida ser de 700lo. A pergunta
Se, por
22 -
C¡oenros S¡úoG ColrÍva, Rro oe
Jrl:lno,
I
(2): 9-28, 2000
A
Ló6rca oÁ DrrEÍxrxÁc¡o D0
¡a¡¡¡{ro
oÁ ¡i¡osTFA
![¡
l{yrslrc¡g0Es Ep¡oo¡rorocrc^s
I
inicial é quantos doentes precisaria investigar para decidir ou náo pelo
tratamento alternativo com uma margem de erro aceitável. Isto é, se o
tratamento novo de fato é melhor, por exemplo com um sucesso de B0o/0,
gostaria de se poder eütar que o estudo náo fosse capaz de chegar a esta
conclusáo deüdo a uma amostra pequena.
Ou seja, deseja-se controlar o erro p, sendo esse o elemento novo a
ser considerado na determinagáo do tamanho amostral. Se, por outro
lado o tratamento novo náo é melhor, também náo é desejável acidentalmente concluir que este é melhor. Ou seja, o interesse está em controlar
o erro c[. Se o tratamento tradicional é satisfatório, seria conveniente um
(l pequeno. Entretanto, se náo, poderia se relaxar um pouco no d, e exigir
mais do p. A determinagáo dos valores de cr e p depende de cada estudo.
Q¡lanto menor um, maior será o outro. A maneira de se ter ambos
pequenos é aumentando o tamanho da amostla.
Para se chegar a um tamanho amostral com este novo elemento,
considere a Figura I a seguir. As duas culas representam a distribuigáo
amostral para a proporgáo amostral ip ) de sucesso no tratamento novo
sob os dois valores hipotetizados no exemplo (P,,=7ooto, compativel com o
tradicional, e P^=80o/o). A "largura" de cada uma dessas curvas é dada
pelo seu erro-padráo que depende do tamanho da amostra e do valor.
hipotetizado. Para um "certo" tamanho amosral, há um valor limite p
que um resultado a partir dele conduziria erroneamente á rejeigáo da
hipótese {,=76070 com uma probabilidade de até go/o. Simultaneamenre,
em sendo verdadeira a hipótese P^=80o/o, um resultado atép conduziria á
aceitagáo daquela hipótese, também enoneamente, com uma probabilidade de até p%. O que se quer é determinar qual é este "certo" tamanho
amostral. Utilizando a normal padronizada, sob {,=70V0, tem-se
p -0,7
zs
:+
p=0,7
+z.P
E sob P"=B0o/o,
-zR=--:
'
p-0'8
1,
+
p=0,8-"pP
10,8x0,2
CÁoEnilo8 S¡úoE
Coreívr,
Rro
or Jrruno,
I
(2):
9-28,2000- 23
lR0ir¡
Brc0ro Lürz, M0¡rcr M, F.
ll^6rr¡r¡l
Igualando-se as duas últimas expressóes para
explicitando em z, terp-set
P".¡i,21 +
,'uffi'/
'1=
(os-off
Estabelecendose d,=So/o (com
zo=
I
,64) e p=26070
1-"r
zu
p
e
(18)
= 0,84), chega-
a um tamanho amostral de ll9 unidades. Isto é. com ll9 unidades o
pesquisador teria um poder de 800/o (l-B) de detectar uma proporgáo de
sucesso de B07o do tratamento no!'o com um nível de sipnificáncia de 590.
se
Fiqura 2
De forma geral tem-se entáo a seguinte expressáo para determinagáo
tamanho
do
amostral para se testar uma hipótese sobre uma proporgáo:
n= lzo
1(r- 1)l'
Po(l- P) + zu
(Po-
1)'
(ls)
Esta expressáo se aplica pa¡a um teste unilateral. Isto é, no exemplo,
apenas valores acima de 70Vo estariam sendo considerados. Se deseja-se um
teste bilateral, poderia usar a expressáo acima substituindo zopor
& Lemeshow,
zrr(Ievy
1999).
5. ExTENsóls
De maior aplicagáo em investigagóes epidemiológicas sáo os estudos
24
-
C¡ora¡os S¡r¡o: Co!rr|v^, Br0
oG
J^¡Etno,
I
(2)l 9-28, 2000
A Ló6rc¡ D¡ DrrEnxÍit0Á0 00 tarailflo
oÁ
ar¡osr¡¡ rr¡ Í{yEsl|6ag0Es E?l0E t0ro6tcas
-
I
os ensaios clínicos e os estudos observacionais do tipo
coorte e caso-controle - onde quer-se estudar a associageo entre duas
variáveis dicotómicas, classicamente denominadas exposigáo e doenga.
Em qualquer um desses trés desenhos, pode-se calcular um tamanho
amostral a partir da comparagño de duas proporgóes, sendo que no casocontrole a comparagáo seria sobre as proporgdes de expostos. De forma
geral, o tamanho amostral para a comparagáo entre duas proporgóes
segue a mesma lógica já discutida para o caso de uma única amostra,
tanto para estimagáo quanto para testes de hipóteses. A diferenga básica
é que agora tem-se duas amostras e, assim, será necessário ser estabeleci
do a priori pelo pesquisador uma razáo desejada entre os dois tamanhos
amostrais. As formulas também ficam mais complexas, principalmente
quando se tem proporgóes pequenas.
Como em epidemiologia as medidas de associagáo conhecidas como
Risco Relativo e Razáo de Chances tém larga aplicagáo e intelpretagóes
imediatas, pode-se construir tama¡rhos amostrais diretamente para estimagáo destes parámetros. As expressóes para seus erros-padróes sáo mais
complexas (Sahai & Khurshio, 1996), o que impede uma expressáo simples
para determinagáo do tamanho amostlal. I\{as a identificaqáo dos elementos influentes e sua interpretagáo seguem a mesma lógicajá apresentada.
Embora náo táo freqüente numa investigagáo epidemiológica, um
pesquisador pode estar interessado em conhecel qual o nivel médio de
uma variável numérica, por exemplo, glicemia ou colesterol em uma
populaqáo. Tal como no caso da estimagáo de uma proporgáo, o tamanho amostral para a estimagáo de uma média populacional pode ser
facilmente obtido a partir da expressáo pala o erro-padráo da média
amostral (X-), utilizando-se o raciocínio desenvolvido na segáo 3.5. Considerando uma populagáo inñnita (amostlagem aleatória simples "com
reposigáo"), tem-se:
comparativos
EPx =
6
\ln
r
(2 0)
E no caso de uma populagáo finita de tamanho N,
EPx =
(21)
CaoER¡os S¡úDE CotÉrrvr, Rro or
Jnlrrno,
I
{2): 9.28, 2000
-
25
I
Ro¡r¡ R¡eero Lu¿, ilorrcr M. F, Mr6railtill
onde o é o desvio-padráo populacional da variável em estudo. A analogia
com a estimagáo de uma proporgáo é imediata, observando-se que
6 = ltP(l - P) . Assim, os tamanhos amostrais para estimagáo de uma
média podem ser obtidos tanto para um erro absoluto (e) quanto para um
erro relativo (e) da mesma maneira como aqueles obtidos para a estima9áo de uma proporgáo.
Para o caso de um teste de hipótese a analogia também é imediata.
Pela segáo 4, pode-se calcular um tamanho amostral para um teste bilateral de uma média, supondo populagáo infinita, através de:
,=
zu)2o2
,,
(2o,, +
¡ee\
onde o é o desvio-padráo populacional da variável em estudo. Como
esta inforrnagáo náo é conhecida (é populacional), pode-se usar no seu
lugar alguma inforrnagáo disponível em outros estudos similares. Um
recurso que pode ser útil é obseruar que a diferenga entre o máximo e o
mínimo (a amplitude amostral) pode fornecer alguma informagáo sobre o
desvio-padráo. Supondo que os dados sáo normais, a amplitude corresponde
a aproximadamente seis vezes o desvio-padráo,
Em epidemiologia, a comparagáo de duas médias encontra mais aplicagóes nos estudos clinicos. Por exemplo,
um pesquisador pode estar
interessado em saber se há difelenca entre dois tratamentos alternativos
para controle de uma variável numérica, colesterol, por exemplo. Há
uma diferenga na redugáo média do colesterol para estes tratamentos? O
tamanho amostral necessário para este tipo de investigagáo segue também a mesma lógica anterior. O erro-padráo associado á diferenga entre
duas médias é:
or,r,--FÉ
(23)
Freqüentemente, assume-se que os desvios-padróes dos dois grupos
sáo iguais. Assim, um tamanho amostral, em cada grupo, para um
teste bilateral da diferenga entre duas médias seria dado por:
2(2",r+zu)2c2.
'
"-¿'
onde é d o valor hipotetizado para a diferenqa entre as médias.
26
-
C¡ot¡¡os S¡úDE CoLc¡rva, Br0 o¡ JaiEtno,
I
(2): 9.28, 2000
(24)
A
LoGrc¡ oa DErEnxr¡¡o¡o 00 TA¡^rir0 D¡
¡[¡0$¡i¡ E,l rivEsrcacóEs
EproÉrrorocrcÁs
I
6. CoNcr.usAo
Em síntese, para a deterninagáo do tamanho de uma amostra é
necessária a colocagáo de uma pelgunta específica que possa ser respondida pela estimagáo de uma par'ámetro populacional. Pela distribuigáo
amostral de um estimador deste parámetro e através de seu erro-padráo
associado, pode-se obter um tamanho amostral seguindo o raciocínio
geral desenvolvido na segáo 3,5, permitindo-se assim identificar claramente seus elementos influentes.
Uma outra característica importante na determinaEáo do tamanho
amostral é que qualquer estudo esta¡'á sujeito á perda de dados por razóes
diversas e magnitudes diferenciadas, dependendo do estudo. O pesquisador obtém seu tamanho amostral em cima de especificagóes de erro que
ele julgou pertinentes, mas que seráo alteradas se houver perda de dados.
Q¡rerendo se resguardar de sua precisáo, o pesquisador deve majorar um
pouco sua amosfa a fim de compensar eventuais perdas. É dificil estabelecer um valor de compensagáo, pois cada estudo estará sujeito a diferentes níveis de perda. Mas, arriscando uma regra geral, um acréscimo de
20% poderia ser recomendado. Por outro lado, mais importante do que
um eventual aumento na imprecisáo devido a uma perda grande seria
considerar a possibilidade das unidades perdidas serem "diferentes" das
obtidas, implicando em potenciais üeses no estudo.
Como último comentário, e concretamente fhlando, qualquer tamanho amostral para uma investigagáo epidemiológica implicará em custos.
Entáo, a determinagáo do tamanho amostral nem sempre poderá estar
restrita a uma discussáo puramente sobre imprecisáo. Como objetivamente este conceito é determinante no tamanho da amostra, em havendo
limitagáo de recursos, o pesquisador poderá chegar a um tamanho amostral
"viável" se relaxar um pouco em suas especificagóes de erro.
R¡rrnErcns
BrBuoGRAFtcAs
Bot.l',lnlnr, H.; Bussan, W. O. Elnnmtos
XI SINAPE. 1994,
Ft,etss,
J. L.
de Amostragmt.
Belo Horizonte,
Statütical Methods for Rates and hoputions.2 ed. New York:
John Wiley & Sons. l98l.
C¡D€R os SAúoÉ
CorrÍv¡,
R¡o
DE
JÁr{Etno,
I
l2lt S-28,2000- 27
I R0ü.
n¡0e|0 [urz,
llorrcr
ll. t.
ilrGñ^xrrl
Lcw, P. S.; LnltmHow, S. So*plug of Popuktions:
oQPlirnti*t. New York: John Wiley & Sons. 1999.
Sn,v4 N. N. Axustragan probabilí:lica: mn
Enusp. 19{18.
Sornts, J. F.; Stqut:tn,r, A.
L.
n¿tlnds and
eurso inhodutórin. Sáo Paulo:
Inhodt4Fo d Estatístüa Midita. Belo
Horizonte: Dep"' de Estatística da UFMG. 1999.
Snnnr, H.; KHunsHto, A. StoJistüs ;n Epideninbg Methnds, Temiques, and
Appliratinns. Boca Raton:
28 -
CRC Press. 1996.
C¡on¡o¡ Srú¡¡ Corrrrrr, 8ro 0E J^xfl¡o,
I
(2)r 9-28, t000

A lógica da determinação do tamanho da amostra em investigações

Transcrição

Documentos relacionados

Aula 16

Tamanho da amostra em estudos clínicos e experimentais

MALDONADO JR, W. - Resumo Expandido - Corrigido[2]

Exercícios sobre probabilidades – Matemática aula por aula

Julho 2003

Aula 15

Exercícios resolvidos sobre Definição de Probabilidade

Baixe PDF

Revisão de Estatística

Formulario Tramitaci.n de Visados.indd