proposta de um sistema especialista bayesiano para análise de

Transcrição

proposta de um sistema especialista bayesiano para análise de
RODRIGO RICHARD GOMES
PROPOSTA DE UM SISTEMA ESPECIALISTA BAYESIANO
PARA ANÁLISE DE CASOS COMPLEXOS DE
DETERMINAÇÃO DE VÍNCULO GENÉTICO
Belo Horizonte
12 de dezembro de 2008
U NIVERSIDADE F EDERAL DE M INAS G ERAIS
I NSTITUTO DE C IÊNCIAS B IOLÓGICAS
D EPARTAMENTO DE B IOQUÍMICA E I MUNOLOGIA
P ROGRAMA DE P ÓS - GRADUAÇÃO EM B IOINFORMÁTICA
PROPOSTA DE UM SISTEMA ESPECIALISTA BAYESIANO
PARA ANÁLISE DE CASOS COMPLEXOS DE
DETERMINAÇÃO DE VÍNCULO GENÉTICO
Tese apresentada ao Programa de
Doutorado em Bioinformática do Instituto
de Ciências Biológicas da Universidade
Federal de Minas Gerais, como requisito
parcial para a obtenção do grau de Doutor
em Bioinformática.
RODRIGO RICHARD GOMES
Belo Horizonte
12 de dezembro de 2008
À Jaqueline.
i
"I love talking about nothing. It is the only thing I know anything about."
Oscar Wilde
"The art and science of asking questions is the source of all knowledge."
Thomas Berger
"O temor do Senhor é o princípio da sabedoria."
Salomão, Provérbios
ii
A GRADECIMENTOS
"Se eu vi mais longe, é porque estava em pé sobre ombros de gigantes."
Isaac Newton
Esse é o momento de agradecer aos meus gigantes.
Ao meu orientador, Prof. Sérgio Pena, por quem cultivo enorme admiração e respeito.
Obrigado por ter me proporcionado essa oportunidade ímpar de aprender com o senhor
o ofício e o amor pela ciência. Trabalhar ao seu lado nesses últimos quatro anos foi uma
experiência indescritível. Não vou esquecer suas lições. Me sinto orgulhoso e honrado
por ter contado com sua orientação e por ter sido escolhido para ser um de seus alunos.
Ao Prof. Sérgio Campos, o melhor flautista do DCC. Se co-orientador tivesse conceito,
o seu seria A ++. Obrigado pelas injeções de ânimo, pelas conversas divertidas e por suas
lições sempre tão metafóricas. Adoro "perder um tempo" batendo um bom papo com
você. Trabalhar com você é e será sempre um privilégio.
À Profª. Glória Franco por sua doçura, carinho e por sua paciência comigo durante
esse tempo que tem exercido com maestria a coordenação do nosso programa de Pósgraduação em Bioinformática.
iii
Aos professores Carlos Renato e Andréia, às técnicas Neuza e Kátia e aos diversos colegas do Laboratório de Genética Bioquímica, que sempre me trataram com muito carinho.
Aos professores do programa de Pós-graduação em Bioinformática da Universidade
Federal de Minas Gerais, em especial ao professor Marcelo Santoro, por seu carinho e
simplicidade.
À Alessandra Campos, por sua amizade, apoio e pelas incontáveis vezes que me incentivou nos momentos nos quais eu que achava que não teria mais forças.
Ao Saulo pelo apoio e amizade.
Às amigas Simone Santos, Vanessa Faria, Luciana Bastos e Fernanda Kehdy. O melhor
grupo de pesquisa do qual eu poderia participar. A união desse grupo, o companheirismo,
as palavras de força e ânimo nunca serão esquecidos.
Ao amigo Michael Waisberg. Sua amizade foi uma das grandes conquistas e teve importância fundamental nessa longa caminhada. Seu apoio, sua torcida e as várias horas
dedicadas às nossas longas conversas on-line, mesmo quando não tínhamos nada para
conversar, não têm preço.
Ao amigo Ricardo Luiz de Freitas. Seu incentivo incessante, seu apoio e amizade,
foram essenciais nessa conquista.
Aos colegas do programa de Pós-Graduação em Bioinformática.
À FAPEMIG pelo suporte financeiro.
iv
Aos meus pais José e Dulce. Não poderia ter herdado genes melhores do que os deles.
Maior e muito mais forte que a herança genética, entretanto, é a herança que eles deixam
registrada em minha vida pelo amor e pelo exemplo de vida e caráter. Essa conquista é
também fruto da dedicação de vocês.
Ao Reuel, o cara mais bacana do mundo e que apenas duas pessoas têm o privilégio
de chamá-lo de irmão.
À minha irmã Renata e ao meu cunhado Jaime, agradeço pela Mariana, que veio encher
nossa família de alegria.
E, por fim, à pessoa mais importante da minha vida. No momento em que eu escrevo
essas palavras de agradecimento, contabilizo 13 anos, 3 meses e 8 dias compartilhando
minha vida com você. Todos os momentos mais importantes da minha vida, os bons e os
ruins, passei ao seu lado. A aprovação no vestibular, minha graduação. A seleção para o
mestrado, a defesa da dissertação. A seleção para o doutorado e, agora, mais uma defesa.
O que ainda está por vir? Jaqueline, seu amor e paciência é que me permitiram alcançar
mais esse sonho. Obrigado por suportar a solidão e a saudade enquanto eu estudava, sem
poder lhe dar o merecido carinho e atenção, no quarto ao lado. Essa conquista, eu divido
com você.
v
Minha família. Dezembro de 2008.
vi
R ESUMO
A incerteza da paternidade é um problema tão antigo quanto a própria humanidade.
O teste de identidade genética pelo estudo do DNA provocou uma revolução na determinação do vínculo genético entre indivíduos e tem demonstrado ser uma técnica poderosa
e confiável. O tipo mais simples de teste para determinação de paternidade é aquele
no qual uma mulher alega que determinado homem é o pai biológico de sua criança.
A análise estatística desse tipo de caso de paternidade é simples, sendo baseada em verossimilhanças facilmente obtidas. Existem, entretanto, algumas situações que tornam a
análise estatística de casos de determinação de vínculo genético uma atividade complexa
e desafiadora. Uma dessas situações é a indisponibilidade de material genético de um ou
mais indivíduos diretamente envolvidos no teste. Nesse caso, a estratégia básica é inferir
o perfil genético desse indivíduo à partir de parentes próximos como seus filhos, irmãos
ou pais. Outra situação que torna a determinação de vínculo genético mais complexa, é a
ocorrência de mutações genéticas entre os indivíduos envolvidos.
Casos complexos de determinação de vínculo genético têm sido solucionados com
sucesso, através de modelos gráficos voltados para a análise probabilística denominados redes bayesianas. Esse trabalho traz contribuições para a interpretação estatística
de casos complexos de determinação de vínculo genético nos quais há a ausência de informações de indivíduos importantes para a solução do caso ou a possibilidade de ocorvii
rência de mutação genética. Para isso, são apresentados algoritmos que utilizam redes
bayesianas para realizarem os cálculos das probabilidades e razões de verossimilhança.
Os algoritmos apresentados formalizam todo o processo necessário para se realizar a
análise probabilística de casos complexos de determinação de vínculo genético entre indivíduos através da utilização de redes bayesianas. Esses algoritmos demonstram detalhadamente todas as etapas, desde a modelagem da estrutura da rede bayesiana, passando pela criação dos estados e preenchimento das tabelas de probabilidades condicionais, a definição e entrada das evidências na rede e a aquisição das razões de verossimilhança para cada loco testado, gerando finalmente uma razão de verossimilhança
global para o caso.
Os resultados obtidos foram considerados satisfatórios sob vários aspectos. Os algoritmos desenvolvidos atingiram o objetivo de formalizar o mapeamento de casos complexos de verificação de vínculo genético à partir de sua representação através de heredogramas para suas redes bayesianas correspondentes. Esses algoritmos deram origem a
um software de análise de casos complexos de determinação de vínculo genético denominado P ED E XPERT. Esse software combina uma interface intuitiva e de fácil utilização,
um ambiente de avaliação robusto que elimina as fontes de erros lógicos e operacionais,
e processamento de alto desempenho. Prevendo-se que a sua utilização será feita principalmente por biólogos e geneticistas, sua interface amigável permite a especificação
dos mais diversos e complexos casos de determinação de vínculo genético. Além disso, a
análise de um caso que, feita manualmente utilizando-se pacotes de redes bayesianas
de uso geral, levaria em torno de 2 horas e meia, é realizada em cerca de 5 minutos,
considerando a especificação do caso e a execução dos cálculos probabilísticos. O P ED E XPERT, portanto, surge como uma nova ferramenta de grande utilidade para a determinação de vínculo genético entre indivíduos.
viii
A BSTRACT
The uncertainty of paternity is a problem as old as humanity. Genetic identification
through DNA testing revolutionized the determination of genetic kinship between individuals. It has been proved to be a powerful and reliable technique. The simplest kind of
paternity testing is the case in which a woman alleges that certain man is the biological
father of her child. Statistical analysis of such paternity testing is simple, based on easily
acquired likelihoods. However, some situations turn the determination of genetic relationships a complex and challenging activity. An example of such situations is when there
is unavailability of genetic material from one or more individuals involved in the test. In
this case, the basic strategy is to try to infer the individual genetic profile from its living
relatives, which can be children, siblings, or parents. Another situation that makes genetic
identity determination more complex is the occurrence of genetic mutations among involved individuals.
Complex cases of genetic kinship determination have been solved successfully by using graphic models oriented to the probabilistic analysis, namely Bayesian networks. This
thesis contributes to the statistical analysis of complex cases of genetic kinship in which
there is unavailability of information concerning important individuals to the solution of
the case or the possibility of the occurrence of genetic mutation. For this purpose, algorithms which use Bayesian networks to perform the probability calculations and the likeix
lihood ratios are presented. The aforementioned algorithms formalize the whole process
to perform the probabilistic analysis of complex cases of genetic kinship determination
between individuals through the use of Bayesian networks. These algorithms describe in
detail all the necessary steps, from the Bayesian network structural modeling, the creation
of states, the filling of the conditional probability tables, the definition and input of the
evidences in the network and the acquisition of the likelihood ratio for each tested locus,
concluding by generating the global likelihood ratio for the case.
In many aspects the results obtained were considered satisfactory. The algorithms we
developed reached the objective of formalizing the mapping of complex cases of genetic
kinship determination, starting from its representation as a pedigree for its corresponding
Bayesian network. These algorithms became a software for the analysis of complex cases
of genetic kinship determination, which we called PedExpert. This software combines an
intuitive and user-friendly interface, a robust evaluation environment which eliminates
the common source of logic and operational errors, and high performance processing.
Considering that the software is going to be used mostly by biologists and geneticists, the
user-friendly interface allows the specification of the most diverse complex cases of genetic kinship determination. Furthermore, the analysis of a typical case, which, if done
manually using the general Bayesian network packages, would take approximately 2 and
a half hours, can be done in approximately 5 minutes - if we consider the case specification and the time necessary for the execution of the probabilistic calculations. PedExpert,
therefore, emerges as a new tool of great usefulness for the determination of the genetic
kinship between individuals.
x
S UMÁRIO
1
Introdução
1
1.1
A solução proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.2
Heredogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.3
Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.4
Estrutura do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2
Objetivos
10
3
Identificação genética
13
3.1
Conceitos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
3.1.1
O ácido desoxirribonucléico . . . . . . . . . . . . . . . . . . . . . . .
13
3.1.2
Polimorfismos e marcadores genéticos . . . . . . . . . . . . . . . . .
17
O processo de identificação genética . . . . . . . . . . . . . . . . . . . . . . .
17
3.2.1
Microssatélites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
3.2.2
Mutação germinativa . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.2.3
Um exemplo simples de identificação genética . . . . . . . . . . . .
23
3.2
4
Redes Bayesianas
26
4.1
Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
4.2
Redes bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
xi
4.2.1
5
Probabilidade bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . .
Metodologia
34
5.1
Amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
5.2
Software e biblioteca para modelagem de redes bayesianas . . . . . . . . .
35
5.3
O software implementado . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
5.4
O banco de dados do P ED E XPERT . . . . . . . . . . . . . . . . . . . . . . . . .
37
5.4.1
Representação dos dados . . . . . . . . . . . . . . . . . . . . . . . . .
37
5.4.2
A implementação do banco de dados . . . . . . . . . . . . . . . . . .
40
O processo de inferência genética no P ED E XPERT . . . . . . . . . . . . . . .
43
5.5.1
Trabalhos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . .
43
5.5.2
Os algoritmos usados no P ED E XPERT . . . . . . . . . . . . . . . . . .
44
5.5.3
O modelo de mutação paterna usado no P ED E XPERT . . . . . . . . .
68
Os módulos do P ED E XPERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
5.6.1
O banco de dados de freqüências alélicas . . . . . . . . . . . . . . . .
72
5.6.2
O módulo de parametrização . . . . . . . . . . . . . . . . . . . . . . .
78
5.6.3
O módulo de especificação de casos de determinação de vínculo
5.5
5.6
genético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
7
30
79
Estudos de caso
87
6.1
Estudo de caso 1 : um caso de paternidade simples . . . . . . . . . . . . . .
87
6.2
Estudo de caso 2 : um caso de paternidade simples considerando mutação
91
6.3
Estudo de caso 3 : um caso de identificação complexo . . . . . . . . . . . . .
94
6.4
Estudo de caso 4 : um caso de identificação complexo considerando mutação 98
Resultados e discussão
7.1
101
Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.1.1
Análise de complexidade computacional dos principais algoritmos
propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
7.2
Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
xii
8
Conclusões e trabalhos futuros
108
8.1
Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
8.2
Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
8.2.1
Identificação genética em larga escala . . . . . . . . . . . . . . . . . . 113
8.2.2
Melhoria no desempenho . . . . . . . . . . . . . . . . . . . . . . . . . 114
A O algoritmo de conversão de heredogramas em redes bayesianas
115
B Tabelas do banco de dados do P ED E XPERT
117
B.1
A tabela Param . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
B.2
A tabela LocusSet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
B.3
A tabela Locus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
B.4
A tabela Allele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
B.5
A tabela Pedigree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
B.6
A tabela Individual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
B.7
A tabela Genotype . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
B.8
A tabela PedigreeResults . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
Referências Bibliográficas
124
xiii
L ISTA DE F IGURAS
1.1
Heredograma de um caso simples de determinação de paternidade . . . . . . .
1.2
A solução proposta: a rede bayesiana de casos de determinação de vínculo
2
genético será criada a partir do heredograma, das freqüências alélicas e taxas
de mutação, além dos perfis genéticos dos indivíduos utilizados como evidências 5
1.3
Exemplo de um heredograma de uma família com 7 indivíduos . . . . . . . . .
6
3.1
A estrutura em forma de dupla hélice do DNA . . . . . . . . . . . . . . . . . . . .
15
3.2
Um conjunto de 46 cromossomos . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
3.3
Exemplos de alelos para o loco CSF1PO. A primeira seqüência é a representação do alelo 7, e a segunda seqüência representa o alelo 9. . . . . . . . . . . .
21
3.4
O conjunto de 13 locos do CODIS . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
4.1
Os tipos de raciocínio providos por uma rede bayesiana: causal, diagnóstico e
inter-causal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
4.2
Rede bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
5.1
Tela principal do GeNIe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
5.2
Diagrama de tabelas do banco de dados do P ED E XPERT . . . . . . . . . . . . . .
38
5.3
Estrutura da tabela Individual: seus campos e alguns registros . . . . . . . . . .
41
5.4
Database Desktop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
xiv
5.5
SQL Explorer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6
Tipos de nós em uma rede bayesiana para avaliação de casos complexos de
42
determinação de vínculo genético . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
5.7
Exemplo da tabela de probabilidade condicional associada a um nó do tipo 2 .
48
5.8
Exemplo da tabela de probabilidade condicional associada a um nó do tipo 3 .
49
5.9
Diagrama das classes criadas no P ED E XPERT . . . . . . . . . . . . . . . . . . . .
53
5.10 Tabela de probabilidades condicionais associada ao nó teste tf = pf? . . . . . .
63
5.11 Rede bayesiana correspondente ao heredograma da Figura 5.26 . . . . . . . . .
63
5.12 Tabela de probabilidades condicionais do nó genótipo . . . . . . . . . . . . . .
64
5.13 Tabela de probabilidades condicionais dos nós intermediários representando
as relações mendelianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
5.14 Tabela de probabilidades condicionais correspondente às freqüências alélicas
da população . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
5.15 Tabela de probabilidades condicionais para a hipótese de que o suposto pai
seja o pai biológico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
5.16 Tabela de probabilidades condicionais para a hipótese de que o pai biológico
seja um indivíduo qualquer da população . . . . . . . . . . . . . . . . . . . . . .
66
5.17 Diagrama ilustrando o modelo de mutação por passos . . . . . . . . . . . . . .
70
5.18 Criando um novo Allele Frequency Set . . . . . . . . . . . . . . . . . . . . . . . .
73
5.19 Janelas para cadastro de locos e respectivas freqüências alélicas . . . . . . . . .
74
5.20 Freqüências alélicas não normalizadas . . . . . . . . . . . . . . . . . . . . . . . .
75
5.21 Janela de importação de freqüências alélicas: importando freqüências alélicas
relativas para o conjunto de freqüências alélicas do FBI . . . . . . . . . . . . . .
76
5.22 Janela de importação de freqüências alélicas: importando freqüências alélicas
absolutas para o conjunto de freqüências alélicas do GENE . . . . . . . . . . . .
77
5.23 Janela de importação de taxas de mutações alélicas: importando taxas de mutações para o conjunto de freqüências alélicas do GENE . . . . . . . . . . . . . .
79
5.24 Janela de parâmetros do P ED E XPERT . . . . . . . . . . . . . . . . . . . . . . . . .
79
xv
5.25 A janela para especificação de casos de determinação de vínculo genético . . .
81
5.26 Heredograma gerado pelo software Haplopainter . . . . . . . . . . . . . . . . .
82
5.27 Copiando os dados do genótipo do Excel . . . . . . . . . . . . . . . . . . . . . . .
83
5.28 Importação de genótipos no P ED E XPERT usando o formato vertical . . . . . . .
84
5.29 Importação de genótipos no P ED E XPERT usando o formato horizontal . . . . .
84
5.30 Janela apresentando um alelo não cadastrado no banco de dados durante a
importação de genótipos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
5.31 Janela para entrada e visualização dos genótipos dos indivíduos de um caso de
paternidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
5.32 Apresentação dos resultados de um caso de paternidade pelo P ED E XPERT . . .
86
6.1
Heredograma de um caso de paternidade simples . . . . . . . . . . . . . . . . .
87
6.2
Freqüências alélicas para o loco CSF1PO no conjunto de locos do GENE . . . .
88
6.3
Resultados gerados pelo P ED E XPERT para o caso de paternidade simples . . .
90
6.4
Rede Bayesiana correspondente a um caso de paternidade simples . . . . . . .
90
6.5
Valores dos estados de todos os nós da rede bayesiana para o loco CSF1PO do
caso simples de paternidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.6
92
Resultado dos cálculos das razões de verossimilhança sem considerar mutação
genética. O teste do loco CSF1PO resultou em exclusão, dado que o alelo paterno obrigatório não está presente nos genótipos do suposto pai . . . . . . . .
6.7
93
Resultado dos cálculos das razões de verossimilhança considerando mutação
genética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
6.8
Heredograma de um caso complexo de paternidade . . . . . . . . . . . . . . . .
95
6.9
Especificação do caso referente ao heredograma da Figura 6.8 . . . . . . . . . .
95
6.10 Rede Bayesiana referente ao heredograma da Figura 6.8 . . . . . . . . . . . . . .
96
6.11 Genótipos de um dos indivíduos do estudo de caso 3 . . . . . . . . . . . . . . .
96
6.12 Resultados das razões de verossimilhança do estudo de caso 3 . . . . . . . . . .
97
6.13 Heredograma do estudo de caso 4 . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
xvi
6.14 Resultado dos cálculos das razões de verossimilhança sem considerar mutação
genética. O teste do loco D21S1280 resultou em exclusão. Analisando os genótipos, verifica-se que o alelo paterno obrigatório (44) não faz parte dos possíveis
genótipos do suposto pai. Entretanto, a proximidade desses alelos com o APO,
sugere a possibilidade de que possa ter ocorrido uma mutação genética. . . . .
99
6.15 Rede Bayesiana referente ao heredograma da Figura 6.13 . . . . . . . . . . . . . 100
6.16 Resultado dos cálculos das razões de verossimilhança considerando mutação
genética. Nesse novo teste a razão de verossimilhança do loco D21S1280 passa
de 0 para 0, 0071. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.1
Caso fictício 1 - trio simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.2
Caso fictício 2 - testando o suposto pai através da viúva e filho . . . . . . . . . . 104
7.3
Caso fictício 3 - testando o suposto pai através da viúva e 2 filhos . . . . . . . . 104
7.4
Caso fictício 4 - testando o suposto pai através da viúva e 3 filhos . . . . . . . . 104
7.5
Caso fictício 5 - testando o suposto pai através da viúva e 4 filhos . . . . . . . . 105
7.6
Gráfico que mostra o tempo de processamento de um caso em função da maior
quantidade de alelos presentes em um loco. Os tempos referem-se à análise de
5 locos de microssatélites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
7.7
Gráfico que mostra o tempo de processamento de um caso de paternidade
simples (mãe, filho e suposto pai) em função da quantidade de locos testados.
Os locos utilizados tinham no máximo 15 alelos . . . . . . . . . . . . . . . . . . 107
A.1
Heredograma exemplo para o algoritmo de conversão . . . . . . . . . . . . . . . 115
xvii
L ISTA DE TABELAS
3.1
Exemplo de perfis genéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
5.1
Tabela de códigos e cores dos nós no P ED E XPERT . . . . . . . . . . . . . . . . . .
45
5.2
Parte de uma tabela com as equações de probabilidade de herança dos alelos
considerando mutação genética e 6 estados . . . . . . . . . . . . . . . . . . . . .
72
5.3
Parte da tabela de probabilidades condicionais considerando mutação genética 72
6.1
Genótipos do trio para o caso da Figura 6.1 . . . . . . . . . . . . . . . . . . . . .
88
6.2
Índices de paternidade para o caso simples de paternidade da Figura 6.1 . . .
89
6.3
Mapeamento entre estados e alelos para o loco CSF1PO . . . . . . . . . . . . . .
91
6.4
Mapeamento das evidências para o loco CSF1PO . . . . . . . . . . . . . . . . . .
91
6.5
Genótipos dos indivíduos para o loco D21S1280 . . . . . . . . . . . . . . . . . . 100
7.1
Tabela de complexidade dos algoritmos do P ED E XPERT . . . . . . . . . . . . . . 102
7.2
Tempos de execução para casos com 3, 5, 6, 7 e 8 pessoas, variando a quantidade de estados de 10 à 30 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
xviii
C APÍTULO
I NTRODUÇÃO
1
Os testes de identidade genética pelo estudo direto do DNA têm provado serem técnicas extremamente poderosas na determinação do vínculo genético entre indivíduos.
Uma de suas principais e mais conhecidas aplicações é a determinação de paternidade.
Entretanto, há outras aplicações que, do ponto de vista social e da segurança pública, são
tão importantes e interessantes quanto a determinação de paternidade.
Em desastres e catástrofes em grande escala, nos quais os métodos clássicos de identificação não são aplicáveis ou são ineficazes, o exame em DNA surge como uma ferramenta que contribui de maneira efetiva na identificação de corpos e restos mortais
(Clayton et al., 1995; Lin et al., 2006; Bianchi e Lio, 2007). Guerras, ataques terroristas, desastres aéreos e catástrofes da natureza como tsunamis, furacões e terremotos, são exemplos dessas tragédias que resultam na morte de centenas e, não raramente, milhares ou
até dezenas de milhares de pessoas.
O exame em DNA também tem sido usado com sucesso no esclarecimento de casos criminais. Ele tem auxiliado geneticistas e especialistas forenses na confirmação da
identidade de suspeitos e vítimas em assassinatos, seqüestros e casos de abuso sexual. A
determinação da identidade genética pelo exame em DNA pode ser considerada um dos
produtos mais revolucionários da genética molecular humana moderna (Pena, 2005).
1
1. I NTRODUÇÃO
2
Entre os casos de determinação de parentesco, os mais comuns são os casos de investigação de paternidade simples, onde uma mulher alega que determinado homem é o pai
de seu filho (ou filha). Nesses casos, amostras biológicas contendo DNA do filho, da mãe
e do suposto pai estão disponíveis para serem analisadas. Um exemplo desse tipo de caso
é representado pelo heredograma da Figura 1.1.
Figura 1.1: Heredograma de um caso simples de determinação de paternidade
Em um heredograma, o quadrado representa um indivíduo do sexo masculino, um
círculo representa um indivíduo do sexo feminino e um losango indica um indivíduo independente de sexo. Em casos de determinação de paternidade simples, a questão que
deve ser esclarecida é se o suposto pai é, na realidade, o verdadeiro pai biológico. Os
cálculos estatísticos para a determinação de paternidade em casos simples são triviais e
conhecidos há muito tempo (Dawid et al., 2002). Esses cálculos são, em princípio, determinados à partir da razão de verossimilhança entre duas hipóteses mutuamente excludentes. A hipótese H sp é de que o suposto pai é na verdade o pai biológico. A segunda
hipótese, Hi q , é a de que um indivíduo qualquer tomado aleatoriamente da população
seja o verdadeiro pai. O método utilizado em testes de determinação de paternidade consiste em calcular a razão entre a verossimilhança de se obter os resultados observados na
hipótese H sp e a verossimilhança de se obter tais resultados na hipótese Hi q . A razão de
verossimilhança calculada, denominada índice de paternidade (IP), fornece qual a probabilidade de que o suposto pai seja o verdadeiro pai.
1. I NTRODUÇÃO
3
IP =
P (H sp )
P (Hi q )
(1.1)
O resultado da Equação 1.1 mostra quantas vezes é mais provável obter os resultados
observados na hipótese de que o suposto pai seja o verdadeiro pai do que obter os resultados observados na hipótese de que outro indivíduo qualquer, tomado aleatoriamente
da população, seja verdadeiro pai.
A construção de um software que seja capaz de manipular os dados dos perfis genéticos e realizar os cálculos estatísticos necessários para se determinar a probabilidade de
que o suposto pai seja o verdadeiro pai, em casos simples de disputa de paternidade, é
uma tarefa fácil e sem grandes complicações. O algoritmo deve fazer um cruzamento das
informações obtidas no perfil genético de cada um dos indivíduos. A genética mendeliana
determina que, para cada gene ou marcador genético, o filho possui dois alelos, sendo
um herdado de seu pai e o outro de sua mãe. A determinação da paternidade consiste em
verificar, para cada marcador testado, qual dos dois alelos tipados no filho está presente
no perfil genético da mãe. Por exclusão, o outro alelo presente no genótipo do filho foi
herdado de seu verdadeiro pai e é chamado alelo paterno obrigatório. O algoritmo deve
então verificar se tal alelo está presente no perfil genético do suposto pai e, por fim, calcular a razão de verossimilhança de cada marcador, considerando as duas hipóteses citadas
anteriormente. O último passo consiste em calcular o índice de paternidade combinado
multiplicando-se as razões de verossimilhança de todos os marcadores genéticos testados.
Entretanto, a análise de alguns tipos de casos de paternidade é mais difícil, já que
alguns problemas podem tornar mais complexo o processo de determinação da identidade genética de um indivíduo. Um desses problemas é a indisponibilidade de material
genético de um ou mais indivíduos diretamente envolvidos na investigação. Nesse caso, o
1. I NTRODUÇÃO
4
perfil genético desse indivíduo deve ser inferido à partir dos perfis genéticos de parentes
próximos.
A ausência de evidências biológicas pode ocorrer por diversos motivos. O mais óbvio
e comum é o fato de algum indivíduo importante para a elucidação da investigação já ter
falecido. Entre outros motivos, pode-se citar o fato de alguém não estar disponível para
o teste no momento em que esse for realizado ou simplesmente não se disponibilizar voluntariamente a fornecer amostras biológicas para extração de seu DNA.
Outro problema que torna mais complexa a determinação da identidade genética é
a ocorrência de mutações no DNA dos indivíduos envolvidos. A possibilidade de mutação na transmissão genética é um problema que pode trazer complicações ao processo
de determinação da identidade genética e deve ser seriamente considerada (Dawid et al.,
2002).
1.1 A solução proposta
O exame em DNA consiste de três etapas:
1. Coleta das amostras biológicas para a extração do DNA.
2. Determinação dos perfis genéticos dos indivíduos através de técnicas de biologia
molecular.
3. Análise estatística dos dados obtidos nos perfis genéticos.
A maioria das propriedades genéticas de indivíduos, populações e espécies são essencialmente probabilísticas. Elas não podem, portanto, serem estudadas sem a utilização
de modelos probabilísticos adequados. Como exemplos de tais propriedades, podem ser
1. I NTRODUÇÃO
5
citados os genótipos de um indivíduo, as freqüências alélicas de uma população e as taxas
de ocorrência de mutação em um determinado marcador. Nesse contexto, um modelo
que tem sido utilizado com sucesso em problemas de genética são as denominadas redes
bayesianas (Beaumont e Rannala, 2004). As redes bayesianas (Pearl, 1988) também são
conhecidas como redes de crenças (Pearl, 1986), redes probabilísticas (Cowell et al., 1999;
Kjærulff e Madsen, 2005), ou sistemas especialistas probabilísticos (Dawid et al., 2002).
Figura 1.2: A solução proposta: a rede bayesiana de casos de determinação de vínculo
genético será criada a partir do heredograma, das freqüências alélicas e taxas de mutação,
além dos perfis genéticos dos indivíduos utilizados como evidências
Há, portanto, a necessidade de que sejam desenvolvidos sistemas computacionais específicos para auxiliar os geneticistas e especialistas forenses a interpretarem, estatisticamente e adequadamente, casos complexos de determinação de vínculo genético. Uma
1. I NTRODUÇÃO
6
característica indispensável a esses sistemas é que eles trabalhem mesmo com a ausência
de dados de um ou mais indivíduos relevantes, além de levarem em consideração a possibilidade de mutação genética. A solução proposta para o problema de inferência em
casos complexos de determinação de vínculo genético pode ser vista na Figura 1.2.
1.2 Heredogramas
Heredogramas são estruturas gráficas amplamente utilizadas no campo da genética.
Nesse trabalho o termo heredograma possui um sentido mais amplo que o clássico. Originalmente, heredograma refere-se a um diagrama que estabelece a relação de parentesco
entre indivíduos através da ligação entre os símbolos que os representam. Os indivíduos
do sexo masculino são representados por quadrados enquanto que os do sexo feminino
são representados por círculos. Basicamente existem dois tipos de ligações. Essas ligações, feitas através de linhas horizontais e verticais, são utilizadas para demonstrar o tipo
de parentesco entre indivíduos.
Figura 1.3: Exemplo de um heredograma de uma família com 7 indivíduos
As conexões por linhas verticais indicam que o indivíduo em nível inferior é descen-
1. I NTRODUÇÃO
7
dente direto dos indivíduos do nível imediatamente superior. Já as linhas horizontais que
conectam dois indivíduos, um do sexo masculino e outro do sexo feminino, indicam a
existência de um relacionamento que pode resultar, ou não, em prole.
Entretanto, esse trabalho considera que o ponto mais importante na representação de
relações familiares através do heredograma não está na notação gráfica em si, mas na informação embutida que demonstra quais são as relações de parentesco existentes entre
os indivíduos representados. Portanto, a partir desse ponto, o termo heredograma nesse
trabalho estará se referindo ao conteúdo e não à forma como essa informação é representada, a não ser que seja expressamente informado o contrário.
1.3 Contribuições
Esse trabalho se concentra e traz contribuições para a interpretação estatística de casos complexos de identificação genética humana. Mais especificamente, são tratados os
casos complexos de determinação de vínculo genético nos quais há a ausência de informações de indivíduos importantes para a solução do caso ou a possibilidade de mutação
genética. Para isso, foram propostos algoritmos que utilizam redes bayesianas para realizarem os cálculos das probabilidades e razões de verossimilhança.
As redes bayesianas serão criadas com base na estrutura familiar, expressa através dos
heredogramas. Internamente, os nós dessas redes terão embutidos evidências e tabelas
de probabilidades condicionais. As evidências são definidas à partir dos dados dos perfis
genéticos dos indivíduos envolvidos nos casos de determinação de vínculo genético, enquanto que as tabelas de probabilidades condicionais são preenchidas usando freqüências alélicas da população e probabilidades baseadas nas leis de herança mendelianas. O
termo freqüência alélica refere-se à freqüência relativa de um alelo de um determinado
1. I NTRODUÇÃO
8
loco1 em uma população. Já a taxa de mutação, refere-se à probabilidade de se transmitir
um gene ou um marcador genético que sofreu mutação para os filhos.
Considera-se, portanto, que as principais contribuições desse trabalho são:
1. Desenvolvimento de um algoritmo que tem como função converter heredogramas
em redes bayesianas. Esse algoritmo formaliza o processo de criação da estrutura
da rede bayesiana, definindo, a partir dos indivíduos e seus relacionamentos com
os outros indivíduos representados no heredograma, quais nós devem ser criados,
seus respectivos tipos e a maneira como devem ser conectados uns aos outros.
2. Desenvolvimento de algoritmos necessários para a criação dos estados das tabelas
de probabilidades condicionais associadas a todos os nós da rede bayesiana.
3. Desenvolvimento de algoritmos utilizados para o correto preenchimento das milhares de entradas necessárias nas diversas tabelas de probabilidades condicionais
associadas aos nós da rede.
4. Apresentação da estratégia de se utilizar uma única rede bayesiana para todos os
locos a serem testados. O reaproveitamento da rede se dará através da utilização
de estados nomeados com identificadores genéricos nas tabelas de probabilidades
condicionais, ao invés de se utilizar como nomes para os estados os valores dos
alelos específicos de cada loco. Portanto, para cada loco testado, os estados fictícios
serão mapeados aos seus alelos correspondentes através de uma estrutura de dados
adequada.
5. Um novo modelo de rede bayesiana que incorpora a informação sobre mutação
genética sem a necessidade de se adicionar novos nós na rede. Essa estratégia permite criar uma única rede bayesiana independente se o caso será analisado levandose em consideração ou não a possibilidade de mutação genética.
1
Esses conceitos serão abordados no Capítulo 3
1. I NTRODUÇÃO
9
6. Desenvolvimento de um software especialista bayesiano, como interface intuitiva
e amigável, deixando transparente para o usuário toda a complexidade inerente
obtida através da utilização das redes bayesianas.
1.4 Estrutura do trabalho
O restante dessa tese está estruturada da seguinte forma.
Por ser um trabalho multidisciplinar, optou-se por fazer uma revisão bibliográfica
tanto sobre o assunto inferência genética, quanto sobre as redes bayesianas. Portanto, o
Capítulo 3 fará uma revisão breve e introdutória sobre o tópico inferência genética. Nesse
capítulo serão definidos conceitos básicos como polimorfismo e marcadores genéticos,
alelo, microssatélite, mutações, entre outros. O Capítulo 4 introduz os fundamentos básicos das redes bayesianas. Os conceitos das redes bayesianas são apresentadas através de
um exemplo prático e bastante intuitivo.
O Capítulo 5 apresenta a metodologia adotada, descrevendo detalhadamente o banco
de dados criado, os algoritmos utilizados no desenvolvimento do sistema especialista denominado P ED E XPERT, e os módulos desse software. No Capítulo 6, são apresentados
quatro estudos de caso utilizando o P ED E XPERT. Uma análise geral dos resultados obtidos e a discussão são apresentadas no Capítulo 7. Por fim, as conclusões deste trabalho e
sugestões de trabalhos futuros são apresentadas no Capítulo 8.
C APÍTULO
O BJETIVOS
2
Diversos trabalhos recentes (Dawid et al., 2002, 2006; Taroni et al., 2004) têm demonstrado como formular os mais variados tipos de casos de inferência de identificação genética
baseados em DNA através da utilização das redes bayesianas. Esses casos vão desde
os mais simples, como investigações de paternidade em trios, onde estão disponíveis
amostras de DNA da mãe, filho e suposto pai, até os casos mais complexos onde a informação genética de indivíduos importantes na confirmação de uma determinada identidade genética não esteja disponível.
As soluções propostas nesses trabalhos permitem a utilização de softwares de modelagem bayesiana de propósito geral1 . Há uma grande variedade de pacotes de software
para construção de redes bayesianas disponíveis como por exemplo o GeNIe2 , HUGIN3 ,
MSBNx4 , Netica5 , o BNT6 e o JavaBayes7 . Entretanto, as abordagens propostas através
da utilização desses softwares trazem consigo alguns problemas. Um desses problemas é
1
Kevin Murphy mantém uma lista dos principais softwares e pacotes bayesianos no endereço
http://www.cs.ubc.ca/~murphyk/Software/BNT/bnsoft.html
2
G E NI E é um pacote gratuito disponível em http://genie.sis.pitt.edu
3
HUGIN
é um pacote comercial, mas possui uma versão de avaliação disponível gratuitamente em
http://www.hugin.com
4
5
MSBN X está disponível gratuitamente em http://research.microsoft.com/msbn/
N ETICA é um pacote comercial, mas possui uma versão de avaliação disponível em
http://www.norsys.com/netica.html
6
BNT é uma toolbox desenvolvida para MATLAB e está disponível gratuitamente em
http://www.cs.ubc.ca/~murphyk/Software/BNT/bnt.html
7
J AVA B AYES é um pacote gratuito e está disponível em http://www.cs.cmu.edu/~javabayes/Home
10
2. O BJETIVOS
11
que a criação dos modelos probabilísticos capazes de inferir sobre casos de identificação
genética ou determinação de parentesco é feita manualmente e, por isso, requer profissionais altamente especializados com grande conhecimento em genética, probabilidade
e modelagem de redes bayesianas. Ainda pelo fato de serem criadas manualmente, a
modelagem das redes bayesianas nesses softwares demanda uma grande quantidade de
tempo e está sujeita a erros tanto na modelagem quanto no preenchimento das diversas
tabelas de probabilidades condicionais. Isso se deve principalmente à grande quantidade
e à dimensão dessas tabelas. Além disso, o processo está repleto de tarefas repetitivas.
Para cada loco que se deseja calcular a razão de verossimilhança, deve-se repetir todo o
processo de modelagem, preenchimento de todas as tabelas e redefinição das evidências
para, finalmente, proceder ao cálculo das razões de verossimilhança.
Essa tese tem como objetivo geral propor algoritmos que solucionem o problema de
inferir probabilisticamente sobre casos complexos de determinação de vínculo genético,
mais especificamente os casos complexos de determinação de vínculo genético nos quais
há a ausência de informações de indivíduos importantes para a solução do caso ou a possibilidade de mutação genética. Os algoritmos propostos têm como função automatizar todo o processo de inferência, desde a modelagem das redes bayesianas com base
nos heredogramas de cada caso, passando pela criação dos estados e preenchimento das
tabelas de probabilidades condicionais através dos genótipos dos indivíduos e freqüências alélicas da população, e chegando ao cálculo das razões de verossimilhança.
Os objetivos específicos dessa tese incluem:
1. O desenvolvimento de um software que demonstre o funcionamento dos algoritmos propostos para solucionar os problemas complexos de determinação de parentesco. A demonstração desse algoritmos será possível através de sua implementação no software denominado P ED E XPERT. Esse software permite ao usuário ex-
2. O BJETIVOS
12
pressar a estrutura de um problema de verificação de vínculo genético entre indivíduos de uma forma muito simples e rápida, através de interface gráfica amigável e
intuitiva.
2. No software desenvolvido, a automatização tanto das tarefas repetitivas que deveriam ser executadas pelo usuário quanto daquelas que estejam sujeitas a erros.
Entre essas tarefas, pode-se citar os processos de criação das redes bayesianas específicas para cada caso de determinação de vínculo genético, a criação e correto
preenchimento das tabelas de distribuição de probabilidade, a definição das evidências para alguns nós da rede, o cálculo das razões de verossimilhança de cada
loco tipado, e a combinação dos resultados das razões de verossimilhança.
3. O desenvolvimento de um novo modelo para análise de casos de determinação de
vínculo genético que envolvam mutação paterna. É desejável que o software desenvolvido utilize na análise dos casos de determinação de vínculo genético que levam
em consideração a possibilidade de mutação paterna, a mesma estrutura da rede
bayesiana criada para analisar os casos de identificação genética que não levam em
consideração tal possibilidade.
C APÍTULO
I DENTIFICAÇÃO GENÉTICA
3
Os progressos alcançados pela biologia molecular nas últimas décadas possibilitaram
o estudo das diferenças genéticas existentes entre indivíduos, em partes do DNA localizadas em regiões não envolvidas na codificação de proteínas. Essas diferenças são de
fundamental importância nas aplicações forenses que utilizam o perfil genético para a
identificação genética de indivíduos.
Para que se compreenda o funcionamento do processo de identificação genética, é
necessário o conhecimento de alguns conceitos básicos de genética que serão descritos
nas seções seguintes.
3.1 Conceitos básicos
3.1.1 O ácido desoxirribonucléico
O ácido desoxirribonucléico, mais conhecido por sua sigla em inglês DNA (Deoxyribonucleic Acid) é a molécula responsável pela transmissão de características hereditárias
nos seres humanos e em todos os organismos vivos. Sua função principal é armazenar
a informação necessária para dirigir a construção das moléculas de ácido nucléico ou
13
3. I DENTIFICAÇÃO GENÉTICA
14
RNA (sigla em inglês para Ribonucleic Acid) em um processo denominado transcrição.
Por fim, as moléculas de RNA orientarão a montagem das moléculas de proteínas em um
processo denominado tradução. O processo completo de transcrição do DNA para RNA
e, posteriormente, de tradução do RNA para uma proteína, é conhecido como o dogma
central da biologia molecular. Os segmentos de DNA responsáveis por carregar a informação genética que será posteriormente expressa na forma de proteínas são denominados genes.
A molécula de DNA está presente em todas as células que possuem núcleo, com exceção dos glóbulos vermelhos do sangue, os quais são células desprovidas de núcleo.
O DNA é um longo polímero formado por milhões de monômeros ligados em seqüência através de duas cadeias anti-paralelas na forma de uma dupla hélice (Watson e Crick,
1953) como pode ser visto na Figura 3.1. Um monômero é uma molécula que pode se ligar
a outros monômeros formando macromoléculas denominadas polímeros. No caso do
DNA, os monômeros são denominados nucleotídeos e são representados pelas letras A,
C, G, e T, as quais representam respectivamente as bases nitrogenadas adenina, citosina,
guanina e timina.
O genoma humano está contido em 23 pares de cromossomos. Esse conjunto de cromossomos é composto por 22 pares de autossomos, os cromossomos não sexuais, convenientemente numerados de 1 a 22. O par 23 é constituído pelos cromossomos sexuais X e
Y: as mulheres têm dois cromossomos X, enquanto os homens possuem um cromossomo
X e um cromossomo Y. As células de um organismo podem ter uma quantidade diferente
de cópias de cada conjunto de cromossomos. Nos seres humanos, os gametas, espermatozóides e óvulos, carregam uma cópia única de um conjunto de 23 cromossomos e por
isso são chamadas de células haplóides. Os gametas, portanto, carregam consigo apenas
uma cópia do genoma. Entretanto, a maior parte das células humanas tem dois conjuntos de cromossomos e por isso são chamadas de células diplóides. Dessa forma, diz-se
3. I DENTIFICAÇÃO GENÉTICA
15
Figura 3.1: A estrutura em forma de dupla hélice do DNA
que a maioria das células com exceção dos gametas e das hemácias possui duas cópias
completas e iguais do genoma (Strachan e Read, 2004).
Os gametas humanos carregam, ambos, 22 autossomos mais um cromossomo sexual,
completando assim o conjunto de 23 cromossomos. A diferença entre eles está no fato
de que, enquanto o óvulo sempre carrega consigo um cromossomo X, o espermatozóide
pode portar um cromossomo X ou um Y. Daí, o fato de serem possíveis apenas 2 combinações de cromossomos sexuais, XX para determinar o sexo feminino e XY para sexo
masculino.
Com exceção de gêmeos univitelinos, que são formados à partir da fecundação de um
único óvulo por um único espermatozóide, e dessa forma compartilham o mesmo DNA,
a probabilidade de dois indivíduos terem o mesmo genoma é praticamente nula. Na formação do zigoto, um cromossomo de cada par é proveniente do pai e outro é proveniente
da mãe. O cromossomo de um determinado par, com o qual o genitor (pai ou mãe) contribuiu, é independente da transmissão dos outros pares de cromossomos. Sendo assim,
3. I DENTIFICAÇÃO GENÉTICA
16
Figura 3.2: Um conjunto de 46 cromossomos
o número de diferentes combinações de conjuntos de cromossomos que um genitor pode
dar a seus descendentes é 223 . Isso equivale a cerca de 8,4 milhões de combinações possíveis. Dessa forma, o número de combinações diferentes de pares de cromossomos que
um filho pode receber de ambos os pais é de 246 , o que equivale a mais de 70 trilhões
de combinações. É importante ressaltar que nesse cálculo, não foi levado em consideração o processo de recombinação cromossômica. A recombinação prevê a troca aleatória
de segmentos entre cromossomos homólogos durante a geração das células germinativas (espermatozóides e óvulos). Esse processo introduz um outro nível de diversidade
genética já que, cada cromossomo transmitido em uma célula germinativa, seria uma
combinação de trechos de DNA maternos e paternos do doador (Strachan e Read, 2004).
3. I DENTIFICAÇÃO GENÉTICA
17
3.1.2 Polimorfismos e marcadores genéticos
Algumas vezes, uma molécula de DNA sofre alterações em sua seqüência como, por
exemplo, inserções e deleções de nucleotídeos, ou substituições de certos nucleotídeos
por outros em determinada posição. Essas alterações, denominadas mutações, são mais
facilmente toleradas pelo organismo quando ocorrem em regiões não codificadoras do
genoma. Regiões não codificadoras são aquelas que não são expressas em proteínas. Essas regiões constituem aproximadamente 90% do genoma humano. Mutações nos genes,
as regiões codificadoras do DNA, geralmente se refletem em variações nas proteínas codificadas por esses genes. Uma mutação pode, portanto, ter conseqüências deletérias,
benéficas ou simplesmente não provocar qualquer tipo de alteração importante. Dependendo do tipo da alteração no código genético, por exemplo, a mutação poderá ser letal
caso afete a produção de enzimas e proteínas essenciais à sobrevivência do organismo.
Muitas vezes essas mutações tornam-se estáveis e são transmitidas aos descendentes.
Como há uma grande variação na quantidade e tipos destas alterações no DNA, fenômeno conhecido como polimorfismo genético, é possível identificar uma pessoa com
base no seu padrão de polimorfismo.
3.2 O processo de identificação genética
A identificação genética é uma técnica usada para distinguir geneticamente entre dois
indivíduos da mesma espécie usando amostras de DNA. Como os indivíduos de uma
mesma espécie compartilham grande parte do DNA, a identificação genética se concentra em explorar as diferenças entre eles. É importante ressaltar que os indivíduos da espécie humana compartilham 99, 9% de seu genoma (Venter et al., 2001). O percentual de
0, 1% de diferença no genoma de dois seres humanos corresponde a cerca de 3 milhões
de pares de bases. Esse percentual é que confere uma identidade genética exclusiva para
3. I DENTIFICAÇÃO GENÉTICA
18
cada indivíduo.
A genética molecular tornou possível estudar as diferenças existentes entre dois indivíduos, através da detecção de polimorfismos em trechos do DNA localizados tanto em
regiões codificadoras quanto em regiões não codificadoras do genoma humano. Essas
diferenças são usadas nas aplicações forenses de tipagem do DNA para a identificação
genética de indivíduos. Como exemplo de casos de identificação genética, pode-se citar
a determinação de parentesco, sendo mais comuns os casos de determinação de paternidade e maternidade, além da exclusão de suspeitos de um crime, identificação de criminosos e a identificação de corpos em desastres e guerras.
Analisando-se uma quantidade suficiente de regiões de DNA que mostrem muita variabilidade entre indivíduos, é possível reduzir a probabilidade de uma semelhança ocasional (inclusão) entre dois indivíduos não relacionados a um nível extremamente baixo.
Na verdade, com a utilização de marcadores genéticos adequados, a probabilidade pode
ser tão baixa que a tipagem do DNA se torna não apenas um método de inclusão ou exclusão, mas um meio de identificação absoluta. As técnicas de tipagem do DNA são fruto
da revolução na biologia molecular que está causando uma explosão de informações sobre genética humana, tendo como ponto culminante o seqüenciamento do genoma humano, o qual foi publicado em 2001 (Venter et al., 2001; McPherson et al., 2001).
Atualmente, a identificação genética se baseia principalmente na técnica da reação
em cadeia da polimerase (em inglês, Polymerase Chain Reaction - PCR) e na utilização de
marcadores genéticos. Um marcador genético é uma seqüência conhecida de DNA. Ele
pode ser uma seqüência de DNA curta, como os polimorfismos de base única (em inglês,
Single Nucleotide Polymorphism - SNP), ou uma seqüência mais longa como os minissatélites. Os minissatélites consistem de um número variável de unidades repetitivas que
variam de 10 a mais de 100 bases de comprimento (Jeffreys et al., 1985). Atualmente, o
3. I DENTIFICAÇÃO GENÉTICA
19
tipo de marcador genético mais utilizado em casos de identificação genética são os microssatélites (ou Short Tandem Repeats - STR) (AABB, 2004).
3.2.1 Microssatélites
Uma importante classe de polimorfismos genéticos é denominada short tandem repeat (STR), ou microssatélites. O microssatélite é um tipo de polimorfismo que ocorre
quando um padrão, cujo tamanho geralmente varia entre 1 e 6 nucleotídeos, é repetido
seqüencialmente (Tautz, 1989; Pena et al., 1995). Por exemplo, a seqüência AG ATn é o
padrão de repetição do loco CSF1PO, o qual pode ser repetido n vezes, com n variando
de 6 a 15 (Margolis-Nunno et al., 2001). Esse loco está localizado em uma região não codificadora do genoma.
Dois conceitos importantes quando se trata sobre marcadores genéticos e perfil genético
são as definições de loco e alelo. Loco é a posição de um gene ou de um marcador genético
em um cromossomo. Por sua vez, alelos são as variações de um gene ou de um marcador
genético. Em um determinado loco de um cromossomo, pode haver então um dentre diversos alelos.
A escolha adequada do grupo de locos usado na identificação genética deve seguir as
seguintes regras (Schlenk et al., 2004):
1. Cada loco escolhido deve ser altamente polimórfico, de modo que a probabilidade
de que duas pessoas selecionadas aleatoriamente tenham o mesmo genótipo seja
inferior a 10%.
2. A fim de evitar ligação genética de diferentes marcadores, os locos devem estar em
diferentes cromossomos ou bastante afastados de outros locos que estejam pre-
3. I DENTIFICAÇÃO GENÉTICA
20
sentes no mesmo cromossomo.
3. Os locos selecionados devem ter uma baixa taxa de mutação.
No processo de identificação genética, o perfil genético de um indivíduo é determinado examinando-se os dois alelos de um número suficiente de locos de microssatélites.
Especificamente no caso dos locos de microssatélites, os alelos representam efetivamente
a quantidade de repetições da seqüência específica para o loco correspondente e são os
mesmos para todas as células do indivíduo. Atualmente, estão publicadas mais de 10 mil
seqüências de microssatélites no genoma humano. A análise de locos de microssatélites
se tornou o método de determinação de perfis genéticos mais utilizado em casos de identificação genética segundo o relatório da Associação Americana de Bancos de Sangue
(AABB, 2004).
Em organismos diplóides, cada indivíduo tem duas cópias de cada cromossomo e,
portanto, duas cópias de cada loco de microssatélite. Uma cópia do microssatélite está
localizada no cromossomo herdado do pai enquanto a outra cópia está no cromossomo
herdado da mãe. Por exemplo, para um dado loco de microssatélite, o pai pode ter um
genótipo com 8 e 10 repetições, consistindo assim nos alelos 8 e 10. Para o mesmo loco,
a mãe pode ter o genótipo com 7 e 10 repetições, portanto, alelos 7 e 10. Para esse loco,
os possíveis genótipos dos filhos desse casal seriam dados pela combinação dos dois alelos paternos e dos dois alelos maternos, resultando nos genótipos (8,7), (8,10), (10,7) e
(10,10). Se o par de alelos tem o mesmo valor, ele é chamado homozigoto. Caso os alelos
sejam diferentes são denominados heterozigotos.
A não ser que o perfil genético dos pais de um indivíduo seja conhecido, não é possível identificar a origem de um determinado alelo. Entretanto, caso se conheça o perfil
genético de pelo menos um dos genitores, é possível detectar qual alelo foi herdado desse
genitor e, por exclusão, o outro alelo obviamente terá sido herdado do outro. Dessa forma,
3. I DENTIFICAÇÃO GENÉTICA
21
o genótipo (8,7) é o mesmo que o genótipo (7,8).
Figura 3.3: Exemplos de alelos para o loco CSF1PO. A primeira seqüência é a representação do alelo 7, e a segunda seqüência representa o alelo 9.
Na Figura 3.3 está um exemplo de dois alelos para o loco CSF1PO. Nessa figura, as
barras posicionadas antes e depois da seqüência repetitiva, representam os primers. Os
primers são seqüências de 15 a 30 nucleotídeos que são usadas para flanquearem as extremidades da região a ser amplificada, marcando o início e o fim da seqüência alvo.
Já que os locos de diferentes indivíduos têm quantidades diferentes de repetições
desses padrões, essas regiões de DNA podem ser usadas para identificar indivíduos. Esses
locos de microssatélites são flanqueados usando seqüências específicas denominadas
primers e então amplificados através de PCR. A reação em cadeia da polimerase (PCR)
é uma técnica poderosa que permite a replicação de um segmento de DNA no tubo de
ensaio. O método faz uso de reagentes químicos para duplicar o DNA em um ciclo de
temperatura. Vários ciclos podem ser automatizados levando a um aumento exponencial do número de moléculas. Com 30 ciclos consegue-se uma amplificação teórica de
um bilhão de vezes. Os fragmentos resultantes do processo de amplificação são então
detectados através de eletroforese em gel de poliacrilamida ou por eletroforese capilar.
Locos de microssatélites analisados individualmente não apresentam alto poder de
discriminação entre indivíduos. No entanto, a análise conjunta desses locos proporciona
resultados altamente satisfatórios. Assim, o poder da análise em locos de microssatélite
está em seu poder estatístico de discriminação. Nos EUA, por exemplo, o FBI (Federal Bureau of Investigation) utiliza um conjunto de 13 locos em um sistema denominado CODIS
3. I DENTIFICAÇÃO GENÉTICA
22
(Combined DNA Index System) para identificação genética. Esses locos foram escolhidos
de forma a estarem localizados em cromossomos diferentes. Dessa forma, ter uma certa
quantidade de repetições de um determinado padrão em um loco não interfere na probabilidade de ter um número diferente de repetições de outro padrão em um outro loco.
Sendo, portanto, eventos que ocorrem independentemente, a regra do produto de probabilidades pode ser aplicada. Assim, se um indivíduo tiver três locos de microssatélites
tipados (por exemplo, vWA, FGA e CSF1PO), a probabilidade de ter esse DNA é a calculada através da multiplicação das probabilidades de ter cada um dos genótipos para cada
loco testado. Ao utilizar-se os 13 locos do sistema CODIS, a probabilidade de que dois
indivíduos quaisquer da população tenham o mesmo perfil genético é menor que 1 em 1
trilhão (Gill, 2005). A utilização de locos de microssatélites permite, portanto, identificar
um indivíduo em uma população muito maior que a atual população mundial, que é estimada em 6,68 bilhões de pessoas.
Figura 3.4: O conjunto de 13 locos do CODIS
3. I DENTIFICAÇÃO GENÉTICA
23
3.2.2 Mutação germinativa
Em ocasiões muito raras, pode acontecer uma mutação germinativa durante a transmissão genética para a prole. Células germinativas são aquelas que dão origem aos gametas (Strachan e Read, 2004). Estima-se que aproximadamente 96% das mutações são
de passo único (Leopoldino e Pena, 2002). Isso significa que, por exemplo, se o pai tiver
genótipo (9,15) para um determinado loco, caso haja uma mutação no alelo 9, o filho
pode receber um alelo 8 (passo único em direção negativa) ou 10 (passo único em direção positiva). Cada mutação ocorrida a um passo a mais em relação ao alelo original
é considerada dez vezes mais rara. Sendo assim, as mutações de dois passos são dez
vezes mais raras que as de passo único, as mutações de três passos são dez vezes mais
raras que as de dois passos e assim por diante (Brenner, C.H., 2008). As taxas de mutação
germinativa paterna são reconhecidamente mais altas que as taxas de mutação materna
(Leopoldino e Pena, 2002; Vicard e Dawid, 2004). Entretanto, não há um consenso sobre
quantas vezes a taxa de mutação paterna é maior que a materna.
3.2.3 Um exemplo simples de identificação genética
O processo de identificação genética envolve três etapas:
1. Obtenção dos perfis genéticos dos indivíduos envolvidos no caso pela tipagem dos
marcadores genéticos, através da análise das amostras de DNA em laboratório.
2. Comparação dos perfis genéticos dos envolvidos verificando a inclusão e exclusão
para cada marcador, nos diversos casos de identificação genética.
3. Por fim, no caso de não haver nenhuma exclusão, prover a análise estatística com
base na herança mendeliana e nas freqüências alélicas da população para cada loco,
de modo a determinar qual a probabilidade de que haja outro perfil genético semelhante na população.
3. I DENTIFICAÇÃO GENÉTICA
24
O resultado da obtenção dos perfis genéticos é uma tabela contendo os genótipos de
cada indivíduo para os diversos locos testados. A Tabela 3.1 mostra um exemplo de uma
tabela com quatro locos tipados.
Tabela 3.1: Exemplo de perfis genéticos
Indivíduo
Mãe
Filho
Pai
Locos de microssatélites
D01S1612 D02S1780 D03S1358
14
16
9
12
14
17
8
16
9
12
17
19
8
13
10
12
14
19
CSF1PO
10 13
10 10
8
9
Com os locos de microssatélites tipados, a próxima etapa consiste em verificar a inclusão ou exclusão da paternidade para cada loco. A inclusão ocorre quando o suposto
pai possui perfil genético compatível com o perfil do filho. A exclusão ocorre caso não
haja a possibilidade de que o suposto pai tenha contribuído com seus alelos para o perfil genético do filho. Por exemplo, na Tabela 3.1, para o loco D01S1612, o filho tem o
genótipo (8,16), a mãe (14,16) e o suposto pai (8,13). Comparando-se os genótipos da
mãe e do filho, verifica-se que o filho herdou o alelo 16 de sua mãe. Dessa forma, o alelo
paterno obrigatório (APO) para o loco D01S1612 é o 8. Assim, deve-se verificar se o suposto pai possui esse alelo em seu genótipo, o que ocorre nesse exemplo. Sendo assim,
há uma inclusão.
Já no caso do loco D02S1780, o filho e a mãe possuem o mesmo genótipo (9,12). Nesse
caso, não é possível determinar quel é o alelo paterno obrigatório. Então, deve-se verificar
se há a possibilidade de o suposto pai ter contribuído com um ou outro dos alelos do filho.
Nesse exemplo, é possível que o pai tenha contribuído com o alelo 12. Entretanto, isso é
ambíguo e não determina uma inclusão ou exclusão. Pois, se a mãe tiver contribuído com
o alelo 12, o verdadeiro pai deveria contribuir com o alelo 9, o que não seria possível nesse
exemplo, já que o suposto pai tem genótipo (10,12).
3. I DENTIFICAÇÃO GENÉTICA
25
Um exemplo de exclusão é dado pelo alelo CSF1PO. Analisando-se os genótipos do
filho (10,10) e de sua mãe (10,13), está bastante claro que ele herdou o alelo 10 de sua
mãe e, por conseqüência, o outro alelo 10 foi herdado de seu pai biológico. Verificando
o genótipo do suposto pai (8,9), verifica-se que o mesmo implicará em uma exclusão, já
que ele não poderia ter contribuído com um alelo 10 para o filho. Entretanto, há de se
levar em consideração, mesmo no caso de uma ou até duas exclusões, a possibilidade de
mutação genética, o que será visto posteriormente.
Exemplos dos cálculos dos índices de paternidade serão vistos detalhadamente no
Capítulo 6, o qual apresenta dois casos simples de paternidade. Em um deles não há
nenhuma exclusão. No outro, entretanto, o exemplo apresenta uma exclusão e a possibilidade de mutação genética é considerada no cálculo do índice de paternidade.
C APÍTULO
R EDES B AYESIANAS
4
4.1 Introdução
Ao se analisar um caso de determinação de vínculo genético, o que se deseja é obter
um de dois resultados possíveis: a exclusão do vínculo ou sua confirmação. No caso
de testes de paternidade, enquanto as exclusões são determinísticas e logicamente irrefutáveis, a determinação da paternidade é um processo essencialmente probabilístico.
Os cálculos são baseados em duas hipóteses mutuamente excludentes. A hipótese H sp
é que o suposto pai é na verdade o pai biológico. A segunda hipótese, Hi q , é a de que
um indivíduo qualquer tomado aleatoriamente da população seja o verdadeiro pai. O
método utilizado em testes de determinação de paternidade consiste em calcular a razão
entre a verossimilhança de se obter os resultados observados na hipótese H sp e a verossimilhança de se obter tais resultados na hipótese Hi q .
Dependendo da relação genética entre as pessoas testadas, ou da ausência de indivíduos importantes para a análise do paternidade, o raciocínio bayesiano utilizado para
se calcular as verossimilhanças pode ficar sinuoso e a lógica difícil de ser seguida (Pena,
2006). Entretanto, independente da complexidade do caso, as verossimilhanças podem
ser calculadas com alta confiabilidade pelas chamadas redes bayesianas. As próximas
seções descreverão essas estruturas e seus principais conceitos.
26
4. R EDES B AYESIANAS
27
4.2 Redes bayesianas
As redes probabilísticas têm se tornado um paradigma cada vez mais popular para o
raciocínio sob incerteza, obtendo sucesso ao lidar com tarefas como diagnósticos, previsões, tomadas de decisão e inferência mesmo com ausência de dados. Essas redes são
estruturas gráficas que representam o conhecimento com base em vários tipos de teorias. Quando são formalizadas com base na teoria da probabilidade, são chamadas redes
bayesianas ou redes causais (Pearl, 1988).
O primeiro pesquisador a idealizar a utilização da representação gráfica das informações probabilísticas foi o geneticista Sewall Wrigth. Entretanto, ele foi muito criticado
e seu trabalho só foi reconhecido pela comunidade estatística a partir da década de 50
(Pearl, 1988).
Redes bayesianas são modelos gráficos que representam interações de causalidade
entre um conjunto de variáveis de interesse. Formalmente, as redes bayesianas são grafos
direcionados acíclicos nos quais os nós representam variáveis aleatórias com medidas de
incerteza associadas. Os arcos direcionados que conectam os nós significam a existência
de uma influência causal direta entre as variáveis conectadas, e a força destas influências
é quantificada por probabilidades condicionais (Pearl, 1988).
Uma rede bayesiana possui dois componentes distintos, um qualitativo e outro quantitativo. O componente qualitativo representa a estrutura da rede através de grafos. Os
grafos têm demonstrado ser uma estrutura muito intuitiva para a representação da dependência e independência entre as variáveis (Pearl, 1988). Qualquer par de nós desse
grafo que não estejam conectados, indicam independência condicional entre as variáveis
representadadas por esses nós. Dessa forma, as redes bayesianas conseguem representar
4. R EDES B AYESIANAS
28
satisfatoriamente tanto um conjunto de dependências quanto de independências associadas às variáveis representadas na rede. O primeiro passo ao criar uma rede bayesiana
é, portanto, a construção da estrutura qualitativa do modelo através da linguagem gráfica fornecida pelos grafos. Esse passo consiste em identificar as variáveis e relações entre
elas. O componente quantitativo consiste das tabelas de probabilidades condicionais e
evidências que serão utilizados para a avaliação da rede.
As redes bayesianas têm a capacidade de prover 3 tipos de raciocínio diferentes: causal,
diagnóstico e inter-causal. O raciocínio causal segue a direção dos arcos direcionados que
ligam as variáveis do modelo (Figura 4.1). Por exemplo, se uma pessoa está gripada, há
uma grande probabilidade de que ela tenha febre e esteja com o nariz escorrendo. O
raciocínio diagnóstico segue na direção contrária à dos arcos direcionados. Nesse caso, a
observação de que uma pessoa está com o nariz escorrendo fornece evidência de que o
diagnóstico é que ela esteja gripada ou tendo uma crise alérgica.
Figura 4.1: Os tipos de raciocínio providos por uma rede bayesiana: causal, diagnóstico e
inter-causal
A propriedade, porém, que faz com que a inferência em uma rede bayesiana esteja
acima do raciocínio automático fornecido por outros paradigmas, é a sua capacidade de
fazer raciocínio inter-causal. No raciocínio inter-causal, a obtenção de evidências que suportem apenas uma única hipótese (ou um subconjunto de hipóteses) leva automaticamente à diminuição na crença em hipóteses concorrentes, não suportadas pela evidência. Na Figura 4.1, por exemplo, existem duas hipóteses para uma pessoa estar com o
4. R EDES B AYESIANAS
29
nariz escorrendo. A observação de febre, entretanto, fornece uma forte evidência de que
a causa do problema é uma gripe, enquanto a crença em que a causa do problema seja
alergia diminui substancialmente. Essa habilidade das redes bayesianas de prover inferência inter-causal é a contribuição chave de seu poder de raciocínio.
Uma rede bayesiana representa uma distribuição de probabilidade das variáveis contidas na rede. Para se verificar se um grafo direcionado e acíclico é uma rede bayesiana,
existe uma condição necessária e suficiente: cada variável X do grafo deve ser condicionalmente independente de todos os nós que não são seus descendentes exceto seus
pais (πi ) (Pearl, 1988). Baseados nesta condição, pode-se formular um procedimento
recursivo para a construção de uma rede bayesiana. Dada uma distribuição de probabilidade conjunta P (x 1 , · · · , x n ) e uma determinada ordem destas variáveis dada por d ,
inicia-se a construção do grafo escolhendo o nó raiz (X 1 ) e atribuindo a ele a probabilidade marginal P (x 1 ). Em seguida, acrescenta-se mais um nó (X 2 ) no grafo. Caso X 2 seja
dependente de X 1 , então traça-se um arco direcionado que vai de X 1 a X 2 e quantifica-se
este arco com P (x 2 | x 1 ), caso contrário, mantém-se X 1 e X 2 desconectados e atribui-se
uma probabilidade prévia (à priori) P (x 2 ) a X 2 . Ao se atingir o i-ésimo nó (X i ), traça-se
os arcos de X i a todos os seus pais (πi ) e quantifica-se este grupo de arcos com P (x i | πi )
e assim obtém-se a rede bayesiana que representa todas as dependências que são conseqüências da definição dos pais das variáveis (Pearl, 1988).
Se o processo for observado na ordem inversa, percebe-se que as probabilidades condicionais P (x i | πi ) dos arcos do grafo, contém todas as informações necessárias para a
reconstrução da função de distribuição original. Isto se faz através da regra da cadeia,
utilizando-se a ordem d das variáveis (Pearl, 1988).
4. R EDES B AYESIANAS
30
P (x 1 , · · · , x n ) = P (x n | x n−1 , · · · , x 1 ) · · · P (x 2 | x 1 )P (x 1 )
=
Y
P (x i | πi )
(4.1)
(4.2)
i
A rede bayesiana apresentada na Figura 4.2 representa a seguinte distribuição:
P (x 1 , x 2 , · · · , x 6 ) = P (x 6 | x 5 )P (x 5 | x 2 , x 3 )P (x 4 | x 1 , x 2 )P (x 3 | x1)P (x 2 | x 1 )P (x 1 )
(4.3)
Assim, pode-se observar como as relações de independência podem reduzir o esforço
no cálculo da distribuição de probabilidade conjunta.
Figura 4.2: Rede bayesiana
4.2.1 Probabilidade bayesiana
A interpretação da probabilidade como o grau de certeza de um determinado evento
é chamada bayesiana. Os métodos bayesianos possibilitam representar numericamente
o grau de certeza sobre condições de incerteza, e manipulá-lo de acordo com as regras
definidas na teoria de probabilidade. A teoria bayesiana está fundamentada na teoria da
probabilidade sendo que a diferença básica está no enfoque não freqüentista adotado
pelo teorema de Bayes (Heckerman, 1995). Na teoria da probabilidade bayesiana, dados
4. R EDES B AYESIANAS
31
dois eventos A e B , é possível condicionar a ocorrência do evento A à ocorrência de B .
Essa probabilidade condicional é dada por:
P (A | B ) =
P (A ∩ B )
, P (B ) > 0
P (B )
(4.4)
A teoria da probabilidade bayesiana possui propriedades análogas às da probabilidade clássica, são elas:
• 0 ≤ P (A | B ) ≤ 1
• Se A ∩ B = ; então P (A | B ) = 0
• Se B ⊂ A então P (A | B ) = 1
• Se A é um conjunto de eventos mutuamente exclusivos a 1 , a 2 , · · · , a n , então:
Ã
P (A | B ) = P
n
[
!
ak | B
(4.5)
k=1
=
n
X
P (a k | B )
k=1
Quando B for um conjunto de eventos mutuamente exclusivos, onde um e somente
um dos eventos b 1 , b 2 , · · · , b n pode ocorrer e A ⊂ B , então pode-se calcular P (A) em função
de B :
P (A) =
n
X
P (A ∩ b k )
(4.6)
k=1
P (A ∩ b k ) = P (A | b k )P (b k )
P (A) =
n
X
P (A | b k )P (b k )
k=1
Dois eventos A e B são independentes se, a ocorrência de A não é informativa para a
ocorrência de B e vice-versa. Dado que A é independente de B então:
4. R EDES B AYESIANAS
32
P (A | B ) = P (A)
(4.7)
pois
P (A | B ) =
P (A)P (B )
= P (A)
P (B )
(4.8)
e a probabilidade conjunta de A e B é dada por:
P (A, B ) = P (A | B )P (B )
(4.9)
Como A é independente de B , então:
P (A, B ) = P (A)P (B )
(4.10)
que, portanto, define a relação de independência entre dois eventos. Caso dois eventos não satisfaçam a condição acima, não são independentes.
Supondo que as relações de dependência entre as variáveis x 1 , x 2 , · · · , x n de um problema sejam conhecidas, para calcular a probabilidade conjunta global sobre todas as
variáveis desse problema utiliza-se a regra da cadeia:
P (x 1 , x 2 , · · · , x n ) = P (x n | x n−1 , · · · , x 1 ) · · · P (x 2 | x 1 )P (x 1 )
P (x 1 , x 2 , · · · , x n ) =
n
Y
(4.11)
P (x i | Πi )
i =1
onde Πi são apenas as variáveis das quais X i é dependente.
Além dos conceitos clássicos a probabilidade bayesiana possui o princípio básico dado
pelo teorema de Bayes:
4. R EDES B AYESIANAS
33
P (H | e) =
P (e | H )P (H )
P (e)
(4.12)
onde "H " é uma hipótese, "e" a evidência e P (e) é usado para normalizar a expressão,
que vem de:
P (A | B ) =
P (B | A) =
P (A ∩ B )
P (B )
P (B ∩ A)
P (A)
(4.13)
(4.14)
e é utilizado em um sistema de conhecimento bayesiano para atualizar uma base de
conhecimento, dado o surgimento de uma nova evidência, ou seja, para determinar o
chamado conhecimento a posteriori.
A probabilidade bayesiana, através do teorema de Bayes possibilita que, na ausência de informações de freqüência das variáveis, possa-se obter a probabilidade do evento
através do conhecimento de um especialista humano. Neste caso a probabilidade depende do conhecimento da pessoa que irá analisar o problema e informar a probabilidade associada a cada evento (Heckerman, 1995).
C APÍTULO
M ETODOLOGIA
5
5.1 Amostras
Nesse trabalho foram realizadas diversas simulações de casos complexos de determinação de vínculo genético utilizando tanto dados de casos fictícios quanto dados de casos
reais. Os dados reais foram obtidos anonimamente junto ao GENE - Núcleo de Genética
Médica. Cabe ressaltar que foi mantido o princípio de confidencialidade da identidade de
todos os indivíduos envolvidos nos vários casos de determinação de paternidade, maternidade e outros tipos de parentesco.
Além dos casos reais, foram criados casos fictícios para testar situações como troca de
bebês em berçários, identificação de corpos no qual a identificação pelos métodos tradicionais não foi possível, e vários outros. O banco de dados de freqüências alélicas e taxas
de mutações também foram obtidos através do GENE.
34
5. M ETODOLOGIA
35
5.2 Software e biblioteca para modelagem de redes
bayesianas
O GeNIe1 (Graphical Network Interface) é um software desenvolvido pelo Decision Systems Laboratory
2
da Universidade de Pittsburgh. Ele é um sofisticado ambiente de de-
senvolvimento de modelos probabilísticos que permite a criação de modelos teóricos de
decisão através de uma intuitiva interface gráfica. Essa característica o torna uma ferramenta muito útil para a modelagem de redes bayesianas em qualquer campo de aplicação, passando por áreas tão diversificadas como economia, medicina e computação.
Figura 5.1: Tela principal do GeNIe
Entretanto, o GeNIe, cuja tela principal pode ser vista na Figura 5.1, é apenas uma interface gráfica para uma máquina de inferência bayesiana denominada SMILE (Structural
Modeling, Inference, and Learning Engine). A SMILE é uma biblioteca de classes escritas
na linguagem de programação C++ que implementa modelos probabilísticos e de decisão
tais como as redes bayesianas e os diagramas de influência. As classes definidas na SMILE
1
2
http://genie.sis.pitt.edu/
http://dsl.sis.pitt.edu/
5. M ETODOLOGIA
36
API (Application Programming Interface) permitem criar, salvar, editar e carregar modelos gráficos que podem ser usados no raciocínio probabilístico e na tomada de decisões
mesmo na presença de incerteza.
No software implementado nesse projeto foi utilizada a SMILE.NET, uma versão da
SMILE embutida em uma DLL (Dynamic link library). A SMILE.NET traz encapsuladas as
principais classes e métodos da SMILE API. A SMILE.NET foi criada para a plataforma Microsoft.NET usando o Microsoft Visual C++, mas pode ser utilizada com qualquer outra
linguagem de programação que seja suportada pela plataforma Microsoft.NET.
5.3 O software implementado
Para testar e demonstrar os algoritmos propostos para o processo de identificação
genética através das redes bayesianas, foi desenvolvido o software P ED E XPERT (Pedigree
Expert). O P ED E XPERT automatiza todo o trabalho de criação e manipulação das redes
bayesianas, implementando algoritmos que têm a função de converter os heredogramas
e o conjunto de informações necessárias (genótipos dos indivíduos, freqüências alélicas e
taxas de mutação) em redes bayesianas válidas que possam ser executadas pelo SMILE. O
P ED E XPERT foi implementado sobre a plataforma Microsoft.NET utilizando o ambiente
de desenvolvimento Borland Delphi 2006.NET.
Um dos objetivos que esteve em foco durante toda a fase de projeto e desenvolvimento do P ED E XPERT foi o de oferecer ao usuário um software que pudesse ser facilmente
manipulado e que proporcionasse eficiência e flexibilidade mesmo na especificação dos
casos mais complexos. Considerando que o grupo de possíveis usuários para o qual esse
tipo de aplicação é direcionada é composto, em sua grande maioria, por biólogos, médicos e peritos forenses, uma das decisões tomadas é que a especificação dos casos de determinação de vínculo genético fosse feita de uma forma com a qual os possíveis usuários
5. M ETODOLOGIA
37
já estivessem familiarizados. Sendo assim, em se tratando de especificação de estruturas
familiares, um modelo já consagrado e conhecido pelo público em potencial do P ED E XPERT são os heredogramas. Portanto, outras formas de modelagem que envolvessem o
aprendizado de linguagens ou mesmo de novos modelos gráficos para especificação dos
casos de identificação genética como as propostas de trabalhos recentes (Nakano, 2006;
Cowell, 2003) foram definitivamente descartadas.
Outro objetivo buscado constantemente foi o de liberar o usuário da execução de todas as tarefas repetitivas propostas em outras abordagens (Dawid et al., 2002). Acreditase que esses objetivos foram alcançados, pois o software oferece uma interface simples e
amigável, sendo ao mesmo tempo robusto e flexível, eliminando grande parte das possíveis causas de erros lógicos e operacionais, e permitindo a modelagem de uma ampla
faixa de problemas de identificação genética.
5.4 O banco de dados do P ED E XPERT
Uma das características do P ED E XPERT é a persistência de dados, ou seja, a capacidade de armazenar seus dados para futuras consultas, alterações e, até mesmo, exclusões.
Para armazenar os dados, o P ED E XPERT possui um banco de dados relacional. As seções
a seguir descrevem o modelo de dados e a implementação do banco de dados utilizado.
5.4.1 Representação dos dados
O objeto básico que um modelo entidade-relacionamento representa é a chamada
entidade, que pode ser entendida como algo (um objeto, pessoa, empresa, experimento,
etc) do qual se deseja armazenar dados. Na Figura 5.2 as entidades estão representadas
através de retângulos com o nome de cada entidade no topo de seu respectivo retângulo.
5. M ETODOLOGIA
38
Figura 5.2: Diagrama de tabelas do banco de dados do P ED E XPERT
Cada entidade possui atributos que são os dados que a descrevem. Ainda na Figura
5.2, os atributos são identificados por um losango azul. Dois tipos de atributos, entretanto, são fundamentais na definição de uma entidade e são denominados chave primária
e chave estrangeira. Os atributos que compõem a chave primária de uma entidade são
identificados pela figura de uma chave à esquerda de seus nomes, já os atributos que
compões a chave estrangeira são identificados por um losango rosa.
5. M ETODOLOGIA
39
A chave primária é um atributo, ou um conjunto de atributos, no qual seu valor único
pode ser usado para identificar os dados de uma entidade de forma exclusiva. Por exemplo, os atributos LocusSetID e LocusID compõem a chave primária da entidade Locus. Isso
significa que na entidade Locus nunca poderão existir dois registros com o mesmo valor
para os campos da chave primária. Por exemplo, não podem haver dois registros com o
campo LocusID igual a C SF 1PO e o valor 1 para o campo LocusSetID. Por outro lado, podem haver vários registros com o mesmo LocusID, desde que tenham valores diferentes
para o campo LocusSetID.
A chave estrangeira é um atributo que se relaciona com a chave primária de outra
entidade. Um atributo criado como uma chave estrangeira possui uma restrição denominada integridade referencial, a qual determina que tal atributo seja preenchido apenas
com valores pertencentes à chave primária da entidade à qual se refere. Por exemplo, o
atributo LocusSetID só pode ser preenchido com um valor já existente na entidade LocusSet.
As entidades em um modelo entidade-relacionamento podem apresentar relacionamentos entre si. No modelo apresentado, o relacionamento entre entidades é representado por uma linha com um losango ao centro. Esse losango pode ser branco, o que significa que as entidades têm uma cardinalidade entre si de 1 : 1. Ou seja, uma instância de
uma entidade está relacionada no máximo a uma instância da outra entidade. Não há no
modelo de dados do P ED E XPERT nenhum relacionamento entre entidades com cardinalidade 1 : 1.
Caso esse losango seja preto e branco, a cardinalidade representada é de 1 : N . Isso
significa que uma instância da entidade apontada pelo lado branco do losango está associada a várias instâncias da entidade apontada pelo lado preto do losango. No modelo
de dados do P ED E XPERT há vários exemplos de cardinalidade 1 : N . Tomando novamente
5. M ETODOLOGIA
40
como exemplo as entidades LocusSet e Locus, verifica-se que uma instância da entidade
LocusSet pode estar relacionada a várias instâncias da entidade Locus. Por outro lado,
uma instância da entidade Locus só pode estar associada a uma instância da entidade
LocusSet. Em termos práticos, isso significa que em conjunto de locos representado pela
entidade LocusSet podem haver diversas instâncias da entidade Locus, cada uma com um
LocusID diferente. Entretanto, uma instância da entidade Locus só pode estar associada
a uma instância da entidade LocusSet. Isso significa que um determinado loco pode estar
presente apenas uma vez em um conjunto de locos. Nada impede, porém, que hajam
diversas instâncias da entidade Locus com o mesmo valor para o campo LocusID, desde
estejam relacionadas a diferentes instâncias da entidade LocusSet, ou seja, em diferentes
conjuntos de locos.
Existe ainda a possibilidade de que uma entidade não tenha relacionamento com nenhuma outra. Um exemplo disso é a entidade Param que não se relaciona com nenhuma
outra entidade no modelo de dados do P ED E XPERT.
5.4.2 A implementação do banco de dados
Na prática, um modelo entidade-relacionamento é implementado na forma de um
banco de dados relacional através de um sistema gerenciador de bancos de dados (SGBD).
Um banco de dados relacional é uma coleção estruturada de dados (Elmasri e Navathe,
2000; Silberschatz et al., 1997). Quando implementadas em um banco de dados, as entidades passam a ser denominadas tabelas. Para armazenar os dados necessários para o
processo de identificação genética, o P ED E XPERT possui um banco de dados relacional
composto por oito tabelas.
O modelo relacional se baseia no princípio de que todos os dados são armazenados
em tabelas e que essas tabelas possam estar relacionadas. Em termos de bancos de da-
5. M ETODOLOGIA
41
Figura 5.3: Estrutura da tabela Individual: seus campos e alguns registros
dos, uma tabela é um objeto estruturado na forma de colunas e linhas. Nesse modelo, as
colunas representam os campos, ou atributos, de uma tabela. Por exemplo, os campos
PedID e IndividualID da tabela Individual descrevem, respectivamente, o código de um
caso de determinação de vínculo genético e a identificação de cada indivíduo. Por sua
vez, cada linha de uma tabela, também denominada registro, reflete os dados armazenados na tabela. A Figura 5.3 traz como exemplo a visualização de parte da tabela Individual
através do programa SQL Explorer. Esse programa faz parte dos pacotes de desenvolvimento Borland Delphi 5.0 e Borland C++ Builder 5.0. A estrutura da tabela Individual e
de todas as outras tabelas do banco de dados do P ED E XPERT podem ser visualizadas na
Figura 5.2.
Na implementação do banco de dados do P ED E XPERT, optou-se por utilizar o Paradox, um sistema gerenciador de banco de dados simples mas bastante eficiente e adequado para aplicações de pequeno porte, em termos de quantidade de dados armazenados, como o P ED E XPERT. No Paradox o gerenciamento do banco de dados pode ser feito
utilizando-se os programas Database Desktop (Figura 5.4) e o SQL Explorer (Figura 5.5), os
quais permitem criar e gerenciar a estrutura do banco de dados (criação e manipulação
5. M ETODOLOGIA
42
Figura 5.4: Database Desktop
de estruturas das tabelas, criação e alteração de índices, etc) como também manipular os
dados dessas tabelas através de operações de inserção, alteração e exclusão de registros
usando a linguagem SQL (sigla em inglês para Structured Query Language) que é a linguagem padrão para consultas em bancos de dados.
Figura 5.5: SQL Explorer
Uma descrição detalhada de cada tabela do banco de dados do P ED E XPERT pode ser
vista no Anexo B.
5. M ETODOLOGIA
43
5.5 O processo de inferência genética no P ED E XPERT
Nessa seção, serão descritos detalhadamente os algoritmos implementados no P ED E XPERT para realizar a inferência nos casos complexos de determinação de vínculo genético
entre indivíduos.
5.5.1 Trabalhos relacionados
O trabalho de Dawid et al. (2002) sobre inferência em casos de identificação genética
utilizando redes bayesianas é bastante inspirador. Entretanto, ele afirma que a modelagem de redes bayesianas para esse casos é, de certa maneira, uma forma de arte. Seu
artigo sugere soluções para diversos problemas complexos de identificação genética sem,
no entanto, formalizar algoritmos para a construção das redes bayesianas. As soluções
propostas por ele, possibilitam o uso de qualquer pacote de software para redes bayesianas
tais como o GeNIe, H UGIN e XB AIES para analisar os problemas de forma eficiente e acurada. Entretanto, alguns problemas surgem quando esses programas são utilizados. A
análise de casos complexos de identificação genética nesses programas pode consumir
muito tempo do usuário e é passível de erros, tanto na modelagem quanto no preenchimento das diversas tabelas de probabilidades condicionais necessárias na especificação
das redes bayesianas (Cowell, 2003).
O que se segue, são formalizações para a modelagem das redes bayesianas a partir
da representação do heredograma de um caso complexo de determinação de vínculo
genético. Também serão apresentadas propostas de como utilizar os dados dos genótipos
dos indivíduos, as freqüências alélicas da população e as taxas de mutações dos locos para
definir as evidências e preencher as tabelas de probabilidades condicionais do modelo.
As formalizações serão dadas na forma de algoritmos que podem ser usados tanto manualmente, usando qualquer software capaz de manipular redes bayesianas para calcular
as probabilidades desejadas, assim como podem também ser implementados através de
uma linguagem de programação em um ambiente de desenvolvimento adequado.
5. M ETODOLOGIA
44
5.5.2 Os algoritmos usados no P ED E XPERT
Conforme foi visto no Capítulo 3, uma rede bayesiana é uma complexa estrutura de
representação e cálculo de probabilidades representada através de um grafo direcionado
acíclico. Nesse modelo, as variáveis são representadas por nós, e os arcos direcionados que ligam esses nós descrevem as relações de causalidade probabilística entre eles.
A estrutura global de probabilidade é completamente determinada pela especificação
de tabelas de probabilidades condicionais, para cada variável, dados seus nós "pais" no
grafo. Com base nas propriedades probabilísticas condicionais incluídas no grafo, o complexo modelo global é decomposto em simples submodelos localizados, provendo algoritmos computacionais rápidos e eficientes para o cálculo exato das probabilidades
condicionais e marginais (Dawid, 1992; Spiegelhater et al., 1993). Os cálculos são efetuados pela propagação das probabilidades condicionais e evidências pela rede. Esse processo envolve a organização eficiente de cálculos simples afetando um grupo local de
variáveis a cada vez, mas propagando esses cálculos por toda a rede para produzir as respostas globais corretas.
Modelar a rede bayesiana através de uma representação adequada é fundamental já
que a eficiência dos algoritmos é altamente sensível à topologia da estrutura gráfica. No
modelo que será apresentado, os nós da redes foram classificados em 6 tipos, numerados de 0 a 5, conforme a utilização interna feita pelo P ED E XPERT. Essa classificação em 6
tipos diferentes de nós reflete as diferentes maneiras como são preenchidas as tabelas de
probabilidades condicionais associadas a cada tipo de nó. Para facilitar a apresentação
desses nós, eles estão coloridos conforme a Tabela 5.1. A Figura 5.6 apresenta uma rede
bayesiana na qual os 6 tipos de nós são utilizados.
Com base no modelo citado em (Dawid et al., 2002), para aumentar a eficiência dos
cálculos e manter a representação da forma mais clara possível, o genótipo de cada indivíduo é representado na rede bayesiana por dois nós que reproduzem a herança paterna
5. M ETODOLOGIA
45
Tabela 5.1: Tabela de códigos e cores dos nós no P ED E XPERT
Código interno do nó
0
1
2
3
4
5
Cor
bege
verde claro
azul claro
amarelo
rosa
roxo
e materna. Em outro modelo proposto em (Thompson, 2000), existem nós que representam os genótipos, mas não reproduzindo a herança materna e paterna. A informação
sobre se um alelo foi herdado do pai ou da mãe é representado através de nós adicionais
que representam o processo de meiose ou segregação. O primeiro modelo é mais claro
e transparente, por isso esse trabalho gera redes bayesianas baseadas nele com algumas
poucas modificações.
Figura 5.6: Tipos de nós em uma rede bayesiana para avaliação de casos complexos de
determinação de vínculo genético
A nomenclatura dos nós, com exceção do nó teste, é formada pelo código de identificação do indivíduo seguido de um travessão e de um código que representa a função do
nó. Os nós com nomes terminados em _mg (maternal gene) representam a herança materna de um indivíduo. Já os nós cujos nomes terminam em _pg (paternal gene) representam a herança paterna. Por fim, os nós com nomes terminados em _gtype representam o
genótipo do indivíduo.
5. M ETODOLOGIA
46
O nó teste, denominado tf = pf?, representa o cálculo da razão de verossimilhança que
está sendo feito com base nas duas hipóteses, as quais determinarão a probabilidade de
que o verdadeiro pai seja o suposto pai (tf = true father e pf = putative father).
Na rede bayesiana são representados apenas os indivíduos que têm seu perfil genético
disponível ou aqueles que, apesar de não terem o perfil disponível, são necessários para
relacionar indivíduos que o tenham. Pode-se citar como exemplo um caso de paternidade
onde o suposto pai é falecido, e o teste é realizado através de seus irmãos. Nesse caso, os
possíveis avós, também falecidos, apesar de não terem perfil genético disponível, são de
importância fundamental, pois é através deles que o suposto pai se relaciona geneticamente com seus irmãos.
Os nós do tipo 0 representam os indivíduos que não possuem genótipo disponível e
também não têm seus pais representados no heredograma. Os nós iPai_mg e iPai_pg da
rede bayesiana da Figura 5.6 são exemplos de nós do tipo 0. Esse tipo de nó será utilizado
sempre que o indivíduo não tiver genótipo disponível mas tiver de ser representado na
estrutura da rede para fazer a ligação entre seus filhos. Os n estados de sua tabela de
probabilidade condicional, os quais correspondem aos alelos para o loco que está sendo
avaliado, são preenchidos com a respectiva freqüência dos alelos do loco testado na população.
O fato de um indivíduo ter seu perfil genético disponível elimina a necessidade de representar na rede bayesiana os seus pais, mesmo que estejam vivos, a não ser que hajam
descendentes de seus pais como, por exemplo, filhos e netos (no caso, irmãos e sobrinhos
do indivíduo em questão) sendo representados. Nesse caso, faz-se necessário representar
os pais para fazer a ligação dos nós que representam o indivíduo aos nós que representam
os outros indivíduos com os quais ele mantém uma relação do ponto de vista genético.
5. M ETODOLOGIA
47
Os nós do tipo 1 representam na rede bayesiana aqueles indivíduos que têm seu perfil genético disponível mas não têm seus pais representados no heredograma. Os nós
ii84NB31_mg e ii84NB31_pg da rede bayesiana da Figura 5.6 são exemplos de nós do tipo
1. Esses nós tem como função propagar a evidência determinada a partir de seus genótipos. Os n estados de sua tabela de probabilidade condicional, os quais correspondem
aos n alelos do loco que está sendo avaliado, podem ser preenchidos com qualquer valor,
desde que o somatório dos estados seja igual a 1 (ou 100%) e que o valor de cada estado
seja diferente de zero. Essa característica se deve ao fato do nó _gtype associado ser na
verdade um nó determinístico, que determinará quais alelos seus nós pais propagarão
pela rede. Uma vez que nos nós _gtype, como será visto posteriormente, recebem os valores 0 ou 1, as probabilidades a posteriori dos nós do tipo 1 não dependem dos valores
de suas entradas.
Os indivíduos que, independentemente de terem ou não perfil genético disponível,
têm seus pais presentes no heredograma, são representados na rede bayesiana por nós
do tipo 2 como, por exemplo, os nós ii84LH37_mg e ii84LH37_pg. Diferente dos nós dos
tipos 0 e 1, cada um dos dois nós, _mg e _pg, que representam o indivíduo, estão ligados aos nós _mg e _pg de seus pais. Por exemplo, o nó ii84LH37_mg está ligado aos dois
nós que representam sua mãe, respectivamente, ii84AR39_mg e ii84AR39_pg, representando que o indivíduo ii84LH37 está herdando um dos dois alelos de sua mãe, ii84AR39.
O mesmo acontece com o nó ii84LH37_pg, o qual está ligado aos nós iPai_mg e iPai_pg
para representar que o indivíduo está herdando um dos dois alelos de seu pai. Esses nós
têm, portanto, a responsabilidade de modelar a herança mendeliana com relação aos seus
pais. As tabelas de probabilidades condicionais associadas a esses nós têm n estados e n 3
entradas, já que cada um dos estados desses nós está condicionado aos n estados de cada
um dos nós pais. O valor n refere-se à quantidade de alelos do loco que está sendo testado, e os valores desses estados consistem apenas nos valores 0, 0, 5 e 1.
5. M ETODOLOGIA
48
A Figura 5.7 apresenta uma parte da tabela de probabilidade condicional associada
ao nó ii84LH37_mg. Essa tabela tem ao todo 16 estados e 4096 entradas. Ela representa
a probabilidade que um determinado alelo ocorra no indivíduo ii84LH37, condicionado
aos possíveis alelos transmitidos por sua mãe, ii84AR39. Por exemplo, se o alelo paterno
de sua mãe, representado pelo nó ii84AR39_pg, for a0 e o alelo materno, representado
pelo nó ii84AR39_mg, também for a0, a probabilidade de que o indivíduo ii84LH37 receba o alelo a0 de sua mãe é 100%, representado na tabela pelo valor 1. Em um outro
exemplo, se o alelo paterno da mãe for a0 e o alelo materno for a5, a probabilidade de
que ii84LH37 receba qualquer um dos alelos, a0 ou a5 é de 50%, e assim essas entradas
são preenchidas com o valor 0, 5. Qualquer outro estado que não seja os que representam
a0 e a5 serão preenchidos com zero. Percebe-se, portanto, que todos os outros estados
que não têm possibilidade de ocorrer são preenchidos com o valor zero. Por exemplo, se
o alelo paterno da mãe é a0 e o alelo materno é a13, a probabilidade de receber qualquer
outro alelo é igual a zero. É importante ressaltar que nesse modelo, todos os alelos são
representados, já que uma única rede será criada para avaliar todos os locos e seus diferentes conjuntos de alelos.
Figura 5.7: Exemplo da tabela de probabilidade condicional associada a um nó do tipo 2
Os nós do tipo 3 são os que representam os genótipos dos indivíduos quando o perfil
genético está disponível. Um nó do tipo 3 não tem nenhum nó filho, mas possui dois nós
pais que representam a herança genética materna e paterna. Esse tipo de nó é utilizado
5. M ETODOLOGIA
49
para entrar com as evidências na rede bayesiana, já que os genótipos dos marcadores
genéticos serão utilizados para determinar o vínculo genético entre indivíduos. A tabela
de probabilidade condicional associada a esse tipo de nó tem
(n 2 +n)
2
estados, represen-
tando a combinação entre os n alelos sem repetição (por exemplo, os genótipos a0a5
e a5a0 são considerados equivalentes). A tabela de probabilidades condicionais possui
2
ainda n 2 × (n 2+n) entradas (já que esse nó está condicionado aos n estados de cada um dos
nós pais), sendo n a quantidade de alelos do loco que está sendo avaliado. Uma vez que
o genótipo é conhecido, essa tabela é preenchida apenas com os valores 0 e 1, de modo
a refletir sua natureza determinística, indicando a possibilidade ou não da ocorrência de
um determinado genótipo.
Figura 5.8: Exemplo da tabela de probabilidade condicional associada a um nó do tipo 3
A Figura 5.8 apresenta parte da tabela de probabilidade condicional associada ao nó
ii84LH37_gtype. Essa tabela tem ao todo 136 estados e 34816 entradas. Ela representa a
probabilidade que um determinado genótipo ocorra, condicionado aos alelos recebidos
pelos pais do indivíduo. Por exemplo, se o alelo recebido da mãe, representado pelo nó
ii84LH37_mg foi o a0 e o alelo recebido do pai, representado pelo nó ii84LH37_pg, foi o
a6, o genótipo do indivíduo será a0a6 e a entrada correspondente a esse genótipo é igual
a 1. A Figura 5.8 dá uma idéia da árdua tarefa que o usuário tem ao preencher as tabelas
de probabilidades condicionais manualmente.
5. M ETODOLOGIA
50
O nó do tipo 4, chamado nó teste, ocorre apenas uma vez na rede bayesiana e é o
mais simples de ser modelado. Ele tem apenas dois estados, Yes e No. O estado Yes representa a hipótese de que o filho tenha recebido um alelo do suposto pai que está sendo
testado, enquanto que o estado No representa a hipótese que de o filho tenha recebido
um alelo de um indivíduo qualquer da população. A tabela de probabilidade condicional
pode ser preenchida com as probabilidades a priori sobre a relação de parentesco para o
caso, com base em outras evidências que hajam para o caso. Entretanto, o critério aceito
e recomendado (Pena, 2006) é de que a probabilidade a priori em testes de paternidade é
uma distribuição uniforme e que, portanto, a probabilidade de paternidade a priori é de
50%. Sendo assim, a tabela de probabilidade condicional associada ao nó teste tem como
entrada para os seus dois estados, o valor 0, 5. Quando a rede for atualizada, os valores
desses dois estados também serão atualizados de modo a refletir as novas evidências e
probabilidades condicionais da rede, sendo então utilizados para o cálculo da razão de
verossimilhança do loco que estiver sendo testado.
Por fim, o nó do tipo 5 é o nó da rede bayesiana que liga o filho ao suposto pai que está
sendo testado, ou à mãe em um caso, menos comum, de determinação de maternidade.
Esse nó tem três nós pais: os dois nós que representam o suposto pai que está sendo
testado e o nó teste. Sua tabela de probabilidade condicional tem n estados e n × 2(n 2 )
entradas, já que o nó está condicionado aos dois estados do nó teste e aos n estados de
cada um dos nós pais, sendo n o número de alelos do loco. As entradas condicionadas
à hipótese de que o suposto pai é o verdadeiro pai, devem ser preenchidas conforme a
lei de herança mendeliana. Já as entradas condicionadas à hipótese de que o verdadeiro
pai é uma pessoa qualquer da população, devem ser preenchidas usando as freqüências
alélicas da população.
A análise de casos complexos de determinação de vínculo genético utilizando softwares bayesianos consiste nos seguintes passos:
5. M ETODOLOGIA
51
1. Com base no heredograma, a estrutura que representa a relação de parentesco entre indivíduos, deve-se criar a estrutura da rede bayesiana. Essa estrutura consiste
em nós que representam a herança genética materna e paterna de cada indivíduo
e seus genótipos, e em arcos que ligam esses nós, representando assim a herança
mendeliana entre os indivíduos presentes no heredograma. Em um primeiro momento, apenas essa estrutura gráfica é criada. Ainda não há, portanto, nenhuma
informação nas tabelas de probabilidades condicionais embutidas em cada um dos
nós criados.
2. Para cada loco de microssatélite a ser testado, deve-se:
a) Preencher as tabelas de probabilidades condicionais, criando os estados de
cada variável representada pelos nós e preenchendo com as probabilidades
condicionais correspondentes a cada estado.
b) Determinar as evidências dos nós da rede bayesiana que representam os genótipos dos indivíduos com perfil genético disponível.
c) Rodar a rede bayesiana, o que significa que as evidências e probabilidades
condicionais serão propagadas pelos nós da rede bayesiana para calcular as
probabilidades das hipóteses que estão sendo testadas.
d) Receber as probabilidades calculadas para as duas hipóteses testadas e calcular a razão de verossimilhança para o loco testado.
3. Finalmente, deve-se multiplicar as razões de verossimilhança calculadas para cada
um dos locos a fim de se obter a razão de verossimilhança global, que leva em consideração todos os locos de microssatélites.
O Algoritmo 1 apresenta de forma concisa os passos para a análise dos casos de determinação de vínculo genético. Cada um desses passos será descrito detalhadamente nas
próximas seções.
5. M ETODOLOGIA
52
Algoritmo 1 Algoritmo simplificado de análise de um caso de determinação de vínculo
genético
Entrada: Heredograma (relações de parentesco entre os indivíduos), genótipos, freqüências alélicas e taxas de mutações alélicas)
Saída: Razão de verossimilhança do caso (RV C )
1: RV C ← 0
2: para todo indivíduo ∈ Heredograma faça
3:
Lista de Indivíduos ← dados do indivíduo
{Os dados do indivíduo são : seu identificador, identificadores da mãe e pai, sexo,
opção de verificação de maternidade ou paternidade e seus genótipos}
4: fim para
5: para todo Loco ∈ Genótipos dos indivíduos faça
6:
Lista de locos a serem testados ← Dados do Loco {LocusSetID e LocusID}
7: fim para
8: Carregar a lista de freqüências alélicas para a memória
9: Construir a rede bayesiana tendo como entrada a lista de indivíduos
10: Criar os estados das tabelas de probabilidades condicionais associadas aos nós da
rede bayesiana
11: para todo Loco ∈ Lista dos locos a serem testados faça
12:
Preencher as tabelas de probabilidades condicionais com base nas freqüências
alélicas, taxas de mutação e leis de herança mendelianas
13:
Definir as evidências com base nos genótipos dos indivíduos para esse Loco
14:
Propagar as evidências e probabilidades condicionais pela rede bayesiana
15:
Calcular a ração de verossimilhança do loco RV L
16:
RV C ← RV C × RV L (ou índice de paternidade)
17: fim para
5.5.2.1 Carregando os dados do heredograma
Essa seção descreve detalhadamente os passos 2 a 8 do Algoritmo 1. Antes da conversão do heredograma e de suas informações em sua respectiva rede bayesiana, a primeira
etapa consiste em carregar todos os dados necessários para estruturas de dados na memória
do computador. As classes TBayesNet, TLocusToTest, TAlleleFrequency, TAlleleFreqList,
TAlleleFreq, TPedigree, TIndividualData, TGenotype e TLocus apresentadas na Figura 5.9
foram criadas com o propósito de encapsular os atributos e métodos necessários para
carregar e organizar os dados do caso de determinação de vínculo genético.
Essa estrutura permite independência em relação à forma como o caso de determinação de vínculo genético é especificado. Ou seja, pode-se utilizar uma estrutura baseada
5. M ETODOLOGIA
53
Figura 5.9: Diagrama das classes criadas no P ED E XPERT
em janelas como é feito no P ED E XPERT, uma modelagem gráfica ou até mesmo o uso de
uma linguagem de programação específica para modelagem de casos de investigação de
paternidade como a proposta em (Nakano, 2006).
Para cada indivíduo informado durante a especificação do caso, é instanciado um objeto da classe TIndividualData. Atributos desse objeto como, por exemplo, o identificador
5. M ETODOLOGIA
54
do indivíduo (IndividualID), seu sexo (Gender) e os identificadores de seu pai (Father) e
de sua mãe (Mother), são preenchidos. O genótipo, caso esteja disponível, é carregado
do banco de dados através do método Load da classe TGenotype, o qual instancia objetos
da classe TLocus para armazenar os genótipos para cada marcador genético informado
para o indivíduo. A instância da classe TIndividualData é então inserida em uma lista de
indivíduos, FIndividuals, que faz parte da classe TPedigree. No P ED E XPERT, essa lista de
indivíduos é implementada através de uma estrutura de dados do tipo lista encadeada,
mais especificamente uma lista do tipo TStringList.
Após a inserção de todos os indivíduos na lista, é realizada uma verificação que adicionará os pais ausentes nessa lista de indivíduos. Na estrutura da rede bayesiana criada,
alguns indivíduos serão representados ligados aos nós que representam seus pais. Em
outros casos, entretanto, não será necessário representar os nós referentes aos seus pais.
A representação dos pais será necessária apenas no caso do indivíduo não ter seu perfil
genético disponível, mas um ou ambos os seus pais, ou ainda alguns de seus descendentes (filhos ou netos) tiverem e forem, de alguma forma, importantes para a solução
do caso. Outra situação em que a representação dos pais se faz obrigatória é o caso em
que eles, mesmo que estejam mortos, servem como ligação entre o indivíduo e seus irmãos, ou entre o indivíduo e seus avós. Esse processo de inserção de pais ausentes é
demonstrado pelo Algoritmo 2. Ele percorre a lista de indivíduos, verificando se algum
deles não possui um dos genitores. Caso algum indivíduo tenha apenas um dos genitores, esse deve ser adicionado, já que sua ausência provocaria um erro na modelagem da
rede bayesiana, conforme o modelo apresentado anteriormente. Esse algoritmo é implementado pelo método AddAbsentParents da classe TPedigree.
Já que cada indivíduo possui dois alelos para cada loco, um proveniente de seu pai e
outro de sua mãe, durante a modelagem da rede bayesiana, se houver a necessidade de
adicionar os pais, é necessário que ambos estejam presentes na estrutura. Sendo assim,
5. M ETODOLOGIA
55
Algoritmo 2 Verificar se algum indivíduo tem apenas um dos genitores na lista de indivíduos
Entrada: Lista de indivíduos
Saída: Lista de indivíduos com a inclusão dos pais que estavam ausentes
1: para todo indivíduo ∈ Lista de Indivíduos faça
2:
se indivíduo tem apenas o pai na lista de indivíduos então
3:
Lista de indivíduos ← dados da mãe {Sexo = feminino e genótipo vazio }
4:
fim se
5:
se indivíduo tem apenas a mãe na lista de indivíduos então
6:
Lista de indivíduos ← dados do pai {Sexo = masculino e genótipo vazio }
7:
fim se
8: fim para
se apenas um dos genitores (o pai ou a mãe) de um indivíduo da lista tiver sido informado,
o outro será automaticamente inserido para que seja feita a modelagem correta da rede
bayesiana. Esse genitor ausente é inserido com o sexo adequado e sem qualquer outra informação. Ressalta-se, entretanto, que ele é uma fonte de informação preciosa. Uma vez
que seu material genético não está disponível, ele trará em seu perfil a freqüência alélica
da população e ainda servirá como uma ponte de transmissão de informação entre seus
descendentes.
Outra informação importante que é transferida para estruturas de dados na memória
é a lista de locos que devem ser testados. Não existe uma quantidade pré-determinada
de locos que devem ser testados para se verificar o vínculo genético entre indivíduos. Os
locos a serem testados em um caso de determinação de vínculo genético são carregados
para a memória através do método LoadLocusToTest da classe TBayesNet, que na verdade
faz uma chamada ao método Load da classe TLocusToTest, passando como argumento a
identificação do caso. Esse método simplesmente busca no banco de dados a identificação dos locos presentes nos genótipos de todos os indivíduos do caso e os insere em
uma lista encadeada (FLocusToTestList). Se algum loco tipado não estiver presente nos
genótipos de algum dos indivíduos, a sua razão de verossimilhança não será calculada.
Em casos mais simples como as investigações de paternidade em trios, geralmente
5. M ETODOLOGIA
56
são testados um mínimo de 12 locos de microssatélites (Pena, 2006). Essa quantidade
tende a aumentar quanto mais indireta forem as evidências disponíveis. Por exemplo,
em um caso solucionado no GENE apenas dois sobrinhos do possível pai, já falecido,
estavam disponíveis para testes genéticos. Nesse caso foi necessário tipar 50 locos de
microssatélites para determinar a paternidade. O P ED E XPERT, portanto, gera uma lista
contendo apenas os locos tipados em todos os indivíduos. Conseqüentemente, são calculadas as razões de verossimilhança apenas dos locos presentes nessa lista.
Por fim, carrega-se para a memória o último conjunto de dados necessários para o
processo de inferência, que são as freqüências alélicas do conjunto de locos utilizado no
caso. O P ED E XPERT faz uma consulta ao banco de dados, buscando todos os locos, seus
alelos e respectivas freqüências e insere esses dados em uma estrutura de dados do tipo
lista encadeada. A utilização desse tipo de estrutura, evita que sejam realizadas grandes
quantidades de consultas ao banco de dados, o que tornaria o programa mais lento, já
que o acesso a dados armazenados em disco são drasticamente mais lentos que acessos a
dados na memória principal. As classes TAlleleFrequency, TAlleleFreqList e TAlleleFreq são
as responsáveis por manterem a freqüência alélica na memória, de forma que consulta da
freqüência de qualquer alelo seja feita de forma bastante simples e eficiente.
5.5.2.2 Criando a estrutura da rede bayesiana a partir do heredograma
O Algoritmo 3, um refinamento do passo 9 do Algoritmo 1, pode ser considerado
uma das principais contribuições desse trabalho. Através dele, é possível construir a rede
bayesiana de qualquer caso complexo de verificação de vínculo genético. Os passos anteriores a esse algoritmo, descritos pelos passos 1 a 8 do Algoritmo 1 e pelo Algoritmo 2 são
importantes e indispensáveis para carregar os dados necessários para a memória principal de forma organizada, possibilitando uma consulta eficiente à lista de indivíduos e
seus relacionamentos, os dados de genótipos desses indivíduos e freqüências alélicas. É
5. M ETODOLOGIA
57
com base nos dados dos indivíduos, armazenados em uma lista encadeada, que o Algoritmo 3 converte o caso previamente especificado em uma rede bayesiana correspondente, capaz de avaliar as evidências e probabilidades condicionais e calcular a razão de
verossimilhança de cada um dos locos testados.
A função principal do Algoritmo 3 é criar os nós da rede bayesiana para cada indivíduo presente no heredograma e ligá-los. Esse heredograma é fisicamente implementado
através da lista de indivíduos FIndividuals da classe TPedigree. A criação e conexão entre os nós é feita com base na especificação e nos dados do caso carregados na memória
pelo Algoritmo 1. Um aspecto importante é que esse algoritmo vem formalizar a criação
das redes bayesianas para a solução dos casos complexos de determinação de vínculo
genético, permitindo que ele possa ser utilizado tanto por um especialista que queira criar
suas redes bayesianas manualmente em um software de modelagem bayesiana quanto
por um programador que queira implementá-lo em um software com o objetivo de automatizar o processo de criação da rede bayesiana. Em termos de programação, esse algoritmo na verdade preenche uma lista encadeada, denominada ListaNosRB no Algoritmo 3,
com todos os nós a serem criados na rede bayesiana e as ligações que devem ser feitas entre eles. A lista de nós bayesianos ListaNosRB é implementada no P ED E XPERT através da
lista FBayesNodeList da classe TBayesNet. Encerrada a criação dessa lista, o método BuildBayesNet da classe TBayesNet, a percorrerá criando e ligando os nós bayesianos através
de chamadas à procedimentos específicos da SMILE.NET .
O primeiro nó a ser adicionado à lista de nós bayesianos é o nó teste, ou nó de consulta (query node), tf = pf?. Esse nó é definido como um nó do tipo 0.
Após a criação e inserção do nó de consulta na lista de nós bayesianos, a lista de indivíduos gerada pelo Algoritmo 1 é percorrida e os nós referentes a cada indivíduo são
inseridos na lista de nós bayesianos para sua futura criação. Para cada indivíduo presente
5. M ETODOLOGIA
Algoritmo 3 Conversão de um heredograma em sua respectiva rede bayesiana
Entrada: Lista de indivíduos
Saída: ListaNosRB = Lista de Nós da Rede Bayesiana
1: ListaNosRB ← ;
2: Criar o nó teste (t f = p f ?) e definí-lo como tipo 4
3: ListaNosRB ← Nó teste (t f = p f ?)
4: para todo indivíduo ∈ lista de indivíduos faça
5:
Criar o nó _pg do indivíduo
6:
ListaNosRB ← Nó _pg do indivíduo
7:
Criar o nó _mg do indivíduo
8:
ListaNosRB ← Nó _mg do indivíduo
9:
se o indivíduo tem seus pais ∈ lista de indivíduos então
10:
Definir o nó _pg do indivíduo como tipo 2
11:
Definir o nó _mg do indivíduo como tipo 2
12:
senão
13:
se o perfil genético do indivíduo está disponível então
14:
Definir o nó _pg do indivíduo como tipo 1
15:
Definir o nó _mg do indivíduo como tipo 1
16:
senão
17:
Definir o nó _pg do indivíduo como tipo 0
18:
Definir o nó _mg do indivíduo como tipo 0
19:
fim se
20:
fim se
21:
se indivíduo é o filho para o qual se está testando a paternidade então
22:
Definir o nó _pg do indivíduo como tipo 5
23:
Ligar nó _pg do indivíduo ao nó query (t f = p f ?)
24:
fim se
25:
se indivíduo é o filho para o qual se está testando a maternidade então
26:
Definir o nó _mg do indivíduo como tipo 5
27:
Ligar nó _mg do indivíduo ao nó query (t f = p f ?)
28:
fim se
29:
se pai do indivíduo ∈ lista de indivíduos então
30:
Ligar nó _pg do indivíduo aos nós _pg e _mg do pai
31:
fim se
32:
se mãe do indivíduo ∈ lista de indivíduos então
33:
Ligar nó _mg do indivíduo aos nós _pg e _mg da mãe
34:
fim se
35:
se genótipo do indivíduo disponível então
36:
Criar o nó _gtype do indivíduo e definí-lo como tipo 3
37:
ListaNosRB ← Nó _gtype do indivíduo
38:
Ligar nó _gtype do indivíduo aos nós _pg e _mg do indivíduo
39:
fim se
40: fim para
58
5. M ETODOLOGIA
59
no heredograma, dois nós devem ser obrigatoriamente criados, representando assim as
heranças paterna e materna. Usando a mesma convenção de nomenclatura utilizada por
Dawid (Dawid et al., 2002), os nós referentes ao genes paterno e materno têm seus rótulos terminando em _pg e _mg. Como cada indivíduo é resultado de uma combinação da
contribuição genética de dois genitores, faz-se necessário apresentar tal fato biológico na
rede bayesiana.
Após a criação dos nós _pg e _mg do indivíduo, deve-se verificar quais são os seus respectivos tipos. Os passos 9 a 28 definem o testes a serem feitos. Se o indivíduo tem seus
pais representados no heredograma, os nós que o representam deve ser definidos como
nós do tipo 2. Por outro lado, se os pais do indivíduo não foram representados no heredograma, os nós que o representam podem ser de dois tipos, determinados através de
outro teste. Se o indivíduo tiver seu perfil genético disponível, então seus nós devem ter
definidos como nós do tipo 1, caso contrário, eles serão do tipo 0. Por fim, se os nós _pg
e _mg são de um indivíduo que, no caso de verificação de vínculo genético, é o filho para
o qual está sendo testada a paternidade ou maternidade, eles devem ser definidos como
nós do tipo 5. A definição do tipo de nó é muito importante, pois é a partir desse tipo que
o P ED E XPERT criará os estados e preencherá as tabelas de probabilidades condicionais
associadas a cada nó da rede bayesiana.
Após a definição do tipo dos nós _pg e _mg do indivíduo, deve-se verificar se o mesmo
possui seus pais na lista de indivíduos. Se seus pais estiverem presentes, deve-se ligar o
nó _pg do indivíduo aos nós _pg e _mg de seu pai e o nó _mg aos nós _pg e _mg que representam sua mãe. A ligação é feita através de arcos direcionados dos nós que representam
os pais, para os nós que representam o filho.
Para encerrar, se o perfil genético do indivíduo está disponível, deve ser criado um nó
do tipo 3 e adicionado à lista de nós bayesianos. Esse nó representará na rede bayesiana
5. M ETODOLOGIA
60
o genótipo desse indivíduo.
Esse é um processo que deve ser repetido para cada indivíduo presente no heredograma. Como resultado tem-se, ao fim do processo, uma lista contendo todos os nós
a serem criados na rede bayesiana e seus respectivos tipos. No P ED E XPERT, o método
BuildBayesNet da classe TBayesNet percorre a lista de nós bayesianos FBayesNodesList e
cria a rede bayesiana. Isso é feito através de chamadas aos métodos AddNode, que adiciona os nós à rede, e AddArc, que adiciona os arcos que fazem a ligação entre os nós,
ambos da classe Network da SMILE.NET.
5.5.2.3 Criando os estados das tabelas de probabilidades condicionais
Voltando ao Algoritmo 1, após a criação da estrutura da rede bayesiana, a próxima
etapa consiste em criar os estados das tabelas de probabilidades condicionais associadas
a cada nó da rede. O Algoritmo 4 demonstra a criação desses estados.
Esse algoritmo é implementado no P ED E XPERT através do método SetOutcomes da
classe TBayesNet. Esse processo possui uma característica muito importante do ponto de
vista da reutilização de uma única estrutura de rede bayesiana para o cálculo das razões
de verossimilhança de todos os locos testados. Os locos possuem quantidades diferentes
de alelos. Por exemplo, o loco DS13S631 possui em torno de 6 alelos, enquanto o SE33 tem
aproximadamente 30 alelos. Como então é possível construir uma única rede bayesiana
que teste locos com quantidades tão diferentes de alelos?
A solução adotada no P ED E XPERT foi construir uma rede bayesiana, na qual o número
de estados das tabelas de probabilidades condicionais corresponde à maior quantidade
de alelos em um loco do banco de freqüências alélicas utilizado. Supondo-se que a maior
quantidade de alelos, x, em um loco seja 30, como no caso do SE33, então as tabelas de
probabilidades condicionais serão criadas levando em consideração esse valor. No P ED -
5. M ETODOLOGIA
61
Algoritmo 4 Criar os estados das tabelas de probabilidades condicionais associadas aos
nós da rede bayesiana
Entrada: Lista de nós bayesianos
Saída: Tabelas de probabilidades condicionais com seus estados adequadamente
definidos
1: Maior ← a maior quantidade de alelos em um loco do conjunto de locos utilizado
2: para todo nó ∈ Lista de nós bayesianos faça
3:
se o tipo do nó = 4 então
4:
Adicione o estado com nome Y es à tabela de probabilidades condicionais do nó
teste
5:
Adicione o estado com nome No à tabela de probabilidades condicionais do nó
teste
6:
fim se
7:
se o tipo do nó ∈ {0,1,2,5} então
8:
para x ← 0 até M ai or − 1 faça
9:
Adicione o estado com nome a x à tabela de probabilidades condicionais do nó
10:
fim para
11:
fim se
12:
se o tipo do nó = 3 então
13:
para x ← 0 até M ai or − 1 faça
14:
para y ← x até M ai or − 1 faça
15:
Adicione o estado com nome a x a y à tabela de probabilidades condicionais
do nó
16:
fim para
17:
fim para
18:
fim se
19: fim para
E XPERT, os nomes dos estados a serem criados nas tabelas começam com a letra a e um
número que varia de 0 até x − 1. Sendo assim, novamente considerando o loco SE33,
as tabelas de probabilidades condicionais da rede bayesiana teriam seus estados com os
nomes a0, a1, · · · , a29.
O P ED E XPERT adota a estratégia de criar uma única rede bayesiana para todos os locos a serem estados. Entretanto, para cada loco testado, têm-se diferentes valores para
as tabelas de probabilidades condicionais e diferentes genótipos, os quais serão usados
como evidências. As próximas seções mostram como o P ED E XPERT preenche as tabelas
de probabilidades condicionais associadas a cada da rede bayesiana, e como determina
as evidências tomando como base o perfil genético dos indivíduos.
5. M ETODOLOGIA
62
5.5.2.4 Preenchendo as tabelas de probabilidades condicionais associadas aos nós da
rede bayesiana
O preenchimento das tabelas de probabilidades condicionais é realizada pelos métodos SetProbFixa e SetProbVar da classe TBayesNet. O método SetProbFixa é executado
uma única vez, antes que o primeiro loco seja testado. Ele preenche as tabelas de probabilidades condicionais dos nós de tipos 1, 2, 3 e 4, que não têm seus valores alterados
a cada loco testado. Isso se deve ao fato desses tipos de nós não terem suas tabelas de
probabilidades condicionais preenchidas com as freqüências alélicas de cada loco. Já os
nós dos tipos 0 e 5, têm suas tabelas alteradas à cada loco testado, pois é através desses
nós que as freqüência alélicas dos locos são embutidas na rede bayesiana. O P ED E XPERT
utiliza o método SetProbVar para preencher as tabelas associadas aos nós dos tipos 0 e 5.
Esse método é executado uma vez para cada loco a ser testado.
O nó teste é o que tem a tabela de probabilidades condicionais mais simples. Esse
nó deve ter sua tabela de probabilidades condicionais preenchida de forma a considerar
como 50% a probabilidade à priori de paternidade. Dadas as duas hipóteses de paternidade:
1. o suposto pai testado transmitiu o alelo
2. o alelo foi transmitido por um indivíduo qualquer da população
A tabela de probabilidades condicionais do nó teste deve ser preenchida como mostrado
na Figura 5.10.
Caso o indivíduo tenha seus genótipos disponíveis, esses serão usados como evidências e propagados para o cálculo das probabilidades conjuntas da rede bayesiana. Portanto, aos dois nós que representam os gametas herdados, é adicionado um nó referente
ao genótipo. Na Figura 5.11 pode-se verificar que os nós de genótipos não possuem nós
filhos, mas possuem dois nós pais que representam os genes paterno e materno do indi-
5. M ETODOLOGIA
63
Figura 5.10: Tabela de probabilidades condicionais associada ao nó teste tf = pf?
víduo. Os nós que representam os genótipos têm seus rótulos terminando com _gtype.
A tabela de probabilidades condicionais associada ao nó do genótipo possui n(n + 1)/2
estados possíveis, correspondendo às combinações entre os alelos herdados dos pais.
Figura 5.11: Rede bayesiana correspondente ao heredograma da Figura 5.26
No P ED E XPERT, todas as tabelas de probabilidades condicionais que têm como estados os alelos ou os genótipos (combinação dos dois alelos) consideram n como a maior
quantidade de alelos em um loco do banco de freqüências alélicas utilizado. Isso permite
que o P ED E XPERT crie uma única rede bayesiana, já que todos os marcadores utilizados
poderão compartilhar a mesma estrutura, alterando apenas os dados as tabelas de probabilidades condicionais. As tabelas associadas aos nós de genótipos serão preenchidas
5. M ETODOLOGIA
64
com os valores 0 e 1, indicando a possibilidade de um genótipo dados os genes paterno e
materno.
Figura 5.12: Tabela de probabilidades condicionais do nó genótipo
Se o indivíduo tiver seus pais presentes no heredograma, a tabela de probabilidades condicionais associada a cada nó deve ser preenchida de forma a modelar a herança
mendeliana e terá como entrada apenas os valores 0, 0, 5 e 1, como pode ser observado
na Figura 5.13.
Figura 5.13: Tabela de probabilidades condicionais dos nós intermediários representando
as relações mendelianas
5. M ETODOLOGIA
65
Entretanto, caso o indivíduo não tenha genótipos disponíveis e também não tenha
seus pais presentes, as tabelas associadas aos seus nós devem ser preenchidas com as freqüências alélicas da população, como pode ser visto na Figura 5.14.
Figura 5.14: Tabela de probabilidades condicionais correspondente às freqüências alélicas da população
Por fim, o preenchimento do nó correspondente ao gene paterno, caso esteja sendo
verificada a paternidade, ou do nó correspondente ao gene materno, no caso de teste da
maternidade, deve levar em consideração as duas hipóteses de paternidade ou maternidade.
Na hipótese de que o suposto pai seja o verdadeiro pai (estado Yes), devem ser usados
os valores 0, 0, 5 e 1 para modelar as relações mendelianas (Figura 5.15). Por outro lado,
na hipótese de que outro indivíduo qualquer da população seja o pai biológico (estado
No), deve-se utilizar as freqüências alélicas da população (Figura 5.16).
5. M ETODOLOGIA
66
Figura 5.15: Tabela de probabilidades condicionais para a hipótese de que o suposto pai
seja o pai biológico
Figura 5.16: Tabela de probabilidades condicionais para a hipótese de que o pai biológico
seja um indivíduo qualquer da população
5.5.2.5 Definindo as evidências com base nos genótipos
A próxima etapa, uma vez que as tabelas de probabilidades condicionais de todos os
nós da rede bayesiana estejam devidamente preenchidas, é informar as evidências na
rede bayesiana, definindo-as através dos nós de genótipos. O Algoritmo 5 mostra como
é feito esse processo. Mais uma vez, é importante ressaltar que, para utilizar uma única
rede bayesiana durante para o cálculo das razões de verossimilhança dos diversos locos
testados, adotou-se no P ED E XPERT a estratégia de criar uma rede bayesiana, em que o
número de estados das tabelas de probabilidades condicionais levasse em consideração
a maior quantidade de alelos possível entre todos os locos. Os estados então são denominados a0, a1, · · · , a n , o que não corresponde à verdadeira identificação desses alelos.
Como solução, o P ED E XPERT cria um mapa de alelos, uma lista que associa à cada estado
5. M ETODOLOGIA
67
o verdadeiro identificador do alelo.
Algoritmo 5 Determinação das evidências na rede bayesiana
Entrada: Lista de indivíduos que possuem perfil genético e o mapa de alelos
Saída: Evidências definidas nos nós de genótipos
1: para todo indivíduo que possui perfil genético disponível faça
2:
Alelo1 ← menor alelo do genótipo para o loco que está sendo testado
3:
Alelo2 ← o outro alelo do genótipo para o loco que está sendo testado
4:
Estado1 ← o nome do estado referente ao Alelo1 no mapa de alelos
5:
Estado2 ← o nome do estado referente ao Alelo2 no mapa de alelos
6:
Definir a evidência dada por Estado1 e Estado2 no nó _gtype do indivíduo
7: fim para
Após a definição das evidências de todos os nós de genótipos, a rede pode ser atualizada, propagando as tabelas de probabilidade condicionais e as evidências dos nós
de genótipos por toda a rede, a fim de calcular as probabilidades a posteriori das duas
hipóteses testadas. Uma vez que a rede tenha sido atualizada, basta dividir o valor do
estado Yes pelo estado No do nó teste para obter a razão de verossimilhança do loco, normalmente denominado índice de paternidade quando refere-se à casos de determinação
de paternidade.
5.5.2.6 O cálculo da razão de verossimilhança global
Levando-se em consideração que os locos de microssatélites utilizados em casos de
verificação de vínculo genético são independentes, a regra do produto das probabilidades
pode ser aplicada. Portanto, o cálculo da razão de verossimilhança do caso é obtida pela
multiplicação das razões de verossimilhança calculadas independentemente para cada
loco. O resultado é um número que expressa quantas vezes é mais provável obter os resultados observados na hipótese de que o suposto pai seja o verdadeiro pai do que obter
os resultados observados na hipótese de que outro indivíduo qualquer, tomado aleatoriamente da população, seja verdadeiro pai. De uma maneira mais direta, o que se quer
dizer é quantas vezes é mais provável que o suposto pai, ao invés de outro indivíduo qualquer da população, seja o verdadeiro pai biológico (Gjertson et al., 2007).
5. M ETODOLOGIA
68
Para expressar essa razão de verossimilhança na forma de um percentual, o cálculo
deve utilizar a seguinte equação (Gjertson et al., 2007):
Per c =
RV G
1 + RV G
(5.1)
onde RV G é a razão de verossimilhança global calculada pela multiplicação das razões
de verossimilhança de todos os locos.
5.5.3 O modelo de mutação paterna usado no P ED E XPERT
A mutação genética é um evento raro (Leopoldino e Pena, 2002; Brinkmann et al., 1998;
Weber e Wong, 1993; Cifuentes et al., 2006). Entretanto, a possibilidade de sua ocorrência deve ser levada em consideração sempre que inconsistências genéticas forem observadas no perfil genético dos indivíduos testados (Gjertson et al., 2007). A prática atualmente adotada é excluir a hipótese de paternidade sempre que existirem quatro ou
mais locos inconsistentes com o padrão genético que seria necessário para confirmar
tal hipótese(Brenner, 2004; Dawid, 2003). Para isso, assume-se que a probabilidade de
ocorrerem duas ou mais mutações na transmissão dos locos de pai para filhos é muito
baixa, sendo menor que 10−7 (Chakraborty e Stivers, 1996). (Brenner, 2004) sugere que o
procedimento ideal seria calcular a razão de verossimilhança global sobre todos os locos,
levando-se em consideração todas as possíveis mutações.
O P ED E XPERT utiliza o modelo de mutações por passos (Stepwise Mutation Model SMM) proposto por Kimura e Ohta (1978) e revisto por Valdes et al. (1993). Esse modelo
é o que melhor explica a conversão entre alelos de microssatélites (Ayadi et al., 2007).
Como foi visto anteriormente, alelos de microssatélites são medidos pela quantidade de
repetições de uma determinada seqüência padrão, que varia geralmente de 1 a 6 nucleotídeos. Aplicado aos microssatélites, o modelo de mutações por passos mostra que
um alelo paterno original quando transmitido pelo pai, pode sofrer mutação ganhando
5. M ETODOLOGIA
69
ou perdendo unidades de repetição, o que resulta em um alelo mutado em i passos.
Quando o alelo mutado é resultado do ganho de i unidades de repetição, diz-se que ele se
moveu i passos na direção positiva. No caso contrário, quando o alelo mutado é resultado
da perda de i unidades de repetição, diz-se que ele se moveu i passos na direção negativa
(Kimura e Ohta, 1978). Na mutação de um passo, ou passo único, o caso mais simples,
assume-se que o alelo mutado ganhou ou perdeu uma unidade de repetição em relação
ao alelo original. Por exemplo, se o alelo original for 10, o alelo mutado em um passo resulta nos alelos 9 (direção negativa, ou perda de uma unidade repetitiva), ou 11 (direção
positiva, ou ganho de uma unidade repetitiva). A mutação de dois passos, ou mutação
dupla, é aquela na qual o alelo mutado ganha ou perde duas unidade de repetição em
relação ao alelo original. Ainda tomando como exemplo o alelo 10, uma mutação de dois
passos resultaria nos alelos 8 ou 12.
Cada passo adicional de mutação ocorre numa razão dez vezes menor que o passo
anterior. Sendo assim, mutações de dois passos ocorrem numa taxa dez vezes menor que
as mutações de passo único (Brinkmann et al., 2001). Mutações de três passos ocorreriam
dez vezes menos que as mutações de dois passos. Trabalhos recentes sugerem que cerca
de 96% das mutações são de passo único(Leopoldino e Pena, 2002; Brinkmann et al., 1998),
enquanto que as mutações de três passos não foram observadas (Brinkmann et al., 2001).
Outro ponto a ser considerado, além da variação na quantidade de repetições, quando
se trata de mutações, é que as taxas de mutação paternas são reconhecidamente muito
mais altas que as taxas de mutação maternas (Leopoldino e Pena, 2002; Vicard e Dawid,
2004). Entretanto, não há um consenso sobre quantas vezes a taxa de mutação paterna é
maior que a materna.
Com base nesses fatos, o modelo de mutação do P ED E XPERT leva em consideração
apenas as mutações paternas de um e dois passos, desconsiderando, portanto, as mu-
5. M ETODOLOGIA
71
hipótese de que o suposto pai é o verdadeiro pai, devem ser preenchidas levando em
consideração a herança mendeliana e o modelo de mutação por passos.
Dado o genótipo do pai G p = {x 1 , x 2 }, calcula-se a probabilidade de que o alelo i
ocorra, se i ∈ {x 1 , x 2 } como:
P r (i ) = P r (i | x 1 , x 2 ) + P r (x 1 → i ) + P r (x 2 → i ) − P r (i → i ±1 ) − P r (i → i ±2 )
(5.2)
Essa equação pode ser enunciada como: a probabilidade do filho receber o alelo i é
igual à probabilidade de i dado o genótipo do pai mais a probabilidade de que qualquer
um dos dois alelos do pai mutem para i menos a probabilidade de que i seja mutado para
alelos a um ou dois passos de distância.
Caso i ∉ {x 1 , x 2 }, a probabilidade de que o alelo i ocorra é dada por:
P r (i ) = P r (x 1 → i ) + P r (x 2 → i )
(5.3)
A probabilidade de que um alelo α mute para β é dada por:
Pr (α → β) = P r (mutação ocorra na direção de α para β) ×
1
µ
× p−1
2 10
(5.4)
A probabilidade de que a mutação ocorra na direção α para β é dada por :




1 , se | α − β |= 1, com α = 1 ou k



1
P r (mutação na direção de α para β) =
, se | α − β |= 1, com α 6= 1 ou k (5.5)
2





 0 , em outro caso
Dado µ = 0, 0064 e υ = 0, 0032, tem-se como resultado os valores da Tabela 5.3.
5. M ETODOLOGIA
72
Tabela 5.2: Parte de uma tabela com as equações de probabilidade de herança dos alelos
considerando mutação genética e 6 estados
pg
mg
a1
a1
a2
a3
a4
a5
a6
a1
a2
a3
a4
a5
a6
1-µ-(µ/10)
0.5-(0.5*υ)-(0.05*µ)
0.5-(0.5*µ)-(0.05*υ)
0.5-(0.5*µ)-(0.05*µ)
0.5-(0.5*µ)-(0.05*µ)
0.5-(0.5*µ)-(0.05*µ)
µ
0.5-(0.05*µ)
(0.5*µ)+(0.5*υ)
(0.5*µ)+(0.05*υ)
(0.5*µ)
(0.5*µ)
µ/10
(0.5*υ)+(0.05*µ)
0.5-(0.5*µ)
(0.5*υ)+(0.05*µ)
(0.05*µ)+(0.05*µ)
(0.05*µ)
0
(0.05*µ)
(0.5*υ)
0.5-(0.5*µ)-(0.05*µ)
(0.5*υ)
(0.05*µ)
0
0
(0.05*υ)
(0.5*υ)
0.5-(0.5*µ)-(0.05*µ)
(0.5*µ)
0
0
0
(0.05*υ)
(0.5*υ)
0.5-(0.5*µ)-(0.05*µ)
Total
1
1
1
1
1
1
Tabela 5.3: Parte da tabela de probabilidades condicionais considerando mutação
genética
pg
mg
a1
a1
a2
a3
a4
a5
a6
a1
a2
a3
a4
a5
a6
0.99296
0.0064
0.00064
0
0
0
0.49808
0.49968
0.00192
0.00032
0
0
0.49664
0.0048
0.4968
0.0016
0.00016
0
0.49648
0.00336
0.00192
0.49648
0.0016
0.00016
0.49648
0.0032
0.00064
0.0016
0.49648
0.0016
0.49648
0.0032
0.00032
0.00032
0.0032
0.49648
Total
1
1
1
1
1
1
5.6 Os módulos do P ED E XPERT
5.6.1 O banco de dados de freqüências alélicas
Como citado anteriormente, o banco de dados de freqüências alélicas foi obtido junto
ao GENE - Núcleo de Genética Médica. No P ED E XPERT, existem duas opções para manipular os banco de dados de freqüências alélicas. O usuário pode fazer o cadastro manualmente usando a janela de cadastro de locos e alelos, ou usar os módulos de importação
de freqüências alélicas e de taxa de mutação.
5.6.1.1 Criando novos bancos de freqüências alélicas
Caso o usuário esteja criando um novo banco de freqüências alélicas e o Allele Frequency Set ainda não esteja cadastrado, basta que o usuário selecione, na janela princi-
5. M ETODOLOGIA
73
pal, o menu Data e depois o submenu New Allele Frequency Set e a janela da Figura 5.18 é
apresentada. Nela o usuário deve informar o nome desse novo conjunto de locos e pressionar o botão OK.
Figura 5.18: Criando um novo Allele Frequency Set
5.6.1.2 Cadastro de locos e alelos
O acesso à janela de cadastro de locos e alelos é feito acessando-se, na janela principal, o menu Data e depois clicando no submenu Loci/Alleles. Ao cadastrar um novo
loco, o usuário deve informar o Allele Frequency Set, a identificação do loco e, se achar
conveniente, uma descrição para o loco. O Allele Frequency Set,ou conjunto de freqüências alélicas, corresponde ao campo LocusSetID da tabela LocusSet. Ele identifica em qual
conjunto o loco e suas respectivas freqüências alélicas estão sendo cadastrados. A utilização desse identificador garante maior flexibilidade ao sistema, pois possibilita ao usuário
determinar que conjunto de locos e freqüências utilizar em cada caso de determinação de
vínculo genético. Assim, um determinado caso de determinação de paternidade 3 pode
utilizar o conjunto de locos e freqüências fornecidos pelo GENE. Por outro lado, um caso
de identificação de um corpo de uma vítima supostamente norte-americana pode ser
avaliado utilizando-se o conjunto de locos e respectivas freqüências disponibilizadas pelo
FBI.
A identificação do loco compõe, junto com o Allele Frequency Set, a chave primária
dos registros da tabela de locos. Isso significa que não há a possibilidade de existirem
3
A partir desse ponto só será utilizado o termo paternidade. Entretanto, todas as considerações que
forem feitas para os casos de paternidade também são aplicáveis para os casos de determinação de maternidade.
5. M ETODOLOGIA
74
dois locos com o mesmo código de identificação em um mesmo Allele Frequency Set. Essa
restrição é de fundamental importância para que não haja a possibilidade de ocorrer alguma ambigüidade em uma consulta a um determinado loco no banco de dados como,
por exemplo, durante o carregamento das freqüências alélicas para a memória ou durante
a importação do genótipo de um indivíduo.
Figura 5.19: Janelas para cadastro de locos e respectivas freqüências alélicas
A Figura 5.19 mostra a janela de cadastro de locos e suas respectivas freqüências alélicas. Na janela de cadastro de locos, o usuário deve simplesmente selecionar um conjunto
de freqüências alélicas e informar o código de identificação, uma descrição do loco e a
taxa de mutação desse loco. Caso o loco que está sendo cadastrado pertença a um novo
banco de freqüências alélicas, basta que o usuário clique no botão ao lado do campo Allele Frequency Set e informe o nome desse novo conjunto. O campo NumberOfAlleles é
preenchido automaticamente pelo módulo de importação de freqüências alélicas, não
sendo obrigatório o seu preenchimento caso os locos estejam sendo cadastrados manualmente.
Uma vez que o loco esteja cadastrado, é possível definir seus alelos e respectivas freqüências. A janela de cadastro de alelos faz uma verificação automática da soma das
freqüências alélicas a fim de determinar se o somatório dessas freqüências é igual a 1.
Caso a soma seja diferente de 1, a janela mostra um aviso ao usuário e permite que seja
5. M ETODOLOGIA
75
Figura 5.20: Freqüências alélicas não normalizadas
executada uma normalização das freqüências alélicas desse loco. No processo de normalização, as novas freqüências são calculadas de forma que o somatório seja igual a 1.
O cálculo das freqüências normalizadas é realizado com base na Equação 5.6.
ni
F r eq Al el oi = Pm
(5.6)
j =1 n j
Nessa equação, n i é a freqüência atual do alelo i , e
Pm
j =1 n j
é o somatório das freqüên-
cias de todos os alelos do loco que está sendo normalizado.
5.6.1.3 O módulo de importação de freqüências alélicas
Ao invés de cadastrar os locos e alelos manualmente, o usuário do P ED E XPERT tem
a opção de importá-los. Para acessar o módulo de importação de freqüências alélicas o
usuário deve acessar o menu Data e o submenu Import Allele Frequency. A importação
é muito simples e intuitiva. O primeiro passo é selecionar o Allele Frequency Set. Caso
o usuário esteja criando um novo banco de freqüências alélicas e o Allele Frequency Set
ainda não esteja cadastrado, basta que o usuário clique no botão ao lado do campo Allele
Frequency Set e informe o nome desse novo conjunto de locos.
Abaixo do Allele Frequency Set, existem duas caixas de seleção. A primeira (Replace
existing frequencies) deve ser marcada se o usuário desejar que o P ED E XPERT atualize as
5. M ETODOLOGIA
76
freqüências alélicas automaticamente, substituindo-as pelas novas freqüências, caso elas
já existam no banco de dados. Se essa caixa de seleção não for marcada e, durante a importação das freqüências alélicas o sistema verificar que um determinado alelo já está
cadastrado, essa freqüência então será mantida no banco de dados não sendo, portanto,
substituída pelo novo valor.
Figura 5.21: Janela de importação de freqüências alélicas: importando freqüências alélicas relativas para o conjunto de freqüências alélicas do FBI
A segunda caixa de seleção (Frequencies below are absolute) informa ao P ED E XPERT
se as freqüências alélicas a serem importadas são freqüências relativas ou absolutas. No
caso de o usuário estar importando freqüências relativas, essa caixa de seleção não deve
ser marcada, conforme pode ser visto na janela apresentada pela Figura 5.21. Nesse caso,
o sistema cadastra o loco e o alelo caso eles ainda não existam, e grava a freqüência alélica
informada. Se, entretanto, essa caixa estiver marcada como na janela da Figura 5.22, o sistema trata a importação de maneira diferente. Para cada loco encontrado, o P ED E XPERT
fará o somatório das freqüências alélicas absolutas, e gravará a quantidade de alelos somados no campo NumberOfAlleles da tabela Locus para o loco que está sendo importado.
Após esse cálculo, para cada alelo, o sistema calculará a freqüência alélica de acordo com
5. M ETODOLOGIA
77
a Equação 5.7
f r al el oi = Pn
f a al el oi
j =1
f a al el o j
(5.7)
Nessa equação, f r al el oi é a freqüência relativa do alelo i , f a al el oi é a freqüência absoP
luta do alelo i , e nj=1 f a al el o j é o somatório das freqüências absolutas de todos os alelos
do loco.
Figura 5.22: Janela de importação de freqüências alélicas: importando freqüências alélicas absolutas para o conjunto de freqüências alélicas do GENE
Os dados dos locos e alelos a serem importados a partir do Excel, devem respeitar
o formato estabelecido na janela. Nesse formato, a primeira coluna é utilizada para informar o loco a ser importado, a segunda coluna contém os alelos e, a última coluna,
informa as respectivas freqüências de cada alelo. O nome do loco pode, opcionalmente,
ser informado apenas para o primeiro alelo. A cada nova linha da tabela, o P ED E XPERT
verificará se o nome do loco está preenchido. Caso não esteja preenchido, será utilizado
o identificador do último loco.
5. M ETODOLOGIA
78
5.6.1.4 O módulo de importação de taxas de mutações alélicas
Importar as taxas de mutações alélicas é ainda mais simples que importar as freqüências alélicas. Para acessar o módulo de importação de taxas de mutações, o usuário deve
acessar o menu Data e o submenu Import Mutation Rate. Da mesma maneira que a importação de freqüências alélicas, o primeiro passo para a importação de taxas de mutações é selecionar o Allele Frequency Set, o qual determinará para qual conjunto de locos esse valores serão importados. Caso o usuário esteja criando um novo banco de freqüências alélicas e o Allele Frequency Set ainda não esteja cadastrado, basta que o usuário
clique no botão ao lado do campo Allele Frequency Set e informe o nome desse novo conjunto.
O próximo passo é colar na grade os dados das taxas de mutações. Na primeira coluna
deve ser informado o nome do loco e na segunda coluna sua respectiva taxa de mutação.
É importante ressaltar que, no caso de importação de taxas de mutações, os locos já devem existir no Allele Frequency Set para o qual se está importando as taxas de mutações.
Caso o loco não exista, o P ED E XPERT emite uma mensagem informando ao usuário sobre
a impossibilidade de importar a taxa de mutação pelo do loco não estar cadastrado.
5.6.2 O módulo de parametrização
É nessa janela que são informados os dois únicos parâmetros do sistema: a freqüência alélica padrão e a taxa de mutação padrão. Esses valores apenas serão utilizados pelo
P ED E XPERT em situações muito específicas.
No caso da freqüência alélica padrão, ela será utilizada quando, durante a avaliação
de um caso de determinação de vínculo genético, um alelo não possuir sua respectiva
freqüência alélica. Ela também será utilizada se, durante a importação de genótipos de
um indivíduo, um determinado alelo não for localizado no banco de dados e o usuário
decidir cadastrá-lo usando a freqüência alélica padrão. A utilização da taxa de mutação
5. M ETODOLOGIA
79
Figura 5.23: Janela de importação de taxas de mutações alélicas: importando taxas de
mutações para o conjunto de freqüências alélicas do GENE
ocorrerá quando, em um caso no qual deve ser considerada a possibilidade de mutação
paterna, um determinado loco não tiver sua respectiva taxa de mutação armazenada.
O acesso a essa janela é feita acessando-se o menu Data e o submenu Parameters.
Figura 5.24: Janela de parâmetros do P ED E XPERT
5.6.3 O módulo de especificação de casos de determinação de vínculo
genético
A janela apresentada na Figura 5.25 é a principal janela do P ED E XPERT. Ela foi desenvolvida com o objetivo de permitir ao usuário a especificação e análise dos casos de
determinação de vínculo genético de uma maneira bem simples. É através dessa janela
5. M ETODOLOGIA
80
que o usuário informará a estrutura familiar (heredograma) do caso, os genótipos dos indivíduos envolvidos e, em que conjunto de locos o P ED E XPERT buscará as freqüências
alélicas e taxas de mutações.
Essa janela é acessada através do menu File. Para criar um novo caso de determinação
de vínculo genético, o usuário deve escolher o submenu New Pedigree. Se ele quiser abrir
um caso já existente, deve selecionar o submenu Open Pedigree. Todas as informações
e ações necessárias para se analisar um caso estão disponíveis a partir dessa janela. Todas as funções nela disponíveis são executadas através dos botões localizados na barra de
tarefas. O usuário tem a opção de criar um novo caso, editar um caso existente, cancelar
o modo de edição, salvar os dados de um caso ou excluir um caso existente. Há também
a possibilidade de se mover entre os casos previamente cadastrados usando os botões de
navegação.
Para analisar um caso de determinação de vínculo genético entre indivíduos, o P ED E XPERT criará uma rede bayesiana específica para esse caso, tomando como base a estrutura familiar especificada, os genótipos informados dos indivíduos vivos e as freqüências
alélicas e taxas de mutação.
Ao criar um novo caso, o primeiro passo do usuário deve ser fornecer um código de
identificação para o caso e selecionar o Allele Frequency Set. Dessa forma, o usuário está
determinando em qual conjunto de locos o P ED E XPERT deverá consultar as freqüências
alélicas e taxas de mutações para o caso, sempre que houver necessidade. Todos os cálculos feitos durante a avaliação do caso utilizarão as freqüências alélicas e taxas de mutações
pertencentes ao Allele Frequency Set informado.
Após salvar os dados informados acima, o usuário deve especificar a estrutura familiar
do caso. Para isso, ele deve incluir os indivíduos envolvidos. No momento em que todos
os indivíduos estiverem cadastrados, basta determinar o sexo de cada um e as relações de
5. M ETODOLOGIA
81
Figura 5.25: A janela para especificação de casos de determinação de vínculo genético
paternidade e maternidade entre eles. É importante ressaltar que qualquer heredograma,
independente da quantidade de indivíduos e de sua complexidade, é modelado com base
apenas nas relações de paternidade e maternidade entre trios de indivíduos (mãe, pai e
filho). Para informar quais são os pais de um indivíduo, basta selecionar um indivíduo
no campo father e outro no campo mother. É importante deixar claro que, para reduzir
a possibilidade de erros, o campo father traz listado apenas os indivíduos cadastrados
com o sexo masculino. O mesmo procedimento é adotado na listagem dos indivíduos no
campo mother, sendo que nesse campo apenas indivíduos cadastrados com o sexo feminino são listados.
É nessa janela também que se determina qual indivíduo será testado na determinação
do parentesco. Para isso deve-se selecionar a caixa de seleção referente à opção de verificação de paternidade, verificação de maternidade, ou ambas. Se o usuário desejar
analisar o caso levando em consideração a possibilidade de mutação paterna, ele deve
selecionar a caixa de seleção referente a essa opção.
5. M ETODOLOGIA
82
Deve-se levar em consideração que todo caso de determinação de vínculo genético
entre indivíduos, que é o tipo de caso para o qual o P ED E XPERT foi desenvolvido, pode
ser modelado e solucionado como um caso de investigação de paternidade, maternidade
ou ambos. Por exemplo, em casos de verificação de meia-irmandade deve ser verificada
a possibilidade de dois indivíduos, filhos de mães diferentes, serem filhos de um mesmo
pai. Em outro exemplo, caso um determinado indivíduo requeira ser reconhecido como
neto e, conseqüentemente, herdeiro de uma senhora cujo filho já é falecido, o que se verifica é a possibilidade de que o verdadeiro pai desse indivíduo seja o filho falecido dessa
senhora.
Figura 5.26: Heredograma gerado pelo software Haplopainter
Caso o usuário deseje verificar se o caso está corretamente especificado, um procedimento recomendável é que ele exporte os dados do caso para o software Haplopainter
(Thiele e Nürnberg, 2005) através de um arquivo texto em um formato pré-determinado.
O Haplopainter é um software criado para desenho de heredogramas e que permite a visualização de informações complexas sobre haplótipos. O P ED E XPERT gera o arquivo para
exportação no formato requerido e executa automaticamente o Haplopainter. Uma vez
que o Haplopainter esteja sendo executado, basta que o usuário importe os dados através
da opção Prae-Makeped-Plus do sub-menu Import Pedigrees. Na Figura 5.26 pode-se visualizar o heredograma gerado para o caso especificado na Figura 5.25.
Até esse ponto, já foi determinado o conjunto de locos a ser consultado, e especificada
5. M ETODOLOGIA
83
Figura 5.27: Copiando os dados do genótipo do Excel
a estrutura familiar. Para que o P ED E XPERT possa criar a rede bayesiana correspondente
a esse caso, ainda devem ser informados os genótipos dos indivíduos vivos envolvidos
no caso. Portanto, o último passo na especificação de um caso de determinação de vínculo genético é a obtenção dos genótipos dos indivíduos. Esses genótipos são informados
utilizando-se a janela de importação genótipos mostrada na Figura 5.28. Nessa janela são
usadas teclas de atalho para copiar e colar dados provenientes de uma tabela como do
Microsoft Excel, por exemplo. Existem dois formatos possíveis para a importação dos
genótipos: o formato vertical (Figura 5.28) e o formato horizontal (Figura 5.29).
Durante a importação dos genótipos, caso o sistema verifique que algum alelo de um
determinado loco não está devidamente cadastrado, o processo é então interrompido e
o fato é informado ao usuário. Há duas possibilidades para a ocorrência desse problema.
A primeira possibilidade é de que o alelo realmente não exista e tenha sido digitado incorretamente na tabela a ser importada. Por exemplo, foi digitado o alelo 99, quando o
correto seria o alelo 9. A outra possibilidade é de que esse alelo exista mas não tenha
sido inserido no cadastro de locos. Para as duas situações, visando facilitar o trabalho do
usuário, o software mostra uma janela (Figura 5.30) que permite ao usuário trocar o alelo
errado por outro que tenha sido previamente cadastrado, ou armazenar o novo alelo no
banco de dados.
5. M ETODOLOGIA
84
Figura 5.28: Importação de genótipos no P ED E XPERT usando o formato vertical
Figura 5.29: Importação de genótipos no P ED E XPERT usando o formato horizontal
Caso o alelo importado realmente não exista, o usuário deve substituí-lo escolhendo
um novo alelo na lista de alelos do loco que está sendo importado. Entretanto, caso o
alelo exista, mas não esteja cadastrado, o usuário pode desejar que o alelo seja automaticamente cadastrado e deve selecionar uma das três opções descritas a seguir. A primeira
opção seria cadastrar o novo alelo utilizando a freqüência padrão informada pelo próprio
5. M ETODOLOGIA
85
Figura 5.30: Janela apresentando um alelo não cadastrado no banco de dados durante a
importação de genótipos
usuário nos parâmetros do sistema. Caso o usuário não queira utilizar essa freqüência
padrão, ele pode digitar outro valor ou utilizar a freqüência alélica mínima calculada pelo
P ED E XPERT. A freqüência alélica mínima de um banco de dados contendo n indivíduos
pode ser calculada pela Equação 5.8.
1
p mi n = 1 − α 2n
(5.8)
Nessa equação, p mi n é a freqüência mínima e n é o número de indivíduos. Para α,
sugere-se o valor 0, 05 (Budowle et al., 1996).
Após a importação, os genótipos de cada indivíduo podem ser visualizados na guia
Genotype da janela de especificação de casos (Figura 5.31). A partir desse momento, o
P ED E XPERT possui todas as informações necessárias para converter o caso em sua respectiva rede bayesiana. Com base nessa rede, será possível calcular o índice de paternidade
combinado, através do qual será determinado se o possível pai é de fato o pai biológico.
Após o processamento do caso, o P ED E XPERT apresenta os resultados das razões de verossimilhanças (índices de paternidade) de cada loco, o índice de paternidade combinado
(PI) e a probabilidade de paternidade (Figura 5.32). O mesmo raciocínio é utilizado para
a determinação de maternidade.
5. M ETODOLOGIA
86
Figura 5.31: Janela para entrada e visualização dos genótipos dos indivíduos de um caso
de paternidade
Figura 5.32: Apresentação dos resultados de um caso de paternidade pelo P ED E XPERT
O próximo capítulo traz alguns exemplos de casos, simples e complexos, solucionados
com o uso do P ED E XPERT.
C APÍTULO
E STUDOS DE CASO
6
6.1 Estudo de caso 1 : um caso de paternidade simples
O caso mais simples de verificação de vínculo genético é, sem dúvida alguma, o caso
de paternidade onde uma mulher alega que determinado homem é o pai de seu filho.
Nesse caso, representado pelo heredograma da Figura 6.1, estão disponíveis amostras de
DNA dos três indivíduos. Nesse estudo de caso, os genótipos fictícios de um trio (suposto
pai, mãe e filho) podem ser vistos na Tabela 6.1.
Figura 6.1: Heredograma de um caso de paternidade simples
Esse caso pode ser resolvido algebricamente pela aplicação de princípios de probabilidade e de genética mendeliana. Tomando como exemplo o cálculo da razão de verossimilhança do loco CSF1PO, tem-se como genótipos para o filho (9,12), para a mãe (8,12) e
para o suposto pai (9,10). Examinado-se esse três genótipos, está claro que o filho herdou
87
6. E STUDOS DE CASO
88
Tabela 6.1: Genótipos do trio para o caso da Figura 6.1
Indivíduo
Filho
Mãe
Suposto pai
CSF1PO
9
12
8
12
9
10
D01S1612
12
13
12
13
12
15
D02S1780
10
13
8
13
10
12
D03S1358
15
16
14
16
15
15
D04S1644
13
16
12
13
14
16
D05S818
9
10
9
9
8
10
o alelo 12 de sua mãe e, conseP ED E XPERTte, o alelo 9 foi obrigatoriamente herdado de seu
verdadeiro pai. A freqüência alélica armazenada no conjunto de locos do GENE para o
alelo 9 é de 0,027101335, embora o P ED E XPERT só apresente quatro casas decimais, como
pode ser visto na Figura 6.2. Para a hipótese de que o suposto pai tenha contribuído com
o alelo 9 a probabilidade é de 0,5, uma vez que ele poderia contribuir com o 9 ou com o 10.
A probabilidade de que outro indivíduo da população tenha contribuído com esse alelo
é dada pela freqüência desse alelo na população . Nesse caso, a razão de verossimilhança
para esse loco em favor da paternidade é de 0, 5/0, 027101335 = 18, 4493.
Figura 6.2: Freqüências alélicas para o loco CSF1PO no conjunto de locos do GENE
Com relação ao loco D01S1612, o filho possui o mesmo genótipo da mãe (12,13).
Supondo que a mãe tenha contribuído com o alelo 12, o verdadeiro pai terá contribuído
com o alelo 13. No caso de ela ter contribuído com o 13, o pai teria passado o alelo 12
ao filho. Dessa forma, não é possível determinar o alelo paterno obrigatório e o cálculo
da razão de verossimilhança deverá levar os dois alelos em consideração. Na hipótese
de que o suposto pai seja o verdadeiro pai, a probabilidade de que ele tenha contribuído
6. E STUDOS DE CASO
89
com o alelo 12 seria de 0, 5 enquanto que a probabilidade de que ele tenha contribuído
com o alelo 13 é de zero, já que ele não possui esse alelo em seu genótipo. A probabilidade de que outro indivíduo qualquer da população tenha contribuído com esses alelos é dada pelas freqüências dos dois alelos na população, nesse caso, 0, 042697 para o
alelo 12 e 0, 089680 para o alelo 13. A razão de verossimilhança portanto seria dada por
(0, 5 + 0)/(0, 042697 + 0, 089680) = 3, 7771.
A Tabela 6.2 mostra o valor do alelo paterno obrigatório (APO), a probabilidade que
o suposto pai tenha contribuído com o alelo, a probabilidade de que um indivíduo qualquer tenha contribuído com o alelo e o índice de paternidade (IP) para todos os locos
testados.
Tabela 6.2: Índices de paternidade para o caso simples de paternidade da Figura 6.1
Loco
CSF1PO
D01S1612
D02S1780
D03S1358
D04S1644
D05S818
APO
9
12 ou 13
10
15
16
10
Pr(Suposto pai)
0,5
0,5
0,5
1
0,5
0,5
Pr(Indivíduo qualquer)
0,027101335
0,132380151
0,064688427
0,301107210
0,046938775
0,050000000
IP
18,4493
3,7771
7,7294
3,3211
10,6522
10,0000
A Figura 6.3 apresenta os resultados das razões de verossimilhança calculados pelo
P ED E XPERT para esse caso de paternidade simples. A Figura 6.4 apresenta a rede bayesiana
criada para analisar esse caso.
É importante lembrar que, pelo fato de o P ED E XPERT criar uma única rede que é utilizada para o cálculo das razões de verossimilhança de todos os locos, é necessário mapear cada estado a um alelo do loco que está sendo testado. A tabela 6.3 apresenta o
mapeamento entre estados e alelos para o loco CSF1PO.
Uma vez que esse mapeamento esteja definido e que as tabelas de probabilidade
6. E STUDOS DE CASO
90
Figura 6.3: Resultados gerados pelo P ED E XPERT para o caso de paternidade simples
Figura 6.4: Rede Bayesiana correspondente a um caso de paternidade simples
condicionais referentes aos nós tipo 0 e 5 tenham sido devidamente preenchidas, deve-se
entrar com as evidências na rede com base nos genótipos dos indivíduos que possuem
DNA disponível. Por exemplo, para o filho que tem genótipo (9,12), a evidência para o
seu nó de genótipo deve ser a2a5, sendo a2 referente ao alelo 9 e a5 ao 12.
Após a definição das evidências, o P ED E XPERT propaga as probabilidades e evidências
por toda a rede bayesiana como pode ser visto na Figura 6.5. Para finalizar a avaliação do
loco, o P ED E XPERT recebe as probabilidades a priori representadas pelos estados Yes e No
6. E STUDOS DE CASO
91
Tabela 6.3: Mapeamento entre estados e alelos para o loco CSF1PO
Estado
a0
a1
a2
a3
a4
a5
a6
a7
Alelo
7
8
9
10
11
12
13
14
Tabela 6.4: Mapeamento das evidências para o loco CSF1PO
Indivíduo
Filho
Mãe
Suposto pai
CSF1PO
9
12
8
12
9
10
Evidência
a2a5
a1a5
a2a3
do nó teste e calcula a razão de verossimilhança. Nesse caso, 0, 949/0, 051 = 18, 4493, correspondendo ao mesmo valor da razão de verossimilhança calculada manualmente.
6.2 Estudo de caso 2 : um caso de paternidade simples
considerando mutação
Tomando ainda como exemplo um caso de paternidade simples como o da Figura 6.1,
suponha que o genótipo do filho para o loco CSF1PO seja (9,12) e o de sua mãe seja (8,12).
Fica claro que o alelo 9 foi herdado de seu verdadeiro pai. Entretanto, o genótipo do suposto pai é (8,11), o que em princípio excluiria a possibilidade dele ter contribuído com
o alelo 9, o que é confirmado pelo P ED E XPERT como pode ser visto na Figura 6.6. Nesse
caso, haveria dentre todos os locos testados, apenas uma única inconsistência genética.
A hipótese de mutação genética deve, portanto, ser levada em consideração.
A partir do genótipo do possível pai (8,11), existem duas possibilidades de mutações.
6. E STUDOS DE CASO
92
Figura 6.5: Valores dos estados de todos os nós da rede bayesiana para o loco CSF1PO do
caso simples de paternidade
A mais provável, é que o alelo 8 tenha sofrido uma mutação de um passo e se transformado em 9. A segunda, menos provável, mas ainda possível, seria a de que o alelo 11
teria sofrido uma mutação de dois passos e se transformado no alelo 9. Sob a hipótese
de que o suposto pai é o verdadeiro pai, a probabilidade que ele tenha contribuído com
o alelo 9 seria então dada pela probabilidade dele ter contribuído com o alelo 8 e esse ter
sofrido mutação de um passo mais a probabilidade dele ter contribuído com o alelo 11 e
esse ter sofrido uma mutação de dois passos. Tal probabilidade seria então calculada por
(0, 5 × 0, 000765) + (0, 5 × 0, 0000765).
A probabilidade do suposto transmitir qualquer um de seus alelos é igual, portanto
0,5. A taxa de mutação µ do loco CSF1PO é de 0, 001530, entretanto, os alelo 8 e 11 podem se mover tanto na direção positiva quanto negativa. Portanto, o alelo 8 poderia se
transformar em 7 ou 9 a uma taxa υ = µ/2 = 0, 000765. Como foi visto anteriormente, mutações de dois passos são 10 vezes mais raras e portanto, nesse caso, teriam uma taxa de
6. E STUDOS DE CASO
93
Figura 6.6: Resultado dos cálculos das razões de verossimilhança sem considerar mutação genética. O teste do loco CSF1PO resultou em exclusão, dado que o alelo paterno
obrigatório não está presente nos genótipos do suposto pai
υ/10 = 0, 0000765. A probabilidade de que um homem tomado aleatoriamente na população tenha contribuído com o alelo 8 é dada pela freqüência desse alelo na população,
0, 0271001335. Portanto, a razão de verossimilhança para o loco CSF1PO, levando-se em
consideração a possibilidade de mutação genética seria dada por ((0, 5×0, 000765)+(0, 5×
0, 0000765))/0, 027101335 = 0, 0155.
Repetindo os cálculos no P ED E XPERT, mas dessa vez levando-se em consideração a
possibilidade de mutação genética, obtém-se o mesmo valor de 0, 0155 para a razão de
verossimilhança do loco CSF1PO, como pode ser visto na Figura 6.7.
6. E STUDOS DE CASO
94
Figura 6.7: Resultado dos cálculos das razões de verossimilhança considerando mutação
genética
6.3 Estudo de caso 3 : um caso de identificação complexo
Nesse caso, uma mulher alega que um determinado homem é o pai de seu filho. O
suposto pai já é falecido e, nesse caso, o teste será realizado a partir de seus quatro filhos,
a viúva e um irmão. Esse caso apresenta duas características que tornam sua análise mais
complexa. A primeira é a ausência do perfil genético do suposto pai já que ele é falecido.
A segunda, é que será necessário combinar as duas linhas de informação obtidas a partir
dos genótipos dos filhos e do irmão do falecido, o que não é possível algebricamente.
O heredograma do caso é apresentado na Figura 6.8. A Figura 6.9 mostra a especificação deste caso. É interessante verificar que, mesmo não tendo seus genótipos disponíveis,
tanto o suposto pai quanto os possíveis avós são adicionados ao modelo. Na rede bayesiana
correspondente ao heredograma da Figura 6.8, os nós dos avós farão a propagação dos
6. E STUDOS DE CASO
95
Figura 6.8: Heredograma de um caso complexo de paternidade
dados entre o suposto pai e seu irmão.
Figura 6.9: Especificação do caso referente ao heredograma da Figura 6.8
A rede bayesiana gerada para esse caso é apresentada na Figura 6.10. Nela, é fácil verificar que os únicos nós que não estão conectados a nós de genótipo (_gtype) são os nós
que representam o suposto pai e os possíveis avós.
6. E STUDOS DE CASO
96
Figura 6.10: Rede Bayesiana referente ao heredograma da Figura 6.8
A Figura 6.11 apresenta parte dos 25 locos tipados para o indivíduo 830508.
Figura 6.11: Genótipos de um dos indivíduos do estudo de caso 3
Depois de inserir os indivíduos e importar seus respectivos genótipos, o caso pode
6. E STUDOS DE CASO
97
Figura 6.12: Resultados das razões de verossimilhança do estudo de caso 3
ser finalmente analisado pelo P ED E XPERT. O processamento desse caso que contém 11
indivíduos, 8 deles com genótipos disponíveis, ocorre em 1 minuto e 40 segundos. Devido
à grande quantidade de nós da rede bayesiana, e pela repetição do processo 25 vezes (uma
para cada loco testado), esse caso levaria cerca de 3 horas de trabalho de um especialista
que tentasse que tentasse analisá-lo utilizando a metodologia proposta por Dawid et al.
(2002) em um pacote de redes bayesianas de propósito geral.
6. E STUDOS DE CASO
98
6.4 Estudo de caso 4 : um caso de identificação complexo
considerando mutação
No último caso, uma mulher alega que um determinado homem é o pai de seu filho.
Entretanto, esse homem já é falecido e o teste deverá ser feito através de seus 3 filhos com
a esposa, a qual também já é falecida. Esse caso apresenta dois fatos que o tornam complexo de ser analisado. Tanto o possível pai quanto a mãe de seus três filhos que serão
testados já faleceram. Dessa maneira, não é possível determinar com certeza o genótipo
do possível pai, já que o genótipo da mãe de seus três filhos não está disponível, e assim
elimina-se a possibilidade de determinar seu genótipo através do cruzamento dos genótipos da mãe e dos três filhos.
O heredograma do estudo de caso 4 é apresentado na Figura 6.13.
Figura 6.13: Heredograma do estudo de caso 4
Após a importação dos genótipos no P ED E XPERT, procede-se a avaliação do caso. O
tempo de processamento desse caso é de apenas 42 segundos. Conforme pode ser visto
na Figura 6.14, dos 22 locos testados, um deles, o loco D21S1280, resulta em exclusão.
Analisando-se os genótipos dos cinco indivíduos apresentados na Tabela 6.5, é possível
verificar que o indivíduo 84Z X 855 herdou o alelo 29 de sua mãe e o 44 de seu verdadeiro
pai. A partir dos genótipos dos três filhos do possível pai, verifica-se que o pai pode ter
6. E STUDOS DE CASO
99
em seu genótipo os alelos 36, 41, 42 e 43.
Figura 6.14: Resultado dos cálculos das razões de verossimilhança sem considerar mutação genética. O teste do loco D21S1280 resultou em exclusão. Analisando os genótipos,
verifica-se que o alelo paterno obrigatório (44) não faz parte dos possíveis genótipos do
suposto pai. Entretanto, a proximidade desses alelos com o APO, sugere a possibilidade
de que possa ter ocorrido uma mutação genética.
Já que houve inconsistência em apenas um loco, é necessário levar em consideração a
possibilidade que tenha ocorrido uma mutação genética. Analisando os quatro possíveis
alelos do suposto pai, verifica-se que o alelo 44 pode ser resultado de uma mutação de
dois passos do alelo 42 ou, mais provavelmente, embora não descarte a hipótese anterior,
uma mutação de um passo do alelo 43. A análise da rede bayesiana levando em consideração a possibilidade de mutação genética, testará ambas as hipóteses. Os resultados
dessa análise podem ser vistos na Figura 6.16. O tempo de processamento desse caso
considerando mutação genética é de apenas 43 segundos, uma diferença insignificante
quando comparada ao tempo anterior de 42 segundos.
6. E STUDOS DE CASO
100
Tabela 6.5: Genótipos dos indivíduos para o loco D21S1280
Indivíduo
84AH851
84ZX855
84LM857
84ET858
84JN859
D01S1612
29
36
29
44
41
43
36
42
36
42
Figura 6.15: Rede Bayesiana referente ao heredograma da Figura 6.13
Figura 6.16: Resultado dos cálculos das razões de verossimilhança considerando mutação
genética. Nesse novo teste a razão de verossimilhança do loco D21S1280 passa de 0 para
0, 0071.
C APÍTULO
R ESULTADOS E DISCUSSÃO
7
7.1 Resultados
Os resultados desse trabalho podem ser comprovados através do próprio software desenvolvido. Foram desenvolvidos diversos algoritmos que formalizam a conversão de
um heredograma e dos genótipos dos indivíduos por ele representados em uma rede
bayesiana capaz de calcular a razão de verossimilhança global (ou índice de paternidade
combinado) para os mais variados casos de verificação de vínculo genético. Destacase que o software contribui significativamente numa grande redução de tempo na construção das redes bayesianas e também na redução substancial da possibilidade de erros.
Esses fatores fazem com que as análises de casos complexos de verificação de vínculo
genético sejam feitas em menor tempo, elevando, porém, a confiabilidade dos resultados
obtidos.
Como exemplo, a análise de um caso de paternidade como o que foi apresentado
nas Figuras 5.25 e 5.26 usando o software G E NI E e aplicando a metodologia proposta
por Dawid et al. (2002), leva em torno de 3 horas, usando 32 marcadores e considerando
um usuário com experiência nesse tipo de caso. Em contrapartida, no P ED E XPERT o
mesmo caso pode ser montado em cerca de 5 minutos. Após a especificação do caso, são
necessários cerca de 1 minuto e 10 segundos para se obter o índice de paternidade com-
101
7. R ESULTADOS E DISCUSSÃO
102
binado (tempo medido em um laptop com processador Intel Centrino Duo de 2,20GHz,
4GB RAM e sistema operacional Microsoft Windows Vista). São necessários apenas 2 segundos para criar a estrutura da rede bayesiana que será compartilhada por todos os
marcadores. O tempo restante é gasto para preencher todas as tabelas de probabilidades condicionais da estrutura criada, propagar as evidências e calcular o índice de paternidade. Esse processo é realizado diversas vezes, uma vez para cada marcador testado.
7.1.1 Análise de complexidade computacional dos principais
algoritmos propostos
A tabela 7.1 mostra a análise de complexidade dos principais algoritmos implementados no P ED E XPERT.
Tabela 7.1: Tabela de complexidade dos algoritmos do P ED E XPERT
Método
Complexidade
TPedigree.AddAbsentParents
O(n)
TBayesNet.SetEvidences
O(n)
TBayesNet.SetOutcomes
O(nm 2 )
TBayesNet.PedigreeToBayesNet
O(nm)
TBayesNet.SetProbFixa
O(nm 4 )
TBayesNet.SetProbVar
O(nm 3 )
Observação
n representa a quantidade de indivíduos
n representa a quantidade de indivíduos que possuem perfil genético
n representa a quantidade de nós
bayesianos
m representa a maior quantidade de
alelos em um loco
n representa a quantidade de indivíduos
m representa a quantidade de genótipos do indivíduo
n representa a quantidade de nós
bayesianos
m representa a maior quantidade de
alelos em um loco
n representa a quantidade de nós
bayesianos
m representa a maior quantidade de
alelos em um loco
Analisando a tabela, verifica-se que os algoritmos de maior complexidade computa-
7. R ESULTADOS E DISCUSSÃO
103
cional estão relacionados à criação de estados ou ao preenchimento das tabelas de probabilidades condicionais, e têm em comum o fato de serem altamente sensíveis à variação
na maior quantidade de alelos entre os locos. Os métodos SetOutcomes e SetProbFixa,
apesar do alto custo computacional, têm a seu favor uma única execução dentro do caso
de verificação de vínculo genético. Já o método SetProbvar, responsável pelo preenchimento das tabelas de probabilidades condicionais dos nós tipo 0 e 5, deve ser executado
uma vez para cada loco, já que é através dele que as freqüências alélicas do loco são embutidas na rede bayesiana.
Um dos testes realizados para verificar o desempenho do P ED E XERT, consistia em
analisar diferentes casos de verificação de vínculo genético no qual desejava-se testar um
suposto pai. Em alguns dos testes realizados o perfil genético do pai estava disponível,
em outros não. Nos casos nos quais o perfil genético não estava disponível, foram testados a esposa e, respectivamente, um, dois, três e quatro filhos do casal. Para cada análise,
foi utilizado um conjunto de cinco locos. A cada análise, eram adicionados novos alelos
aos locos de forma que o loco com maior quantidade de alelos tivesses respectivamente
10, 15, 20, 25 e 30 alelos. Assim, é possível verificar o tempo de processamento de cada
um dos casos, utilizando diferentes quantidades de estados nas tabelas de probabilidades
condicionais, já que esses estados estão intimamente relacionados à maior quantidade de
alelos encontrada em um loco do conjunto de locos. Os cinco casos testados são representados pelos heredogramas das Figuras 7.1, 7.2, 7.3, 7.4 e 7.5.
Figura 7.1: Caso fictício 1 - trio simples
7. R ESULTADOS E DISCUSSÃO
104
Figura 7.2: Caso fictício 2 - testando o suposto pai através da viúva e filho
Figura 7.3: Caso fictício 3 - testando o suposto pai através da viúva e 2 filhos
Figura 7.4: Caso fictício 4 - testando o suposto pai através da viúva e 3 filhos
A Tabela 7.2, mostra o tempo de execução em segundos para heredogramas com 3, 5,
6, 7 e 8 pessoas. Para cada um desses casos, foram testados 5 locos e variou-se a quantidade máxima de alelos por loco no intervalo de 10 à 30 com incrementos de 5 alelos.
O gráficos apresentado na Figura 7.6 exibe o comportamento polinomial do P ED E XPERT na execução dos cinco casos, à medida que é alterada a quantidade máxima de
alelos em um loco.
7. R ESULTADOS E DISCUSSÃO
105
Figura 7.5: Caso fictício 5 - testando o suposto pai através da viúva e 4 filhos
Tabela 7.2: Tempos de execução para casos com 3, 5, 6, 7 e 8 pessoas, variando a quantidade de estados de 10 à 30
Qtd. estados
10
15
20
25
30
3 pessoas
0,786s
2,500s
6,688s
15,219s
30,301s
Qtde. Pessoas testadas
5 pessoas 6 pessoas 7 pessoas
1,032s
3,282s
8,797s
19,985s
39,859s
1,203s
4,093s
11,328s
25,796s
51,625s
1,578s
6,281s
19,703s
49,344s
108,203s
8 pessoas
1,875s
7,593s
24,046s
61,219s
136,985s
O gráfico apresentado na Figura 7.7 mostra o comportamento linear da execução dos
cinco casos, aumentando-se a quantidade de locos analisados.
7.2 Discussão
A metodologia apresentada por Dawid em (Dawid et al., 2002) abriu as portas para a
inferência de casos de identificação genética através das redes bayesianas. Entretanto, a
sua utilização requer um longo tempo de aprendizado por parte de seus usuários. Nesse
caso, o principal aspecto está em aprender a modelar as redes bayesianas específicas para
cada caso, já que na metodologia não há a formalização de como modelar essas redes a
partir dos heredogramas dos casos. Uma vez que o usuário tenha adquirido experiência
na, segundo o próprio Dawid, "arte" de se modelar as redes bayesianas, surge outro problema que é a criação dos estados e o preenchimento das centenas, não raramente milhares, de entradas das diversas tabelas de probabilidades condicionais associadas a cada
7. R ESULTADOS E DISCUSSÃO
106
Figura 7.6: Gráfico que mostra o tempo de processamento de um caso em função da
maior quantidade de alelos presentes em um loco. Os tempos referem-se à análise de
5 locos de microssatélites
um dos nós da rede. Essa é a etapa que requer maior tempo (e paciência) do usuário. Essa
etapa também é a que está mais sujeita a erros devido à grande quantidade de dados e por
ser realizada repetidas vezes, uma para cada marcador genético que se deseja avaliar.
Diferente dessa metodologia, o que essa tese propõe e traz como contribuição é a automatização de todas as tarefas no processo de análise de casos de verificação de vínculo
genético por redes bayesianas. Essa automatização foi alcançada e apresentada na forma
de algoritmos, os quais foram implementados para avaliação no P ED E XPERT.
O P ED E XPERT vem contribuir de maneira efetiva em casos de identificação genética.
Entre seus pontos positivos, destaca-se a utilização das redes bayesianas, que tornam o
processo de cálculo extremamente confiável. Ainda deve-se destacar como ponto positivo, sua interface amigável e facilidade de uso. O P ED E XPERT foi projetado com a finalidade de exigir o mínimo possível de intervenção de seus usuários.
Por exemplo, as freqüências alélicas podem ser informadas manualmente ou através
7. R ESULTADOS E DISCUSSÃO
107
Figura 7.7: Gráfico que mostra o tempo de processamento de um caso de paternidade
simples (mãe, filho e suposto pai) em função da quantidade de locos testados. Os locos
utilizados tinham no máximo 15 alelos
de importação dos dados em um formato definido. Essas freqüências podem estar em
forma relativa ou absoluta. Uma vez que os locos e alelos estejam devidamente cadastrados, a janela de cadastro de loco permite ao usuário verificar o valor de cada freqüência
alélica e ainda mostra o valor da soma de todas as freqüências alélicas para o loco que
estiver sendo visualizado. Se a soma das freqüências alélicas for diferente de 1, um ícone
é apresentado e a soma das freqüências muda de cor, alertando assim o usuário de os
valores devem ser corrigidos, o que pode ser feito manualmente ou através do processo
de normalização dos dados. Uma vez que as freqüências alélicas de todos os locos esteja
corretamente preenchidas, o usuário não precisará mais intervir nesses valores, a não ser
quando ele desejar atualizar essas freqüências. O P ED E XPERT utilizará essas freqüências,
preenchendo automaticamente e sem a possibilidade de erro as tabelas de probabilidades condicionais. Portanto, isso reduz a quantidade de tempo necessário para a análise
que manualmente tomava algumas poucas horas do usuário e que com o P ED E XPERT é
feito em alguns segundos e, dependendo da complexidade do caso e da quantidade de
locos testados pode chegar a alguns poucos minutos.
C APÍTULO
C ONCLUSÕES E TRABALHOS FUTUROS
8
A importância da identificação pessoal e da verificação de vínculo genético entre indivíduos é inquestionável. São vários os benefícios alcançados do ponto de vista social, jurídico e de segurança pública que tornam a identificação de indivíduos através do exame
em DNA uma das grandes contribuições do campo da biologia molecular nas últimas décadas. A identificação de bebês trocados em berçários de maternidades e de indivíduos
seqüestrados ainda quando crianças, o reconhecimento de paternidade e maternidade,
a confirmação da identidade de indivíduos mortos em desastres naturais, atentados terroristas ou guerras, a possibilidade de criação e utilização de banco de dados para o armazenamento dos perfis genéticos de criminosos, comprovam a importância e a variedade de situações nas quais a identificação genética por DNA é utilizada.
O objeto de estudo desse trabalho, a análise de casos complexos de verificação de vínculo genético, pode se tornar um processo lento e de difícil solução por diversos motivos.
Entre eles, pode-se citar situações que envolvem a ausência de indivíduos importantes
para a avaliação do caso ou quando são observadas inconsistências no perfil genético dos
indivíduos testados, situação na qual a possibilidade de ocorrência de mutação genética
deve ser levada em consideração.
A solução apresentada nesse trabalho mostra como é possível realizar a análise desses
108
8. C ONCLUSÕES E TRABALHOS FUTUROS
109
casos com a utilização de redes bayesianas, que por sua natureza probabilística e capacidade de combinar as diversas informações embutidas, traz confiabilidade ao processo de
cálculo das razões de verossimilhança. Entretanto, a complexidade dessa análise através
das redes bayesianas também tende a aumentar na mesma proporção que os benefícios obtidos com sua utilização. A modelagem dessas redes não é um processo trivial
e demanda a combinação de conhecimentos de probabilidade, genética e de como criar
esse tipo de modelo gráfico probabilístico através da interpretação das relações de causa
e efeito das variáveis a serem avaliadas. Além disso, a enorme quantidade de dados a
serem informados em um processo extremamente repetitivo, demanda grande tempo e
é suscetível a erros. A combinação dos fatores complexidade, tempo e suscetibilidade a
erros, mostram a necessidade de que sejam criadas ferramentas que realizem todo o processo, exigindo o mínimo de tempo e intervenção de seus usuários.
Nessa tese foram propostos e apresentados algoritmos que formalizam todo o processo necessário para se realizar a análise probabilística de casos complexos de verificação de vínculo genético entre indivíduos através da utilização de redes bayesianas. Esses
algoritmos demonstram detalhadamente todas as etapas desde a modelagem da estrutura da rede bayesiana, passando pela criação dos estados e preenchimento das tabelas
de probabilidades condicionais, a definição e entrada das evidências na rede e a aquisição
das razões de verossimilhança para cada loco testado, gerando finalmente uma razão de
verossimilhança global para o caso. Os algoritmos propostos podem ser utilizados tanto
por geneticistas e peritos forenses que estejam interessado em modelar manualmente redes bayesianas para casos de verificação de vínculo genético quanto por programadores
que queiram implementar esses algoritmos através de um ambiente de desenvolvimento
e linguagem de programação apropriados. Além dos algoritmos, também foi apresentado
um software especialista baseado em redes bayesianas criado com a finalidade de implementar e permitir o teste dos algoritmos propostos.
8. C ONCLUSÕES E TRABALHOS FUTUROS
110
Os resultados obtidos foram satisfatórios sob vários pontos de vista. Os algoritmos
apresentados atingiram o objetivo de formalizar o mapeamento de casos complexos de
verificação de vínculo genético à partir de sua representação através de heredogramas
para suas redes bayesianas correspondentes. Esses algoritmos deram origem a um software de análise de casos complexos de verificação de vínculo genético, que combina uma
interface intuitiva e de fácil utilização, um ambiente de avaliação robusto e processamento de alto desempenho.
Com relação ao software criado, há de se ressaltar alguns aspectos como sua facilidade de manipulação. Prevendo-se que a sua utilização será feita principalmente por
biólogos e geneticistas, foi criada um interface simples que permite a especificação dos
mais diversos e complexos casos de verificação de vínculo genético, através da especificação de trios (mãe, pai e filho), os quais são suficientes para descrever qualquer heredograma, independente de sua complexidade. Isso permite que o usuário teste os casos
utilizando as redes bayesianas de forma transparente, trazendo os benefícios de sua utilização mesmo para aqueles que não possuem nenhum conhecimento sobre modelagem
de redes bayesianas.
8.1 Contribuições
Esse trabalho representa uma importante contribuição ao processo de análise de casos de verificação de vínculo genético. Mais especificamente, ele apresenta as seguintes
contribuições:
1. Apresentação de um algoritmo que cria a estrutura da rede bayesiana a partir do
heredograma do caso. Considerado uma das principais contribuições desse trabalho, esse algoritmo formaliza o processo de criação da estrutura da rede bayesiana
para cada caso de identificação genética especificado pelo usuário, definindo, a par-
8. C ONCLUSÕES E TRABALHOS FUTUROS
111
tir dos indivíduos e seus relacionamentos com os outros indivíduos representados
no heredograma, quais nós devem ser criados, seus respectivos tipos e a maneira
como devem ser conectados uns aos outros. Esse é um processo difícil e que é feito
de forma empírica. O algoritmo pode ser usado tanto por pessoas que querem criar
suas próprias redes e preencher as tabelas de probabilidades condicionais manualmente, quanto por aqueles que desejam desenvolver um software que automatize
essa tarefa.
2. Apresentação de um algoritmo que cria os estados necessários à cada nó da rede
bayesiana, com base em seu tipo.
3. Apresentação de um algoritmo que preenche corretamente as milhares de entradas
das tabelas de probabilidades condicionais associadas à cada nó da rede, através da
utilização de um banco de freqüências alélicas cadastrado previamente. Se criada
manualmente, uma vez que a estrutura da rede bayesiana para um determinado
caso de verificação de vínculo genético entre indivíduos estivesse pronta, iniciavase o lento processo de preenchimento das tabelas de probabilidades condicionais
para os diversos marcadores genéticos testados. Essa é uma tarefa repetitiva e que
demanda a maior quantidade de tempo em todo o processo. Pela grande quantidade de dados manipulados, essa também é a etapa em que ocorriam a maior
quantidade de erros. Sendo assim, o desenvolvimento do algoritmo que preenche
automaticamente as tabelas de probabilidades condicionais também pode ser considerado uma contribuição, já que ele elimina a etapa com maior suscetibilidade a
erros durante a modelagem da rede bayesiana.
4. Introdução da estratégia de se utilizar uma única rede bayesiana para todos os loco
a serem testados, utilizando como estados identificadores fictícios para os alelos,
8. C ONCLUSÕES E TRABALHOS FUTUROS
112
mapeados aos seus verdadeiros identificadores através de uma estrutura de dados
adequada.
5. Apresentação de um novo modelo de rede bayesiana que incorpora a informação
sobre mutação genética sem a necessidade de se adicionar novos nós à rede originalmente criada para o caso, permitindo criar uma única rede bayesiana independente se o caso será analisado levando-se em consideração ou não a possibilidade
de mutação genética. Diferente de alguns modelos de redes bayesianas propostos
com o objetivo de lidar com a possibilidade de mutação genética na transmissão de
alelos, os quais adicionam novos nós aos nós que representam os genes paterno e
materno, o modelo desenvolvido nessa tese aproveita a estrutura da rede bayesiana
criada. A diferença está no preenchimento das tabelas de probabilidades condicionais, eliminando assim a necessidade de se adicionar novos nós à estrutura da
rede bayesiana previamente criada.
6. Interface que permite que não-especialistas em modelagem bayesiana analisem
casos complexos de identidade genética. Como foi citado anteriormente, o P ED E XPERT foi projetado para auxiliar geneticistas e peritos forenses na inferência de
problemas de identidade genética. Portanto, ao invés de adotar novas formas de
modelagem, optou-se por utilizar um modelo clássico e bastante difundido que
é o próprio heredograma. A modelagem de um complexo caso de identificação
genética pode ser feita em dois passos simples: a importação dos genótipos e dos
indivíduos e a determinação dos relacionamentos entre esses indivíduos.
7. Desenvolvimento do P ED E XPERT: um software especialista bayesiano, como interface intuitiva e amigável, que torna transparente para o usuário toda a complexidade obtida através da utilização das redes bayesianas. O próprio sistema desen-
8. C ONCLUSÕES E TRABALHOS FUTUROS
113
volvido pode ser considerado uma contribuição. Através dele se disponibiliza uma
funcionalidade que não existia antes. O sistema é de implementação não trivial e
traz, portanto, uma contribuição significativa para o processo de inferência na ciência forense. Através dele é possível que geneticistas com grande conhecimento em
sua área mas com conhecimento restrito em modelos probabilísticos e modelagem
bayesiana, consigam analisar os mais diversos e complexos casos de identificação
genética.
8.2 Trabalhos futuros
Durante o desenvolvimento dessa pesquisa, foram identificadas algumas questões
que podem ser consideradas à fim de dar continuidade a esse trabalho. As seções a seguir
são sugestões de trabalhos futuros.
8.2.1 Identificação genética em larga escala
Uma das sugestões é a integração do P ED E XPERT a um sistema de identificação genética
de grande escala. Supondo um acidente com 1000 vítimas fatais, nas quais nenhuma
pode ser reconhecida por métodos clássicos de identificação. Nesta situação surge um
grande problema. A principal dificuldade seria confrontar os dados de cada vítima com
cada uma das famílias a fim de se identificar em que família cada uma das amostras se encaixa. Esse problema é intratável visto são necessários n(n +1)/2 testes. Assim, a primeira
vítima seria confrontada com as 1000 famílias. A segunda, seria confrontada com as 999
restantes, e assim por diante. Nestes casos, dada a grande quantidade de pessoas envolvidas (vítimas e parentes), torna-se imprescindível o uso de métodos e ferramentas
computacionais eficientes, extremamente confiáveis e de comprovada acurácia que reduzam o espaço de soluções e permitam identificar o indivíduo mais rapidamente.
8. C ONCLUSÕES E TRABALHOS FUTUROS
114
8.2.2 Melhoria no desempenho
Apesar de o P ED E XPERT apresentar desempenho satisfatório em relação ao tempo
gasto para a análise dos casos, existe uma maneira de melhorar ainda mais seu desempenho no processo de análise dos casos de verificação de vínculo genético entre indivíduos. O Capítulo 7 mostra que o preenchimento das tabelas de probabilidades condicionais é altamente sensível à quantidade de alelos utilizados na modelagem da rede.
Portanto, a melhoria no desempenho de avaliação dos casos se daria através da redução
na quantidade de estados referentes aos alelos que devem ser representados, melhorando
assim os tempos obtidos para a análise dos casos de verificação de vínculo genético.
Essa estratégia, entretanto, seria válida apenas para a análise de casos que não levam
em consideração a possibilidade de mutação genética, já que nesse caso seria necessário
implementar além de cada alelo dos genótipos, os alelos a um e dois passos de distância, o que levaria à necessidade de representação de uma grande parte dos alelos. Esse
aumento no desempenho, traria uma grande diminuição no tempo de análise na identificação em larga escala. Por exemplo, supondo a análise de mil casos de identificação em
lote, com cerca de 8 indivíduos por caso e 30 alelos, seriam necessárias cerca de 38 horas
de processamento ininterrupto. Se a quantidade de alelos fosse diminuída de 30 para 15,
o tempo necessário seria reduzido para cerca de 2 horas de processamento.
A PÊNDICE
O
A
DE
ALGORITMO
DE
HEREDOGRAMAS
CONVERSÃO
EM
REDES
BAYESIANAS
Aqui está o algoritmo de conversão apresentado de forma mais concisa através de
uma tabela de decisão. Ele é apresentado tomando como exemplo o heredograma da
Figura A.1.
Figura A.1: Heredograma exemplo para o algoritmo de conversão
115
A. O ALGORITMO DE CONVERSÃO DE HEREDOGRAMAS EM REDES BAYESIANAS
116
A PÊNDICE
TABELAS
B
DO BANCO DE DADOS DO
P ED E XPERT
B.1 A tabela Param
A tabela Param é responsável por armazenar os parâmetros do sistema. A tabela possui apenas 4 campos e um único registro cadastrado, já que apenas uma instância desses
parâmetros é necessária. Os campos SaveBN e Directory são responsáveis pelo armazenamento dos parâmetros que informam ao sistema se as redes bayesianas construídas durante o processo de avaliação de um caso de determinação de vínculo genético devem ser
armazenadas e qual a localização dessas redes no computador. Esse parâmetros, entretanto, não estão disponíveis para os usuários do P ED E XPERT. Eles são utilizados apenas
em testes para verificação das redes criadas.
Já os campos DefaultFrequency e DefaultMutationRate armazenam, respectivamente,
os valores padrão para freqüência alélica e taxa de mutação. A freqüência alélica padrão
é utilizada durante o cálculo dos índices de paternidade caso um alelo não possua sua
respectiva freqüência cadastrada ou durante a importação dos genótipos dos indivíduos
envolvidos em um determinado caso. A taxa de mutação padrão, por sua vez, é utilizada
para os locos que não têm sua taxa de mutação informada durante a análise de casos de
determinação de vínculo genético que levam em consideração a possibilidade de mutação paterna.
117
B. TABELAS DO BANCO DE DADOS DO P ED E XPERT
118
B.2 A tabela LocusSet
A tabela LocusSet tem como objetivo agrupar e organizar os locos armazenados na
tabela Locus em conjuntos de locos. Essa tabela é muito simples e possui apenas 2 campos, mas tem um papel fundamental no banco de dados e no funcionamento do P ED E XPERT. É graças a essa tabela, que há a possibilidade de se manter vários bancos de
freqüências alélicas no sistema. Isso é possível pelo fato da tabela LocusSet permitir o
cadastro de locos e alelos duplicados desde que em conjuntos de locos diferentes. O
campo LocusSetID é o campo utilizado para identificar um conjunto de locos. Ele é a
chave primária da tabela e, portanto, não pode ter dois valores de LocusSetID idênticos.
Esse campo é usado como chave estrangeira em diversas tabelas que precisam identificar
o conjunto de locos utilizado. O campo LocusSetDesc armazena o nome de cada conjunto
de locos.
B.3 A tabela Locus
O objetivo da tabela Locus é armazenar os dados dos locos de microssatélites utilizados pelo P ED E XPERT. Para dar maior flexibilidade ao sistema, permitindo que os diferentes casos de determinação de vínculo genético possam utilizar diferentes conjuntos
de freqüências alélicas, cada registro da tabela Locus está relacionado a um registro da
tabela LocusSet. Dessa forma, torna-se possível cadastrar um mesmo loco em diferentes
conjunto de locos. Por exemplo, o loco D05S818, pode estar presente tanto no banco de
freqüências alélicas do FBI quanto no banco de freqüências alélicas do GENE. No P ED E XPERT, é então importante que esse loco seja cadastrado duas vezes. Um registro deve
estar relacionado ao conjunto de locos do FBI e outro relacionado ao do GENE. Cada um
desses registros pode, portanto, ter diferentes valores de freqüências alélicas.
B. TABELAS DO BANCO DE DADOS DO P ED E XPERT
119
A tabela é composta por 5 campos, sendo que os campos LocusSetID e LocusID fazem
parte da chave primária e, dessa forma, identificam cada loco registrado na tabela com
exclusividade. Além de fazer parte da chave primária, o campo LocusSetID também é uma
chave estrangeira que está relacionado à tabela LocusSet. Assim, só é possível registrar um
loco com um determinado LocusSetID, desde que esse identificador já esteja previamente
cadastrado na tabela LocusSet. O campo LocusID é na verdade um campo textual com no
máximo 20 caracteres e deve ser utilizado para registrar o nome de cada loco.
O campo LocusDescription armazena uma pequena descrição sobre o loco. Essa descrição não é obrigatória. O campo MutationRate armazena a taxa de mutação de cada
loco. Por fim, o campo NumberOfAlleles registra o somatório das freqüências absolutas
de todos os alelos de um loco, em um determinado banco de freqüências alélicas.
B.4 A tabela Allele
Junto com as tabelas LocusSet e Locus, a tabela Allele faz parte do conjunto de tabelas
responsáveis por armazenar as freqüências alélicas utilizadas pelo P ED E XPERT durante o
processamento dos casos de determinação de vínculo genético. Os campos LocusSetID,
LocusID e AlleleID fazem parte da chave primária da tabela e identificam com exclusividade cada alelo registrado nessa tabela. Os campos LocusSetID e LocusID também compõem a chave estrangeira que relaciona a tabela Allele à tabela Locus. Ou seja, um determinado alelo só pode ser cadastrado para um loco, caso esse loco tenha sido previamente
registrado na tabela Locus. O campo AlleleID é uma identificação numérica de cada alelo.
O campo Frequency armazena a freqüência desse alelo no banco de dados.
B. TABELAS DO BANCO DE DADOS DO P ED E XPERT
120
B.5 A tabela Pedigree
Além da tabela Pedigree, as tabelas Individual, Genotype e PedigreeResults são responsáveis por armazenar todo o conjunto de informações de um determinado caso de determinação de vínculo genético. A tabela Pedigree armazena os dados dos diversos casos
de determinação de vínculo genético. Ela é uma tabela muito simples, constituída por
apenas 3 campos.
PedID é o campo que identifica um caso de determinação de vínculo genético. Ele é o
único campo que faz parte da chave primária da tabela Pedigree. O campo LocusSetID é o
campo que identifica que conjunto de locos está sendo utilizado por esse caso. É através
desse campo que a tabela Pedigree se relaciona com a tabela LocusSet. Por fim, o campo
PI armazena o valor do índice de paternidade Paternity Index após o cálculo das razões
de verossimilhança de todos os locos do caso. No P ED E XPERT, as razões de verossimilhança são denominadas índice de paternidade, devido à característica de que todo caso
de determinação de vínculo genético pode ser solucionado na forma de um caso de paternidade, com exceção, obviamente, dos casos de determinação de maternidade.
B.6 A tabela Individual
A tabela Individual armazena os dados de um indivíduo que participa de um caso de
determinação de vínculo genético. Um indivíduo é identificado pelos campos PedID e
IndividualID. O campo PedID, além de compor a chave primária junto com o campo IndividualID, também é uma chave estrangeira para a tabela Pedigree. Essa chave primária
traz uma característica importante ao P ED E XPERT. Um mesmo indivíduo que participe de
mais de um caso, deve ser registrado novamente em cada novo caso. Tal comportamento
de deve ao fato de que o IndividualID está relacionado, através chave estrangeira PedID,
a um determinado caso. Relacionar o mesmo registro de um indivíduo à diferentes casos,
B. TABELAS DO BANCO DE DADOS DO P ED E XPERT
121
traria um complexidade adicional e desnecessária. Para estabelecer tal relacionamento,
seria necessário criar uma tabela intermediária que fizesse o relacionamento entre indivíduos e casos, com cardinalidade N : N .
Os campos Father e Mother armazenam, respectivamente, o códigos que identificam
o pai e a mãe do indivíduo, os quais devem estar previamente registrado no mesmo caso
de determinação de vínculo genético na tabela Pedigree. Esses campos são muito importantes no âmbito da especificação de um caso de determinação de vínculo genético. É
através deles que as relações de uma estrutura familiar são determinadas. Uma estrutura
familiar, por mais complexa que seja, pode ser totalmente determinada de maneira simples, através do relacionamento de cada indivíduo aos seus pais.
O campo Gender armazena o sexo de cada indivíduo. Ele também é um campo importante na especificação de uma estrutura familiar, na medida em que elimina a possibilidade de que ocorra um erro no sistema por causa da seleção acidental de um indivíduo do
sexo feminino como pai ou de um indivíduo do sexo masculino como mãe. A seleção do
pai e mãe de um indivíduo dependem desse campo, já que o pai só pode ser selecionado
do grupo de indivíduos do sexo masculino, enquanto a mãe é selecionada do grupo de
indivíduos do sexo feminino.
Os campos VerifyPaternity e VerifyMaternity informam ao P ED E XPERT, qual indivíduo
está sendo testado com relação à seu pai, mãe ou ambos. O P ED E XPERT permite testar
mais de um indivíduo ao mesmo tempo por exemplo, em uma situação na qual uma mãe
alega que seus 3 filhos são filhos de um determinado homem.
B. TABELAS DO BANCO DE DADOS DO P ED E XPERT
122
B.7 A tabela Genotype
O processo de identificação genética de um indivíduo é realizado atualmente com
base em seu perfil genético. Esse perfil genético é formado pelos genótipo de um indivíduo para vários marcadores genéticos, sendo mais utilizados atualmente os locos de microssatélites. A tabela Genotype armazena os genótipos de cada indivíduo que tem o perfil
genético disponível para ser testado. Essa tabela está, através de suas chaves estrangeiras,
relacionada às tabelas Individual e Allele. Sendo assim, só é permitido registrar um determinado genótipo se tanto o indivíduo quanto o alelo estiverem previamente e devidamente armazenados em suas respectivas tabelas. Compõem a chave primária dessa
tabela os campos PedID, IndividualID, LocusSetID e LocusID. Os campos Allele1 e Allele2
armazenam os valores dos alelos que compõem o genótipo para o loco testado. Esse dois
campos podem ter o mesmo valor de alelo, já que é possível que um indivíduo apresente
um genótipo homozigoto, ou seja, dois alelos iguais, para um determinado loco.
B.8 A tabela PedigreeResults
Após o processamento de um caso de determinação de vínculo genético, para cada
loco testado, são calculadas duas probabilidades que representam as duas hipóteses testadas. Num caso de verificação de paternidade, por exemplo, a primeira hipótese é a
de que o filho tenha recebido o alelo do suposto pai que está sendo testado. A segunda
hipótese é a de que o filho tenha recebido o alelo de outro indivíduo qualquer tomado
aleatoriamente da população. A tabela PedigreeResults armazena os resultados desses cálculos, os quais são realizados para todos os loco testados. Os campos PedID, LocusSetID e
LocusID compõem a chave primária dessa tabela. Através do campo PedID identifica-se a
que caso esse resultado pertence. Os campos LocusSetID e LocusID identificam para que
loco esse resultado foi calculado. O campo OutcomeYes armazena a probabilidades de
que o filho tenha recebido o alelo do suposto pai. Por fim, o campo OutcomeNo armazena
B. TABELAS DO BANCO DE DADOS DO P ED E XPERT
123
a probabilidade de que o filho tenha recebido esse alelo de outro indivíduo qualquer da
população.
R EFERÊNCIAS B IBLIOGRÁFICAS
AABB, R. T. P. U. (2004). Annual Report Summary for Testing in 2004. Technical report,
American Association of Blood Banks, Bethesda, MD.
Anderson, A. D. e Weir, B. S. (2005). It was one of my brothers. International Journal of
Legal Medicine, 120(2):95–104.
Ayadi, I.; Mahfoudh-Lahiani, N.; Makni, H.; Ammar-Keskes, L. e Rebai, A. (2007). Combining Autosomal and Y-Chromosomal Short Tandem Repeat Data in Paternity Testing
with Male Child: Methods and Application. Journal of Forensic Sciences, 52(5):1068–
1072.
Beaumont, M. A. e Rannala, B. (2004). The bayesian revolution in genetics. Nature Genetics Reviews, 5:251–261.
Bennet, P. (2000). Demystified...: Microsatellites. Molecular Pathology, 53(4):177.
Bianchi, L. e Lio, P. (2007). Forensic DNA and bioinformatics. Briefings in Bioinformatics,
pp. 1–12.
Biedermann, A. e Taroni, F. (2006). Bayesian networks and probabilistic reasoning about
scientific evidence when there is a lack of data. Forensic Science International, 157(23):163–167.
124
R EFERÊNCIAS B IBLIOGRÁFICAS
125
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer, New York, NY.
Brenner, C. H. (1997). Symbolic Kinship Program. Genetics, 145(2):535–542.
Brenner, C. H. (2004). Multiple mutations, covert mutations and false exclusions in paternity casework. International Congress Series, 1261:112–114.
Brenner,
C.H. (2008).
STR Mutation Model in DNA-View.
http://dna-
view.com/mufeatur.htm.
Brinkmann, B.; Klintschar, M.; Neuhuber, F.; Hühne, J. e Rolf, B. (1998). Mutation Rate in
Human Microsatellites: Influence of the Structure and Length of the Tandem Repeat.
American Journal of Human Genetics, 62(6):1408–1415.
Brinkmann, B.; Pfeiffer, H.; Schürenkamp, M. e Hohoff, C. (2001). The evidential value of
STRs. International Journal of Legal Medicine, 114(3):173–177.
Buckleton, J. e Triggs, C. (2006). The effect of linkage on the calculation of DNA match
probabilities for siblings and half siblings. Forensic Science International, 160(2-3):193–
199.
Budowle, B.; Monson, K. L. e Chakraborty, R. (1996). Estimating minimum allele frequencies for DNA profile frequency estimates for PCR-based loci. International Journal of
Legal Medicine, 108:173–176.
Chakraborty, R. e Stivers, D. N. (1996). Paternity exclusion by DNA markers: effects of
paternal mutations. Journal of Forensic Sciences, 41(4):671–677.
Charniak, E. (1991). Bayesian networks without tears. AI Magazine, 12:50–63.
Cifuentes, L.; Martinez, E.; Acuna, M. e Jonquera, H. (2006). Probability of Exclusion in
Paternity Testing: Time to Reassess. Journal of Forensic Sciences, 51(2):349–350.
Clayton, T. M.; Whitaker, J. P. e Maguire, C. N. (1995). Identification of bodies from the
scene of a mass disaster using DNA amplification of short tandem repeat (STR) loci.
Forensic Science International, 76:7–15.
R EFERÊNCIAS B IBLIOGRÁFICAS
126
Cowell, R. G. (2001). FINEX: Forensic Identification by Network Expert Systems. Research
Report 22, Department of Actuarial Science and Statistics, The City University, London.
Cowell, R. G. (2003). FINEX: a Probabilistic Expert System for forensic identification.
Forensic Science International, 134(2-3):196–206.
Cowell, R. G.; Dawid, A. P.; Lauritzen, S. L. e Spiegehalter, D. J. (1999). Probabilistic Networks and Expert Systems. Springer-Verlag, New York, NY.
Dajda, T. e Jung, M. (2006). LR-calculation of any kinship situation using a new graphical
interface: Generate two or more hypotheses, draw the family trees and assign the DNAprofiles to person symbols. International Congress Series, 1288:474–476.
Dawid, A. (1992). Applications of a general propagation algorithm for probabilistic expert
systems. Statistics and Computing, 2(1):25–36.
Dawid, A. (2003). An object-oriented Bayesian network for estimating mutation rates.
Proceedings ofthe Ninth International Workshop on Artificial Intelligence and Statistics,
January, pp. 3–6.
Dawid, A. P.; Mortera, J. e Pascali, V. L. (2001). Non-fatherhood or mutation? A probabilistic approach to parental exclusion in paternity testing. Forensic Science International,
124:55–61.
Dawid, A. P.; Mortera, J.; Pascali, V. L. e van Boxel, D. (2002). Probabilistic Expert Systems for Forensic Inference from Genetic Markers. Scandinavian Journal of Statistics,
29(4):577–595.
Dawid, A. P.; Mortera, J. e Vicard, P. (2006). Representing and solving complex DNA identification cases using bayesian networks. International Congress Series, 1288:484–491.
Dawid, A. P.; Mortera, J. e Vicard, P. (2007). Object-oriented Bayesian networks for complex
forensic DNA profiling problems. Forensic Science International, 169(2-3):195–205.
R EFERÊNCIAS B IBLIOGRÁFICAS
127
Dawid, A. P.; van Boxel, D. W.; Mortera, J. e Pascali, V. L. (1999). Inference About Disputed
Paternity from an Incomplete Pedigree Using a Probabilistic Expert System. Bull. Int.
Statist. Inst. Contributed Papers, 58:241–242.
Egeland, T.; Mostad, P.; Mevâg, B. e Stenersen, M. (2000). Beyond traditional paternity
and identification cases selecting the most probable pedigree. Forensic Science International, 110:47–59.
Elmasri, R. e Navathe, S. B. (2000). Fundamentals of Database Systems. Addison-Wesley,
Reading, Massachusetts.
Foreman, L.; Smith, A. e Evett, I. (1997). Bayesian Analysis of DNA Profiling Data in Forensic Identification Applications. Journal of the Royal Statistical Society: Series A (Statistics
in Society), 160(3):429–459.
Foreman, L. A.; Champod, C.; Evett, I. W.; Lambert, J. A. e Pope, S. (2003). Interpreting
DNA Evidence: A Review. International Statistical Review, 71(3):473–495.
Fung, W. K. (2003). User-friendly programs for easy calculations in paternity testing and
kinship determinations. Forensic Science International, 136:22–34.
Garbolino, P. e Taroni, F. (2002). Evaluation of scientific evidence using Bayesian networks.
Forensic Science International, 125:149–155.
Gill, P. (2005). DNA as evidence - The technology of identification. New Engl. J. Med.,
73:2669–2671.
Gjertson, D.; Brenner, C.; Baur, M.; Carracedo, A.; Guidet, F.; Luque, J.; Lessig, R.; Mayr, W.;
Pascali, V.; Prinz, M. et al. (2007). ISFG: Recommendations on biostatistics in paternity
testing. Forensic Science International: Genetics, 1(3-4):223–231.
Hammond, H. A.; Jin, L.; Caskey, C. T. e Chakraborty, R. (1994). Evaluation of 13 Short
Tandem Repeat Loci for Use in Personal Identification Applications. American Journal
of Human Genetics, 55:175–189.
R EFERÊNCIAS B IBLIOGRÁFICAS
128
Heckerman, D. (1990). Probabilistic Similarity Networks. PhD thesis, Stanford.
Heckerman, D. (1995). A tutorial on learning with bayesian networks. Technical report,
Microsoft Research, Redmond, WA.
Heckerman, D. e Wellman, M. P. (1995). Bayesian Networks. Communications of the ACM,
38(3):27–30.
Jeffreys, A. J.; Turner, M. e Debenham, P. (1991). The efficiency of multilocus DNA fingerprint probes for individualization and establishment of family relationships, determined from extensive casework. American Journal of Human Genetics, 48(5):824–840.
Jeffreys, A. J.; Wilson, V. e Then, S. L. (1985). Hypervariable ’minisatellite’ regions in Human DNA. Nature, 314(7):67–73.
Jensen, C. S. (1997). Blocking Gibbs Sampling for Inference in Large and Complex Bayesian
Networks with Applications in Genetics. PhD thesis, Aalborg University Aalborg.
Jensen, F. V. (2001). Bayesian Networks and Decision Graphs. Springer-Verlag, New York,
NY. Statistics for Engineering and Information Science.
Kimura, M. e Ohta, T. (1978). Stepwise mutation model and distribution of allelic frequencies in a finite population. Proc. Natl. Acad. Sci. (PNAS), 75:2868–2872.
Kjærulff, U. e Madsen, A. (2005). Probabilistic Networks An Introduction to Bayesian
Networks and Influence Diagrams. Aalborg University.
Lauritzen, S. L. e Sheehan, N. A. (2003). Graphical models for genetic analyses. Statistical
Science, 18:489–514.
Lee, H.; Lee, J.; Han, G. e Hwang, J. (2000). Motherless case in paternity testing. Forensic
Science International, 114(2):57–65.
Lee, J.; Lee, H.; Park, M. e Hwang, J. (2001). Paternity determination when the alleged
father’s genotypes are unavailable. Forensic Science International, 123:202–210.
R EFERÊNCIAS B IBLIOGRÁFICAS
129
Leopoldino, A. M. e Pena, S. D. J. (2002). The Mutational Spectrum of Human Autossomal
Tetranucleotide Microsatellites. Human Mutation, 21:71–79.
Lin, T. H.; Myers, E. W. e Xing, E. P. (2006). Interpreting anonymous DNA samples from
mass disasters–probabilistic forensic inference using genetic markers. Bioinformatics,
22(14):298–306.
Lucas, P.; van der Gaag, L. e Abu-Hanna, A. (2004). Bayesian networks in biomedicine and
health-care. Artificial Intelligence In Medicine, 30(3):201–214.
Margolis-Nunno, H.; Brenner, L.; Cascardi, J. e Kobilinsky, L. (2001). A new allele of the
short tandem repeat (STR) locus, CSF1PO. Journal of Forensic Sciences, 46:1480–1483.
Maviglia, R.; Mortera, J.; Dobosz, M.; Caglià, A.; Pascali, V.; van Boxel, D. e Dawid, A. (2000).
Forensic inference from incomplete pedigrees by probabilistic expert systems. Progress
in Forensic Genetics, 8:399–401.
McPherson, J.; Marra, M.; Hillier, L.; Waterston, R.; Chinwalla, A.; Wallis, J.; Sekhon, M.;
Wylie, K.; Mardis, E.; Wilson, R. et al. (2001). A physical map of the human genome.
Nature, 409(6822):934–941.
Mixich, F.; Ioana, M. e Mixich, V. (2004). Paternity analysis in special fatherless cases without direct testing of alleged father. Forensic Science International, 146:159–161.
Morling, N.; Allen, R. W.; Carracedo, A.; Geada, H.; Guidet, F.; Hallenberg, C.; Martin,
W.; Mayr, W. R.; Olaisen, B.; Pascali, V. L. e Schneider, P. M. (2002). Paternity Testing
Commission of the International Society of Forensic Genetics: recommendations on
genetic investigations in paternity cases. Forensic Science International, 129(3):148–
157.
Mortera, J.; Dawid, A. P. e Lauritzen, S. (2003). Probabilistic expert systems for DNA mixture profiling. Theoretical Population Biology, 63:191–205.
R EFERÊNCIAS B IBLIOGRÁFICAS
130
Nakano, F. (2006). Um novo modelo para cálculo de probabilidade de paternidade - concepção e implementação. PhD thesis, USP, São Paulo.
Pearl, J. (1986). Fusion, Propagation, and Structuring in Belief Networks. Artificial Intelligence, 29(3):241–288.
Pearl, J. (1988). Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan Kaufmann, San Francisco, CA.
Pearl, J. (1994). Belief Networks Revisited. Artificial Intelligence in Perspective. MIT Press,
pp. 49–52.
Pearl, J. (2001). Bayesian Networks, Causal Inference and Knowledge Discovery. Technical
report, University of California, Los Angeles.
Pena, S. D. J. (2005). Segurança pública: Determinação de Identidade Genética pelo DNA.
Parcerias Estratégicas, 20:447–460.
Pena, S. D. J. (2006). Thomas bayes: o ’cara’! Ciência Hoje, 38:22–29.
Pena, S. D. J.; Prado, V. F. e Epplen, J. T. (1995). DNA diagnosis of human genetic individuality. Journal of Molecular Medicine, 73:555–564.
Rich, E. e Knight, K. (1991). Artificial Intelligence. McGraw-Hill.
Rocheta, M.; Miguel Dionísio, F.; Fonseca, L. e Pires, A. (2007). Paternity analysis in Excel.
Computer Methods and Programs in Biomedicine, 88(3):234–238.
Ross, S. (2002). A First Course in Probability. Prentice Hall, Upper Saddle River, New Jersey.
Russel, S. e Norvig, P. (1995). Artificial Inteligence. Prentice Hall, Upper Saddle River, New
Jersey.
Schlenk, J.; Seidl, S.; Braunschweiger, G. e Betz, P. (2004). Development of a 13-locus PCR
multiplex system for paternity testing. International Journal of Legal Medicine, 118:55–
61.
R EFERÊNCIAS B IBLIOGRÁFICAS
131
Shoemaker, J. S.; Painter, I. S. e Weir, B. S. (1999). Bayesian statistics in genetics: a guide
for the uninitiated. Trends in Genetics, 15(9):354–358.
Silberschatz, A.; Korth, H. F. e Sudarshan, S. (1997). Database System Concepts. McGrawHill, New York, NY.
Spiegelhater, D.; Dawid, A.; Lauritzen, S. e Cowell, R. G. (1993). Bayesian analysis in expert
systems. Statistical Science, 8:219–283.
Strachan, T. e Read, A. P. (2004). Human Molecular Genetics. Garland Science, New York,
NY.
Szolovits, P. (1995). Uncertainty and decisions in medical informatics. Methods of Information in Medicine, 34:111–121.
Taroni, F.; Biedermann, A.; Garbolino, P. e Aitken, C. G. G. (2004). A general approach to
bayesian networks for the interpretation of evidence. Forensic Science International,
139:5–16.
Tautz, D. (1989). Hipervariability of simple sequences as a general source for polymorphic
DNA markers. Nucleic Acids Research, 17:6463–6471.
Thiele, H. e Nürnberg, P. (2005). Haplopainter: a tool for drawing pedigrees with complex
haplotypes. Bioinformatics, 21:1730–1732.
Thompson, E. A. (2000). MCMC Estimation of Multi-locus Genome Sharing and Multipoint Gene Location Scores. International Statistical Review, 68(1):53–73.
Tores, F. e Barillot, E. (2001). The art of pedigree drawing: algorithmic aspects. Bioinformatics, 17(2):174–179.
Valdes, A.; Slatkin, M. e Freimer, N. (1993). Allele Frequencies at Microsatellite Loci: The
Stepwise Mutation Model Revisited. Genetics, 133(3):737–749.
Venter, J. C.; Adams, M. D.; Myers, E. W.; Li, P. W. e Mural, R. J. (2001). The sequence of the
human genome. Science, 291:1304–1351.
R EFERÊNCIAS B IBLIOGRÁFICAS
132
Vicard, P. e Dawid, A. P. (2004). A statistical treatment of biases affecing the estimation of
mutation rates. Mutation Research, 547:19–33.
Walsh, S. J. (2004). Recent advances in forensic genetics. Expert Rev. Mol. Diagn., 4(1):31–
40.
Watson, J. D. e Crick, F. H. C. (1953). Molecular Structure of Nucleic Acids. Nature,
171:737–738.
Weber, J. e Wong, C. (1993). Mutation of human short tandem repeats. Human Molecular
Genetics, 2(8):1123–1128.
Weir, B. S.; Anderson, A. D. e Hepler, A. B. (2006). Genetic relatedness analysis: modern
data and new challenges. Nature Reviews Genetics, 7(10):771–80.
Wenk, R. E. (2004). Testing for parentage and kinship. Current Opinion in Hematology,
11(5):357–361.
Wilkinson, D. J. (2007). Bayesian methods in bioinformatics and computational systems
biology. Briefings in Bioinformatics, 8(2):109–116.
Yassouridis, A. e Epplen, J. (1991). On paternity determination from multilocus DNA profiles. Electrophoresis, 12(2-3):221–6.

Documentos relacionados