Métodos para inferências filogenéticas
Transcrição
Métodos para inferências filogenéticas
17/10/2012 Árvore filogenética • Representação gráfica das relações de ancestralidade entre os diversos táxons analisados Inferência filogenética 1 Táxons: 2 nós terminais 3 4 Métodos de máxima parcimônia (MP) e máxima verossimilhança (MV) Ancestrais: 5 nós internos 0.5 Árvore filogenética Árvore filogenética • Árvore sem raiz • Árvore sem raiz o não infere sobre o sentido do processo evolutivo o não infere sobre o sentido do processo evolutivo 1 2 1 1 2 2 3 3 4 3 4 5 4 5 0.5 5 0.5 Árvore filogenética 3 • Árvore sem raiz 3 Árvore filogenética • Árvore sem raiz 4 4 0.5 0.5 2 2 1 1 5 5 1 17/10/2012 Árvore filogenética • Árvore com raiz Árvore filogenética • Árvore com raiz o “Escolhido” o taxon 5 para ser raiz o Taxon “5” NÃO é o ancestral!!!! o “Escolhido” o taxon 5 para ser raiz = “outgroup” o Certeza de que não tem ancestralidade recente com algum dos taxons do “ingroup” 1 2 3 4 5 0.5 Árvore filogenética Quantas árvores possíveis existem para 4 taxons? Com raiz ou sem raiz? Sem Raiz Árvore filogenética Com Raiz Árvore filogenética • Além da topologia: comprimento dos ramos o diferenças de nucleotídeos (distância, dependendo do modelo evolutivo calculado) ou número de alterações ou tempo de divergência** o ** se as taxas evolutivas forem as mesmas para todos os taxons. o exemplo: roedores tem taxas evolutivas mais altas entre os mamíferos (comparar as diferenças entre taxons do ingroup com taxons do outgroup – devem ter valores similares) 2 17/10/2012 Inferência filogenética • Métodos para inferência o Métodos fenéticos: medem um conjunto de distâncias e gera uma topologia após agrupamento hierárquico o Métodos cladísticos: inferem características ancestrais em cada uma das topologias possíveis e escolhe a reconstrução de acordo com alguma premissa evolutiva Inferência filogenética Inferência filogenética • Métodos para inferência o Métodos fenéticos: distância o Métodos cladísticos: máxima parcimônia e máxima verossimilhança Máxima Parcimônia • Máxima parcimônia o Nucleotídeos do taxon ancestral são inferidos separadamente (para cada sítio) em cada uma das possíveis topologias não enraizadas para aquele determinado número de taxons analisados EXERCÍCIOS o Quanto maior o número de taxons, maior será o número de topologias a serem verificadas o A topologia que no final computar o menor número de subsituições será a melhor árvore Máxima Parcimônia Máxima Parcimônia • Na Máxima parcimônia, a partir de um alinhamento, os sítios: o invariáveis são descartados (invariable sites) o que possuem mutações que aparecem apenas uma vez são descartados (singleton sites) o que possuem mutações que aparecem pelo menos duas vezes são utilizados (parsimony informative sites) 1: A 2: A 3: A 4: G 5: G 6: T Sítio informativo para MP 3 17/10/2012 Máxima Parcimônia Máxima Parcimônia • Na Máxima Parcimônia, o A topologia que no final computar o menor número de subsituições será a melhor árvore 1: A 2: A 3: C 4: T 5: G 6: A o Premissa evolutiva: menor número de passos para explicar o processo evolutivo Sítio NÃO informativo para MP Máxima Parcimônia • Na Máxima Parcimônia, o É possível estabelecer pesos para as substituições, de forma que as alterações não serão todas iguais, por exemplo: • transversões > transições • 2a posição do codon > 1a posição > 3a posição o Tree length ou length Máxima Verossimilhança • Máxima Verossimilhança o Nucleotídeos do taxon ancestral também são inferidos separadamente (para cada sítio) em cada uma das possíveis topologias não enraizadas para aquele determinado número de taxons analisados o Quanto maior o número de taxons, maior será o número de topologias a serem verificadas o unweight MP x weight MP o A cada subsituição inferida, será atribuído um valor de probabillidade ,com base em um modelo conhecido a priori o Premissa evolutiva única sendo descontruída: “passões” e “passinhos” o A topologia que no final computar um conjunto de subsituições com o maior valor de probabilidade será a melhor árvore (todos os valores são somados) Máxima Verossimilhança • Máxima Verossimilhança Máxima Verossimilhança • esta é uma das topologias não enraizadas entre as 3 possíveis para organizar os 4 taxons… o Considere o alinhamento para os 4 taxons seguir: #1 #2 #3 #4 ……TCAAAAATGCGCTTTATT…… ……TCAGTGATGTGCGTGAAT…… ……TTAGAAATGTGCTTGATT…… ……TTAGTGATGGGCTTTATC…… o Considere o sítio i marcado em vermelho #2 T #1 C X #4 G Y I #3 T 4 17/10/2012 Máxima Verossimilhança • lembre: há tres topologias possíveis para 4 taxons! III II Máxima Verossimilhança • voltamos à topologia I, considerando o sítio marcado em vermelho (sítio i): #1 C #2 T existem 16 possibilidades para X e Y X Y #4 G X pode ser: A,T,C,G I Máxima Verossimilhança • Considere uma das 16 possibilidades: Onde X=A e Y=T #1 C A Máxima Verossimilhança #4 G #2 T T #4 G #3 T P1 = PA x PAG x PAC x PAT x PTT x PTT Y pode ser: A,T,C,G Onde X=G e Y=A Onde X=A e Y=T #1 C A #3 T G Máxima Verossimilhança T • Calculemos a probabilidade (P2)de outra situação: #1 C Y pode ser: A,T,C,G • Calculemos a probabilidade (P1)desta situação: #2 T #4 G X pode ser: A,T,C,G #3 T #2 T Máxima Verossimilhança • Calculemos as probabilidades (P3-16)de cada uma das demais situações para o sítio i: #2 T #1 C A N #3 T P2 = PG x PGG x PGC x PGA x PAT x PAT #4 G PTOP N #3 T I sítio i = P1 + P2 + P3 + P4 + … + P16 5 17/10/2012 Máxima Verossimilhança Máxima Verossimilhança • Fazemos tudo novamente, agora para o sítio j: • Máxima Verossimilhança #1 T o Acontece que há mais sítios polimorficos para serem analisados: #1 #2 #3 #4 ……TCAAAAATGCGCTTTATT…… ……TCAGTGATGTGCGTGAAT…… ……TTAGAAATGTGCTTGATT…… ……TTAGTGATGGGCTTTATC…… #2 G existem 16 possibilidades para X e Y X Y #4 T #3 G o Agora, considere o sítio marcado em verde, o sítio j X pode ser: A,T,C,G Y pode ser: A,T,C,G Máxima Verossimilhança Máxima Verossimilhança • Calculemos as probabilidades (P1-16)de cada uma das 16 situações para o sítio j: • Calculemos as probabilidades (P1-16)de cada uma das 16 situações para todos os sítios polimórficos: #1 T existem 16 possibilidades para X e Y X I sítio j= #1 #3 G #4 Máxima Verossimilhança TOPOLOGIA I #2 Máxima Verossimilhança • Os valores de probabilidades são expressos em logarítmo e o resultado final da topologia I e computado e comparado com o das outras 2 topologias. PTOP I = PTOP I sítio i PTOP II = PTOP II sítio i PTOP #4 PTOP I = PTOP #3 P1 + P2 + P3 + P4 + … + P16 • Calculamos a probabilidade final da Topologia I multiplicando todas as probabilidades calculadas para cada um dos sítios polimórficos: #1 #2 TOPOLOGIA I Y #4 T PTOP #2 G #3 I sítio i x PTOP I sítio j x … x PTOP III = x PTOP I sítio j x … x PTOP I sítio z x PTOP II sítio j x … x PTOP PTOP III sítio i x PTOP III sítio j II sítio z x … x PTOP III sítio z • A topologia de maior probabilidade é a árvore a ser escolhida. I sítio z 6 17/10/2012 Busca de árvores Busca de árvores • MP e ML são métodos que procuram topologias que melhor se adequem ao modelo evolutivo que eles pressupõem • Os softwares de análise filogenética sempre pedem para informarmos qual o método de busca de árvore que desejamos usar • Nos exemplos até agora, testamos todas as topologias possíveis, ou seja fizemos uma busca exaustiva • Confuso, pois o papel deles não é desenhar topologias? • Não, o papel deles é aplicar algorítimos de resolução de problemas sobre topologias que nós damos a eles! • Busca exaustiva é computacionalmente impraticável, em particular para os ML, quando o número de taxons é elevado Busca de árvores Busca de árvores • Estratégias de busca: • Branch and bound o Construa uma topologia com todos os seus taxons, uma topologia aleatória sem fundamento (quanto pior melhor) o Exaustiva • Computacionalmente pesada, mas encontra a melhor topologia, pois testa todas o Compute seu valor, de acordo com o método de análise (MP ou ML) o Crie uma árvore em estrela com tres taxons e derive nova árvores como segue o Branch and bound • Computacionalmente pesada, mas encontra a melhor topologia sem necessariamente testar todas o Heurística • Computacionalmente bem mais leve, probabilidade de encontrar a melhor topologia, pois nunca testa todas 1 1 2 2 Adicione um taxon 3 3 Calcule o score desta topologia: 1 4 2 1 4 2 1 2 1 4 4 3 3 3 3 2 Se for pior que random tree descarte-a bem como toda sua descendencia e passe para a topologia ao lado Se for melhor que random tree, adicione outro taxon e analise a primeira topologia após a adição, O score desta árvore deverá ser o padrão daqui em diante (substitui o score de random tree) 7 17/10/2012 1 1 de 3 2 4 3 de 4 15 de 5 3 Adicione outro taxon 1 1 2 4 2 4 1 2 35 35 35 105 de 6 315 315 315 945 de 7 3465 3465 3465 10395 de 8 Busca de árvores • Heurística o stepwise addition: inicie com uma árvore de tres taxons e adicione um taxon, produzindo 3 árvores, exatamente como em branch and bound. A de melhor score é escolhida e as demais são descartadas 4 3 1 3 1 2 4 5 1 4 5 5 3 2 1 2 4 1 4 5 4 2 o Star decomposition: Inicie com uma árvore multifurcada com um nó e a seguir construa topologias selecionando um par de taxons e deixando os outros em estrela. Calcule o scores para todas as possibilidades e escolha a melhor decomposição. Repetir o processo a partir da primeira decomposição escolhendo um novo par para retirar da estrela. 2 5 3 3 3 3 3 8