Operação demonstrativa de software PAUP

Transcrição

Operação demonstrativa de software PAUP
17/10/2012
Bases Instrumentais de bioinformática aplicada à
Epidemiologia Molecular das doenças transmissíveis
 O que é ?
 Vantagens e desvantagens “Ser mais completo, ...”
Fábio Gregori
Versões (Windows [32‐bit], DOS, Linux, MacOs 9)
O que o PAUP* não faz ?
PAUP* não permite edição de árvores (como o MacClade ou TreeView).
PAUP* não faz análises de maximum likelihood em sequências de aminoácidos.
PAUP* (não alinha nem busca sequências em bancos de dados).
1
17/10/2012
FASTA (*.FAS)
BLOCO DE ANÁLISE (NTs ou Aas) ALINHADOS
ENTRADA  *.NEX / *.PAU / *.NEXUS
SAÍDA *.TRE (entre outras possíveis)
2
17/10/2012
FASTA (*.FAS)
BLOCO DE ANÁLISE ALINHADO
Modeltest ?
ENTRADA  *.NEX / *.PAU / *.NEXUS
SAÍDA *.TRE (entre outras possíveis)
http://bioafrica.mrc.ac.za/GDElinux/GDE‐PAUP.html
#Nexus
begin paup;
set crit=parsimony autoclose=yes maxtrees=1000 increase=auto;
Pset gapmode=newstate;
log start file=pars_log.txt replace;
hsearch;
Pscores/ RI=yes Scorefile=scores_par.txt replace=yes;
Contree;
Savetrees from=1 to=1 file=contree.tre brlens=yes format=altnexus replace=yes;
bootstrap nreps=1000 search=heuristic brlens=yes;
savetrees from=1 to=1 savebootp=nodelabels maxdecimals=0 file=bootst_par.tre;
log stop;
end;
3
17/10/2012
4
17/10/2012
Inferências
Filogenéticas
Fábio Gregori
Alguns critérios para Grupos Externos
1 – Certeza de divergência anterior:
o grupo que determina a raiz deve ser mais basal que o grupo interno
2 – Descartar grupos muito distantes
pode resultar em sérios erros topológicos, pois os sítios
poderão estar saturados por múltiplas mutações e a informação
filogenética estará perdida
3 – Descartar grupos muito próximos
pois este pode ser, na verdade, um grupo interno
4 – Se possível, usar mais de um grupo externo
quando possível, garantirá uma topologia de árvore mais consistente
Métodos de Distância:
 Funcionam basicamente em dois passos, sendo que o primeiro deles é a
redução das variações entre sequências alinhadas a valores de distância
dispostos em uma matriz.
 No segundo passo, estes valores são utilizados na reconstrução
filogenética.
 A chamada distância p, que expressa o número de sítios variáveis entre
duas sequências com relação ao total de sítios comparados, geralmente é
apresentada/construída em forma de uma matriz.
 Modelos evolutivos utilizados para o cálculo de distâncias genéticas:
Jukes-Cantor, Kimura 2 parâmetros, Tajima e Nei e Tamura 3 parâmetros.
 Na reconstrução filogenética, são utilizados os algoritmos o UPGMA
(Unweighted Pair Group Method with Arithmetic means), Neighbor-joining,
Evolução Mínima, Least Squares que realizam uma série de cálculos com
a matriz de distância gerada a partir do alinhamento para estimar a árvore
filogenética.
 Vantagens: rápido e gera apenas uma única árvore.
1
17/10/2012
Métodos de Distância:
1
Alinhar e criar bloco de análise
2
Criar uma matriz de distâncias sob algum
critério: dist. p ou Modelo de Substituição.
3
Processar a matriz sob algum algoritmo para
a construção da árvore (UPGMA, NJ, LS, ME)
Modelo de Substituição JC
Modelos de Substituição
Transições e transversões
A
Onde:
dx,y= distância entre seqs X e Y, expressa como nº de mudanças por sítio
p=1-q = proporção de nucleotídeos diferentes entre as seqs. X e Y
ln = logaritmo natural para corrigir mutações sobrepostas.

Exemplo:
G
Duas seqs são idêntidas em 90% dos sítios (ou seja são 10% diferentes)




C

T
 Transições () são mutações entre PURINAS (A,G) ou entre PIRIMIDINAS (C,T).
 Transversões () são mutações entre PURINAS e PIRIMIDINAS (ou vice-versa).
Transições e transversões

4 possíveis transições : A ↔ G; C ↔ T

8 possíveis transversões: A ↔ C, A ↔ T, G ↔ C, G ↔ T

Portanto, se as mutações forem randômicas, as
transversões são 2 vezes mais prováveis do que as
transições. Porém, biológicamente, as transições são
mais frequentes.

Transversões tem maior impacto na possibilidade de
alterações em termos de aminoácidos se comparados
com as transições.
Modelo de Substituição K2P
 K2P: Leva em consideração que as taxas de transição são
diferentes, mas assume freq. de bases iguais.
Onde:
P , Q = freq. total de pares de substituição do tipo transição e transversão.
2
17/10/2012
Modelo de Substituição Tamura
 Em dados reais, as freqs dos nucleotídeos raramente são iguais e o conteúdo
de GC difere de 0,5.
 Tamura desenvolveu um método que leva em consideração diferenças no
conteúdo de GC (alto e baixo):
Qual Modelo usar ?
Onde:
h = 2t (1-t)
Sendo t = conteúdo de GC.
Modeltest
http://darwin.uvigo.es/software/modeltest.html
Métodos de Distância:
1
Alinhar e criar bloco de análise
2
Criar uma matriz de distâncias sob algum
critério: dist. p ou Modelo de Substituição.
3
Processar a matriz sob algum algoritmo para
a construção da árvore (UPGMA, NJ, LS, ME)
3
17/10/2012
Máxima Parcimônia
 Este método baseia-se na teoria de que a melhor hipótese para
explicar um processo é aquela que requer o menor número de
passos. Ou seja, uma mudança é mais provável do que duas.
 A árvore que possuir um menor número de mudanças
(substituições/passos) para explicar os dados do alinhamento é a
mais próxima da real  Modelo Implícito
 Na MP não há a fase de cálculo de distância, sendo que as árvores
são calculadas diretamente dos dados do alinhamento. Entretanto,
esta metodologia requer muito mais tempo quando se usa a busca
exaustiva de árvores, uma vez que o computador precisa
reconstruir todas as árvores possíveis para "escolher" aquelas com
um número mínimo de mudanças, que são chamadas de árvores
mais parcimoniosas (consenso).
 Para contornar este problema do tempo, existem também
algoritmos heurísticos de reconstrução filogenética, mas é preciso
lembrar que, nestes casos, a árvore final pode ser sub-ótima.
Parcimônia
Rato Lagarto Peixe
Sítios de Informação p/ Parcimônia
Rato Lagarto Peixe
Rato Peixe Lagarto
Devem apresentar pelo menos dois tipos de nucleotídeos em pelo menos
duas das sequências.
A
B
C
= aparecimento do pulmão
 A topologia “A” representa a árvore mais parcimoniosa pois requer
o menor número de mudanças para explicar o caráter “pulmão”.
4
17/10/2012
Parcimônia







Número de árvores dicotômicas para n OTUs
Considere 6 taxas (seqs), denominados de 1 a 6.
1=TTTCCCAGGG
2=TTTCCCCGGG
3=TTTCCCAGGG
4=TTTCCCGGGG
5=TTTCCCGGGG
6=TTTCCCCGGG
 Existem 105 possíveis árvores para estes 6 taxas.
Parcimônia
Por exemplo, escolhemos 1 árvore não enraizada (outras árvores serão avaliadas
pelo computador)
22 OTUs= 3x1023 árvores não enraizadas = quase 1 mol de árvores
50 OTUs= 3x1074 árvores não enraizadas = Maior que o número de átomos do
universo
Parcimônia
Se enraizarmos a árvore
A partir do táxon 1, temos:
5
17/10/2012
Parcimônia
Parcimônia
A partir dos ramos, vamos
movendo para a raiz,
observando os estados.
Total de mudanças: 4
Parcimônia
Árvores consenso




Consenso estrito
50% majority rule
75% majority rule
Bootstrap consensus tree
Total de mudanças: 4
6
17/10/2012
=consenso estrito
politomia
Estratégias de busca de árvores
Estratégias de busca de árvores
 Exaustiva
 (max-mini) Branch-and-bound: árvores que tem um
comprimento maior do que o previamente examinado
são ignorados.
 Heurística: Stepwise addition (as is, random, closest) /
star decomposition  Branch Swapping (nearest
neighbor interchanges, subtree pruning regrafting e
Tree bisection-reconection).
Estratégias de busca de árvores
Número de árvores dicotômicas para n OTUs
• OTU < 10  Busca Exaustiva - TODAS as árvores possíveis são examinadas
• 10 < OTU < 20  Busca por árvore específica - Topologias sabidamente
incorretas são descartadas - Branch-and-Bound
• OTU > 20  Busca Heurística - Apenas uma porção de todas as árvores
possíveis é examinada (e não há garantias de se encontrar a árvore de MP, mas é
possível aumentar a probabilidade de encontrá-la através de algoritmos específicos)
22 OTUs= 3x1023 árvores não enraizadas = quase 1 mol de árvores
50 OTUs= 3x1074 árvores não enraizadas = Maior que o número de átomos do
universo
7
17/10/2012
Bootstrap
8

Documentos relacionados

Marcadores moleculares e análise filogenética.

Marcadores moleculares e análise filogenética. seqüências de DNA, genes ou seus produtos (proteínas). Uma árvore geralmente deve ser feita a partir da comparação de múltiplos caracteres. Existem dois tipos de análises utilizadas para o desenvol...

Leia mais