Operação demonstrativa de software PAUP
Transcrição
Operação demonstrativa de software PAUP
17/10/2012 Bases Instrumentais de bioinformática aplicada à Epidemiologia Molecular das doenças transmissíveis O que é ? Vantagens e desvantagens “Ser mais completo, ...” Fábio Gregori Versões (Windows [32‐bit], DOS, Linux, MacOs 9) O que o PAUP* não faz ? PAUP* não permite edição de árvores (como o MacClade ou TreeView). PAUP* não faz análises de maximum likelihood em sequências de aminoácidos. PAUP* (não alinha nem busca sequências em bancos de dados). 1 17/10/2012 FASTA (*.FAS) BLOCO DE ANÁLISE (NTs ou Aas) ALINHADOS ENTRADA *.NEX / *.PAU / *.NEXUS SAÍDA *.TRE (entre outras possíveis) 2 17/10/2012 FASTA (*.FAS) BLOCO DE ANÁLISE ALINHADO Modeltest ? ENTRADA *.NEX / *.PAU / *.NEXUS SAÍDA *.TRE (entre outras possíveis) http://bioafrica.mrc.ac.za/GDElinux/GDE‐PAUP.html #Nexus begin paup; set crit=parsimony autoclose=yes maxtrees=1000 increase=auto; Pset gapmode=newstate; log start file=pars_log.txt replace; hsearch; Pscores/ RI=yes Scorefile=scores_par.txt replace=yes; Contree; Savetrees from=1 to=1 file=contree.tre brlens=yes format=altnexus replace=yes; bootstrap nreps=1000 search=heuristic brlens=yes; savetrees from=1 to=1 savebootp=nodelabels maxdecimals=0 file=bootst_par.tre; log stop; end; 3 17/10/2012 4 17/10/2012 Inferências Filogenéticas Fábio Gregori Alguns critérios para Grupos Externos 1 – Certeza de divergência anterior: o grupo que determina a raiz deve ser mais basal que o grupo interno 2 – Descartar grupos muito distantes pode resultar em sérios erros topológicos, pois os sítios poderão estar saturados por múltiplas mutações e a informação filogenética estará perdida 3 – Descartar grupos muito próximos pois este pode ser, na verdade, um grupo interno 4 – Se possível, usar mais de um grupo externo quando possível, garantirá uma topologia de árvore mais consistente Métodos de Distância: Funcionam basicamente em dois passos, sendo que o primeiro deles é a redução das variações entre sequências alinhadas a valores de distância dispostos em uma matriz. No segundo passo, estes valores são utilizados na reconstrução filogenética. A chamada distância p, que expressa o número de sítios variáveis entre duas sequências com relação ao total de sítios comparados, geralmente é apresentada/construída em forma de uma matriz. Modelos evolutivos utilizados para o cálculo de distâncias genéticas: Jukes-Cantor, Kimura 2 parâmetros, Tajima e Nei e Tamura 3 parâmetros. Na reconstrução filogenética, são utilizados os algoritmos o UPGMA (Unweighted Pair Group Method with Arithmetic means), Neighbor-joining, Evolução Mínima, Least Squares que realizam uma série de cálculos com a matriz de distância gerada a partir do alinhamento para estimar a árvore filogenética. Vantagens: rápido e gera apenas uma única árvore. 1 17/10/2012 Métodos de Distância: 1 Alinhar e criar bloco de análise 2 Criar uma matriz de distâncias sob algum critério: dist. p ou Modelo de Substituição. 3 Processar a matriz sob algum algoritmo para a construção da árvore (UPGMA, NJ, LS, ME) Modelo de Substituição JC Modelos de Substituição Transições e transversões A Onde: dx,y= distância entre seqs X e Y, expressa como nº de mudanças por sítio p=1-q = proporção de nucleotídeos diferentes entre as seqs. X e Y ln = logaritmo natural para corrigir mutações sobrepostas. Exemplo: G Duas seqs são idêntidas em 90% dos sítios (ou seja são 10% diferentes) C T Transições () são mutações entre PURINAS (A,G) ou entre PIRIMIDINAS (C,T). Transversões () são mutações entre PURINAS e PIRIMIDINAS (ou vice-versa). Transições e transversões 4 possíveis transições : A ↔ G; C ↔ T 8 possíveis transversões: A ↔ C, A ↔ T, G ↔ C, G ↔ T Portanto, se as mutações forem randômicas, as transversões são 2 vezes mais prováveis do que as transições. Porém, biológicamente, as transições são mais frequentes. Transversões tem maior impacto na possibilidade de alterações em termos de aminoácidos se comparados com as transições. Modelo de Substituição K2P K2P: Leva em consideração que as taxas de transição são diferentes, mas assume freq. de bases iguais. Onde: P , Q = freq. total de pares de substituição do tipo transição e transversão. 2 17/10/2012 Modelo de Substituição Tamura Em dados reais, as freqs dos nucleotídeos raramente são iguais e o conteúdo de GC difere de 0,5. Tamura desenvolveu um método que leva em consideração diferenças no conteúdo de GC (alto e baixo): Qual Modelo usar ? Onde: h = 2t (1-t) Sendo t = conteúdo de GC. Modeltest http://darwin.uvigo.es/software/modeltest.html Métodos de Distância: 1 Alinhar e criar bloco de análise 2 Criar uma matriz de distâncias sob algum critério: dist. p ou Modelo de Substituição. 3 Processar a matriz sob algum algoritmo para a construção da árvore (UPGMA, NJ, LS, ME) 3 17/10/2012 Máxima Parcimônia Este método baseia-se na teoria de que a melhor hipótese para explicar um processo é aquela que requer o menor número de passos. Ou seja, uma mudança é mais provável do que duas. A árvore que possuir um menor número de mudanças (substituições/passos) para explicar os dados do alinhamento é a mais próxima da real Modelo Implícito Na MP não há a fase de cálculo de distância, sendo que as árvores são calculadas diretamente dos dados do alinhamento. Entretanto, esta metodologia requer muito mais tempo quando se usa a busca exaustiva de árvores, uma vez que o computador precisa reconstruir todas as árvores possíveis para "escolher" aquelas com um número mínimo de mudanças, que são chamadas de árvores mais parcimoniosas (consenso). Para contornar este problema do tempo, existem também algoritmos heurísticos de reconstrução filogenética, mas é preciso lembrar que, nestes casos, a árvore final pode ser sub-ótima. Parcimônia Rato Lagarto Peixe Sítios de Informação p/ Parcimônia Rato Lagarto Peixe Rato Peixe Lagarto Devem apresentar pelo menos dois tipos de nucleotídeos em pelo menos duas das sequências. A B C = aparecimento do pulmão A topologia “A” representa a árvore mais parcimoniosa pois requer o menor número de mudanças para explicar o caráter “pulmão”. 4 17/10/2012 Parcimônia Número de árvores dicotômicas para n OTUs Considere 6 taxas (seqs), denominados de 1 a 6. 1=TTTCCCAGGG 2=TTTCCCCGGG 3=TTTCCCAGGG 4=TTTCCCGGGG 5=TTTCCCGGGG 6=TTTCCCCGGG Existem 105 possíveis árvores para estes 6 taxas. Parcimônia Por exemplo, escolhemos 1 árvore não enraizada (outras árvores serão avaliadas pelo computador) 22 OTUs= 3x1023 árvores não enraizadas = quase 1 mol de árvores 50 OTUs= 3x1074 árvores não enraizadas = Maior que o número de átomos do universo Parcimônia Se enraizarmos a árvore A partir do táxon 1, temos: 5 17/10/2012 Parcimônia Parcimônia A partir dos ramos, vamos movendo para a raiz, observando os estados. Total de mudanças: 4 Parcimônia Árvores consenso Consenso estrito 50% majority rule 75% majority rule Bootstrap consensus tree Total de mudanças: 4 6 17/10/2012 =consenso estrito politomia Estratégias de busca de árvores Estratégias de busca de árvores Exaustiva (max-mini) Branch-and-bound: árvores que tem um comprimento maior do que o previamente examinado são ignorados. Heurística: Stepwise addition (as is, random, closest) / star decomposition Branch Swapping (nearest neighbor interchanges, subtree pruning regrafting e Tree bisection-reconection). Estratégias de busca de árvores Número de árvores dicotômicas para n OTUs • OTU < 10 Busca Exaustiva - TODAS as árvores possíveis são examinadas • 10 < OTU < 20 Busca por árvore específica - Topologias sabidamente incorretas são descartadas - Branch-and-Bound • OTU > 20 Busca Heurística - Apenas uma porção de todas as árvores possíveis é examinada (e não há garantias de se encontrar a árvore de MP, mas é possível aumentar a probabilidade de encontrá-la através de algoritmos específicos) 22 OTUs= 3x1023 árvores não enraizadas = quase 1 mol de árvores 50 OTUs= 3x1074 árvores não enraizadas = Maior que o número de átomos do universo 7 17/10/2012 Bootstrap 8
Documentos relacionados
Marcadores moleculares e análise filogenética.
seqüências de DNA, genes ou seus produtos (proteínas). Uma árvore geralmente deve ser feita a partir da comparação de múltiplos caracteres. Existem dois tipos de análises utilizadas para o desenvol...
Leia mais