As Ferramentas da Bioinformática
Transcrição
As Ferramentas da Bioinformática
Ferramentas da Bioinformática para a descodificação do ADN Daniel Sobral Unidade de Bioinformática do IGC A informação de todos os seres vivos transmite-se através do ADN A célula é feita sobretudo de proteínas (cadeias de 20 aminoácidos) Mas a informação está no ADN (cadeias de 4 nucleótidos) Já nos anos 60 se descobriu um código genético (quase) universal A célula é feita sobretudo de proteínas (cadeias de 20 aminoácidos) Mas a informação está no ADN (cadeias de 4 nucleótidos) François Jacob and Jacques Monod. Journal of Molecular Biology (1961) © ?? Google cache Já nos anos 60 se descobriu um código genético (quase) universal © candelalearning.com A partir dos anos 70 começou-se a poder ler o ADN com eficiência © Nobel Media Genoma Humano: 3x109 nucleótidos 1º Genoma (1990-2000): 3x109 € em 10 anos Hoje em dia: < 104 € em menos de 1 semana (por outro lado, as proteínas mesmo hoje não são assim tão simples de ler) Tornou-se então possível pensar na descodificação do “código da vida” atctggtctcgatcgatcgatccggtacgttttcatcgctccggtacgttatattcgacgatttcgacgttcgacgc gattatcgatccggtacgttcggtttcgacgtatcgacgcgatccggtacgttatgacgagttctcgacgttcgac gcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttct cggtttacgttcggtttctcggtttacacgttcggtcttctcggttctggtttctcggtttacgttcggttatctcggtt tcgatccggtacgttcggtcgatccggtacgttcggtcgatccggtacgttcgccggtacgttatgacgagttctc gacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtatta cgttcggtttctcggtttacgttcggtttctcgccggtacgttatgacgagttctcgacgttcgacgcgttatgacg agtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgtt cccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccgg tacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgtt ctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggtt ctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcct ? Como interpretar esta sequência? Mas o “código da vida” não é fácil atctggtctcgatcgatcgatccggtacgttttcatcgctccggtacgttatattcgacgatttcgacgttcgacgc gattatcgatccggtacgttcggtttcgacgtatcgacgcgatccggtacgttatgacgagttctcgacgttcgac gcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttc tcggtttacgttcggtttctcggtttacacgttcggtcttctcggttctggtttctcggtttacgttcggttatctcggt ttcgatccggtacgttcggtcgatccggtacgttcggtcgatccggtacgttcgccggtacgttatgacgagttct cgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtatt acgttcggtttctcggtttacgttcggtttctcgccggtacgttatgacgagttctcgacgttcgacgcgttatgac gagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgt tcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccg gtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgt tctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggt tctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcct ? atg: códão de iniciação do gene (metionina) (qual deles é o “verdadeiro” início do gene?) Aos poucos foram-se descobrindo padrões ATG © Oxford Genetics Estes padrões permitem identificar com maior probabilidade onde estão os genes Mas a Natureza é complicada Distâncias grandes e variáveis (mais difícil encontrar padrões ) Genes repartido em partes Entre muitas outras complicações! Mas a Natureza é complicada Definir onde está um gene nem sempre é fácil Vários padrões alternativos © James Kadonaga Distâncias variáveis Mas a Natureza é complicada © geneinfinity.org Padrões para definir as várias partes dos genes (exões) Mas a Natureza é complicada • Em organismos complexos, padrões que definem início dos genes não têm distâncias bem definidas e não estão sempre presentes (eg. TATA só está em 25% dos genes) • Em muitos genes o que existe são ilhas de CpG – Mini Projeto 1 A Natureza é complicada… e fascinante © Campbell’s book Como se gera um organismo inteiro a partir da fusão entre duas células? Cada tipo de célula precisa de genes (proteínas) diferentes © Arthur’s clipart As células têm todas a mesma origem (partilham o mesmo código genético) Public Domain: US Gov Alguns genes precisam de ter a sua expressão limitada/regulada Os genes para processar arabinose em bactérias só ativam quando este açúcar está disponível no ambiente e glucose não está presente. © igem.org No ADN está codificado (pelo menos em parte) quando e onde os genes se ativam Parte desta regulação é feita por proteínas que se ligam ao ADN Fatores de Transcrição © Robert Tjian Fatores de transcrição atuam ao reconhecerem motivos no ADN O enigma do “DNA lixo” • Genoma Humano: ~3x109 nucleótidos • Só 2% codifica proteínas • O que faz o resto? Alguns pensam que é “lixo” • Neste “lixo” está código para regular genes É importante encontrar os motivos onde se ligam fatores de transcrição • Muitas (~90%) das mutações implicadas em doenças não afetam diretamente a proteína • Pensa-se que em muitos casos essas mutações afetem a regulação de expressão dos genes Mas encontrar estes sítios é como procurar uma agulha num palheiro atctggtctcgatcgatcgatccggtacgttttcatcgctccggtacgttatattcgacgatttcgacgttcgacgcgattatcgatccggtacgttcgg tttcgacgtatcgacgcgatccggtacgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcga acgttcggtttctcggtattacgttcggtttctcggtttacgttcggtttctcggtttacacgttcggtcttctcggttctggtttctcggtttacgttcggtt atctcggtttcgatccggtacgttcggtcgatccggtacgttcggtcgatccggtacgttcgccggtacgttatgacgagttctcgacgttcgacgcgt tatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgttcggtttctcgccggta cgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcgg tttctcggtttacgttcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccggtacgttcg gttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcc cggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcct • Motivos são pequenos (6-30 bases) • Temos de procura-los em milhares de bases Felizmente há estratégias para facilitar Felizmente há estratégias para facilitar • Procurar apenas nos promotores de genes expressos em condições particulares • Procurar zonas conservadas evolutivamente • Técnicas experimentais para selecionar apenas as zonas onde o fator está ligado ao ADN Problema de encontrar motivos Entrada: Conjunto de sequências relacionadas Saída: Motivo(s) mais enriquecidos Caso Ideal: - Motivo perfeito, em todas as sequências Realidade: - Motivo imperfeito, em algumas sequências - Combinação de motivos (“gramáticas”) Problema de encontrar motivos No caso Ideal: • Como definir um motivo (probabilidade)? • Como descobrir o tamanho do motivo? No caso Real: • Como contruir um motivo imperfeito? • Como integrar dependências entre posições? Algumas abordagens • Assumir modelo nulo completamente aleatório – Não realista, aparecem muitos falsos positivos • Usar o genoma todo como modelo nulo – Modelo ordem 0: Humano: 41% C e G; 59% A e T • O genoma humano tem padrões de ordem superior – Modelos de ordem superior (1..k) • • • Precisam de muita informação Fixar numa ordem pode causar outros problemas Usar a própria amostra para construir um modelo nulo – Pode não ter informação suficiente para gerar modelo – Podemos estar a perder informação ao usar a amostra para criar um modelo nulo • Usar sequências “pseudo-aleatórias” que repliquem propriedades da amostra – Nem sempre fácil de gerar, podem causar mais problemas Uma abordagem experimental • SELEX: modelo nulo aleatório Sequências aleatórias Fator a testar © Jussi Taipale Seleção das sequências • Problema maior: não nos dá as sequências “reais” onde o fator se liga ao ADN Abordagens para motivos imperfeitos • Motivo deve minimizar Entropia Informativa ie, deve ser o menos aleatório possível A C G T [ 4 19 0 0 0 0 ] [16 0 20 0 0 0 ] [ 0 1 0 20 0 20 ] [ 0 0 0 0 20 0 ] H(X) = 0.30 A C G T [ 4 41 36 7 19 3 ] [35 1 2 29 14 22 ] [ 2 1 4 6 7 15 ] [ 2 0 1 1 3 3 ] H(X) = 2.05 Outros desafios • Nem sempre há independência posicional GT OU CC • Distâncias variáveis Problema de encontrar motivos Mini-Projeto 2? Discutir estratégias para encontrar motivos enriquecidos em sequências de nucleótidos, em diversas condições - Começando pela situação ideal e introduzindo complexidade
Documentos relacionados
atualização em biologia molecular: a revolução genômica
vivem, ou viveram, na Terra. Esse organismo ancestral apareceu há aproximadamente 3,5 bilhões de anos – a idade da vida no planeta. Por meio da evolução, as modificações acidentais na seqüência de ...
Leia mais