As Ferramentas da Bioinformática

Transcrição

As Ferramentas da Bioinformática
Ferramentas da Bioinformática
para a descodificação do ADN
Daniel Sobral
Unidade de Bioinformática do IGC
A informação de todos os seres vivos
transmite-se através do ADN
A célula é feita sobretudo de proteínas
(cadeias de 20 aminoácidos)
Mas a informação está no ADN
(cadeias de 4 nucleótidos)
Já nos anos 60 se descobriu um
código genético (quase) universal
A célula é feita sobretudo de proteínas
(cadeias de 20 aminoácidos)
Mas a informação está no ADN
(cadeias de 4 nucleótidos)
François Jacob and Jacques Monod.
Journal of Molecular Biology (1961)
© ?? Google cache
Já nos anos 60 se descobriu um
código genético (quase) universal
© candelalearning.com
A partir dos anos 70 começou-se a
poder ler o ADN com eficiência
© Nobel Media
Genoma Humano: 3x109 nucleótidos
1º Genoma (1990-2000): 3x109 € em 10 anos
Hoje em dia: < 104 € em menos de 1 semana
(por outro lado, as proteínas mesmo hoje não são assim tão simples de ler)
Tornou-se então possível pensar na
descodificação do “código da vida”
atctggtctcgatcgatcgatccggtacgttttcatcgctccggtacgttatattcgacgatttcgacgttcgacgc
gattatcgatccggtacgttcggtttcgacgtatcgacgcgatccggtacgttatgacgagttctcgacgttcgac
gcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttct
cggtttacgttcggtttctcggtttacacgttcggtcttctcggttctggtttctcggtttacgttcggttatctcggtt
tcgatccggtacgttcggtcgatccggtacgttcggtcgatccggtacgttcgccggtacgttatgacgagttctc
gacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtatta
cgttcggtttctcggtttacgttcggtttctcgccggtacgttatgacgagttctcgacgttcgacgcgttatgacg
agtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgtt
cccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccgg
tacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgtt
ctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggtt
ctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcct
?
Como interpretar esta sequência?
Mas o “código da vida” não é fácil
atctggtctcgatcgatcgatccggtacgttttcatcgctccggtacgttatattcgacgatttcgacgttcgacgc
gattatcgatccggtacgttcggtttcgacgtatcgacgcgatccggtacgttatgacgagttctcgacgttcgac
gcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttc
tcggtttacgttcggtttctcggtttacacgttcggtcttctcggttctggtttctcggtttacgttcggttatctcggt
ttcgatccggtacgttcggtcgatccggtacgttcggtcgatccggtacgttcgccggtacgttatgacgagttct
cgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtatt
acgttcggtttctcggtttacgttcggtttctcgccggtacgttatgacgagttctcgacgttcgacgcgttatgac
gagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgt
tcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccg
gtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgt
tctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggt
tctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcct
?
atg: códão de iniciação do gene (metionina)
(qual deles é o “verdadeiro” início do gene?)
Aos poucos foram-se
descobrindo padrões
ATG
© Oxford Genetics
Estes padrões permitem identificar com
maior probabilidade onde estão os genes
Mas a Natureza é complicada
Distâncias grandes e variáveis
(mais difícil encontrar padrões )
Genes repartido em partes
Entre muitas outras complicações!
Mas a Natureza é complicada
Definir onde está um gene nem sempre é fácil
Vários padrões
alternativos
© James Kadonaga
Distâncias variáveis
Mas a Natureza é complicada
© geneinfinity.org
Padrões para definir as várias partes dos genes (exões)
Mas a Natureza é complicada
• Em organismos complexos, padrões que
definem início dos genes não têm distâncias
bem definidas e não estão sempre presentes
(eg. TATA só está em 25% dos genes)
• Em muitos genes o que existe são ilhas de CpG
– Mini Projeto 1
A Natureza é complicada… e fascinante
© Campbell’s book
Como se gera um organismo inteiro a
partir da fusão entre duas células?
Cada tipo de célula precisa de
genes (proteínas) diferentes
© Arthur’s clipart
As células têm todas a mesma origem
(partilham o mesmo código genético)
Public Domain: US Gov
Alguns genes precisam de ter a sua
expressão limitada/regulada
Os genes para processar arabinose
em bactérias só ativam quando este
açúcar está disponível no ambiente
e glucose não está presente.
© igem.org
No ADN está codificado (pelo menos em parte)
quando e onde os genes se ativam
Parte desta regulação é feita por
proteínas que se ligam ao ADN
Fatores de Transcrição
© Robert Tjian
Fatores de transcrição atuam ao
reconhecerem motivos no ADN
O enigma do “DNA lixo”
• Genoma Humano: ~3x109 nucleótidos
• Só 2% codifica proteínas
• O que faz o resto? Alguns pensam que é “lixo”
• Neste “lixo” está código para regular genes
É importante encontrar os motivos
onde se ligam fatores de transcrição
• Muitas (~90%) das mutações implicadas em doenças
não afetam diretamente a proteína
• Pensa-se que em muitos casos essas mutações afetem
a regulação de expressão dos genes
Mas encontrar estes sítios é como
procurar uma agulha num palheiro
atctggtctcgatcgatcgatccggtacgttttcatcgctccggtacgttatattcgacgatttcgacgttcgacgcgattatcgatccggtacgttcgg
tttcgacgtatcgacgcgatccggtacgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcga
acgttcggtttctcggtattacgttcggtttctcggtttacgttcggtttctcggtttacacgttcggtcttctcggttctggtttctcggtttacgttcggtt
atctcggtttcgatccggtacgttcggtcgatccggtacgttcggtcgatccggtacgttcgccggtacgttatgacgagttctcgacgttcgacgcgt
tatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgttcggtttctcgccggta
cgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcgg
tttctcggtttacgttcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccggtacgttcg
gttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcc
cggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcct
• Motivos são pequenos (6-30 bases)
• Temos de procura-los em milhares de bases
Felizmente há estratégias para facilitar
Felizmente há estratégias para facilitar
• Procurar apenas nos promotores de genes
expressos em condições particulares
• Procurar zonas conservadas evolutivamente
• Técnicas experimentais para selecionar apenas
as zonas onde o fator está ligado ao ADN
Problema de encontrar motivos
Entrada: Conjunto de sequências relacionadas
Saída: Motivo(s) mais enriquecidos
Caso Ideal:
- Motivo perfeito, em todas as sequências
Realidade:
- Motivo imperfeito, em algumas sequências
- Combinação de motivos (“gramáticas”)
Problema de encontrar motivos
No caso Ideal:
• Como definir um motivo (probabilidade)?
• Como descobrir o tamanho do motivo?
No caso Real:
• Como contruir um motivo imperfeito?
• Como integrar dependências entre posições?
Algumas abordagens
•
Assumir modelo nulo completamente aleatório
– Não realista, aparecem muitos falsos positivos
•
Usar o genoma todo como modelo nulo
– Modelo ordem 0: Humano: 41% C e G; 59% A e T
•
O genoma humano tem padrões de ordem superior
– Modelos de ordem superior (1..k)
•
•
•
Precisam de muita informação
Fixar numa ordem pode causar outros problemas
Usar a própria amostra para construir um modelo nulo
– Pode não ter informação suficiente para gerar modelo
– Podemos estar a perder informação ao usar a amostra para criar um modelo nulo
•
Usar sequências “pseudo-aleatórias” que repliquem propriedades da amostra
– Nem sempre fácil de gerar, podem causar mais problemas
Uma abordagem experimental
• SELEX: modelo nulo aleatório
Sequências aleatórias
Fator a testar
© Jussi Taipale
Seleção das sequências
• Problema maior: não nos dá as sequências
“reais” onde o fator se liga ao ADN
Abordagens para motivos imperfeitos
• Motivo deve minimizar Entropia Informativa
ie, deve ser o menos aleatório possível
A
C
G
T
[ 4 19 0 0 0 0 ]
[16 0 20 0 0 0 ]
[ 0 1 0 20 0 20 ]
[ 0 0 0 0 20 0 ]
H(X) = 0.30
A
C
G
T
[ 4 41 36 7 19 3 ]
[35 1 2 29 14 22 ]
[ 2 1 4 6 7 15 ]
[ 2 0 1 1 3 3 ]
H(X) = 2.05
Outros desafios
• Nem sempre há independência posicional
GT OU CC
• Distâncias variáveis
Problema de encontrar motivos
Mini-Projeto 2?
Discutir estratégias para encontrar motivos
enriquecidos em sequências de nucleótidos, em
diversas condições
- Começando pela situação ideal e introduzindo
complexidade

Documentos relacionados

atualização em biologia molecular: a revolução genômica

atualização em biologia molecular: a revolução genômica vivem, ou viveram, na Terra. Esse organismo ancestral apareceu há aproximadamente 3,5 bilhões de anos – a idade da vida no planeta. Por meio da evolução, as modificações acidentais na seqüência de ...

Leia mais