4/11/14 1 Sequenciamento de genomas procariotos

Transcrição

4/11/14 1 Sequenciamento de genomas procariotos
4/11/14 Aula 3
Sequenciamento de genomas
procariotos utilizando tecnologia
de nova geração
Introdução aos métodos de
montagem de sequências
Ana Marcia de Sá Guimarães, Méd Vet, MSc, PhD
Aula 3
1. Comparações das plataformas de sequenciamento
Tópicos
1. Comparações das plataformas de
sequenciamento
2. Esquemas fundamentais da montagem de
sequências
3. Exemplo de output files (Newbler)
4. Desafios e fechamento de gaps (próxima aula)
Comparações
SOLiD
Ion Torrent
Illumina
454
Sequenciamento por
ligação de
oligonucleotídeo e
detecção
Sequenciamento
por semicondutor
de íons
Terminação
reversível da
cadeia
Pirosequenciamento
Emulsion PCR
Emulsion PCR
Bridge PCR
Emulsion PCR
1 4/11/14 SOLiD
454 (GS FLX
Titanium XL+)
Illumina
(HiSeq 2500)
Leitura
Até 75 pb
Até 700 pb
Até 150 pb
Ion Proton
Até 200 pb
Acurácia
99.99%
99.9%
99%
99%
Leituras por
corrida
1 bilhão
1 milhão
300 milhões a 2
bilhões
60 a 80 milhões
Bases por
corrida
240 bilhões
(Gb)
700 milhões (Mb)
10 a 1.000
bilhões (Gb)
10 bilhões (Gb)
Tempo por
corrida
8 horas
23 horas
7 horas a 6 dias 2-4 horas
MIDs
96
132
96
96
Custo por
milhão de
bases
$0.07
$7
$ 0.04
$ 0.09
Prós
Leituras longas
Leituras longas
Alto número de
leituras
Equipamento mais
barato
Contras
- Alto custo
- Impraticável
para
highthroughput
- Custo por leitura - Equipamento
- Erros em
mais caro
homopolímeros
Dr Lex Nederbragt
University of Oslo, Norway
- Erros em
homopolímeros
1. Comparações das plataformas de sequenciamento
http://flxlexblog.wordpress.com/2012/12/03/developments-in-next-generation-sequencing-a-visualisation/#more-315
h'p://dx.doi.org/10.6084/m9.figshare.100940
h'p://www.molecularecologist.com/next-­‐gen-­‐fieldguide-­‐2012/ Paramêtros
1. Comparações das plataformas de sequenciamento
http://flxlexblog.wordpress.com/2012/12/03/developments-in-next-generation-sequencing-a-visualisation/#more-315
h'p://dx.doi.org/10.6084/m9.figshare.100940
2 4/11/14 Plat.
Genomas microbianos
Transcriptoma
Genoma eucariotos
GS Jr 454 B- bom, caro
C- muitas corridas, caro D – muito caro
GS FLX + A – bom, multiplex para
baixar o custo
A/B – bom, caro
MiSeq
Montagem
B/C – bom, caro se for a
única platf.
B/A – bom, montagem
difícil
B/A – muitas corridas,
montagem difícil,
300pb
C – caro
HiSeq
B – muitas leituras, a
não ser que indexada,
montagem difícil
A/B – bom, montagem
mais difícil
A – requer mate-pair,
mas é o que se usa
Ion PGM
B/A – bom, montagem
+ difícil que 454 e
Illumina
B/C – bom, montagem
+ difícil que 454 e
Illumina
B/A – caro, montagem +
difícil que 454 e Illumina
Ion Prot.
B/A – muitas leituras, a
não ser que indexada,
montagem + difícil que
454 e Illumina
B/A - montagem +
difícil que 454 e
Illumina, leituras
maiores
B/A – curso menor e
leituras maiores.
SOLiD
C – muitas leituras, mas B/C – leituras muito
muito curtas
curtas
C/D – leituras muito
curtas
PacBio
B – alta taxa de erro,
requer alta cobertura
B/D – muito caro para
ser utilizado sozinho
B – caro, RNA curtos
serão problema
2. Esquema fundamentais da montagem de sequências
h'p://www.molecularecologist.com/next-­‐gen-­‐table-­‐1/ 2. Esquema fundamentais da montagem de sequências
Montagem: Monte o quebracabeça do genoma a partir
de leituras
Múltiplas cópias do genoma
Overlap/sobreposição
conectam essas leituras
Leituras
Alta cobertura para que as
leituras possam se sobrepor.
Princípio: Uma estrutura de
dados que representam
overlaps, e algoritmos que
operam nesta estrutura
Consenso
2. Esquema fundamentais da montagem de sequências
Montagem
Montagem
Requerimentos
• Montagem comparativa
Sequência de referência: da
mesma família de cepas
• Montagem de novo
1) Boa cobertura (Illumina, 100x)
?
2) Tamanho da leitura (leituras e mates
precisam ser maiores que as repetições)
3) Qualidade
3 4/11/14 2. Esquema fundamentais da montagem de sequências
Montagem
Problemas
• • • • • • Áreas de baixa cobertura
Chimeras
Baixa qualidade de sequência
Polimorfismos*
Sequências repetitivas*
Reverso-complemento
2. Esquema fundamentais da montagem de sequências
Algumas definições
Beiral (overhang)
ATGATCGCTGATGGATCGATCTTTCGATACGATTAGCTAGAGCGCTTAGACTGATGGACTGA ATGATCGCTGATGGATCGATCTTTCGATACGATTAGCTAGAGCGCTTAGACTGATGGACTG Beiral (overhang)
Sobreposição (overlap)
* O Software precisa tolerar erros para evitar perder “true joints”
2. Esquema fundamentais da montagem de sequências
Algumas definições
2. Esquema fundamentais da montagem de sequências
Algumas definições
• Contigs
Alinhamento multiplo de sequencias que gera uma sequencia consenso
• Scaffolds (supercontigs ou metacontigs)
Definem a ordem, orientação e espaçamento entre os contigs
• Scaffold topology
Pode ser um simples “path” (caminho) ou network
* Scaffold consensus pode ter Ns ligando os contigs (tamanho do gap)
4 4/11/14 2. Esquema fundamentais da montagem de sequências
Algumas definições
2. Esquema fundamentais da montagem de sequências
FASTAQ
• Medidas de qualidade de um assembly
Tamanho dos contigs e scaffolds
1) Tamanho máximo,
2) Média de tamanho,
3) Tamanho total combinado
4) N50
ASCII (American Standard Code for InformaLon Interchange-­‐ esquema de caracteres) • Valor de N50 = 50% do genoma está em contigs igual ou maiores a
este valor. Só se pode comparar quando o tamanho dos genomas
forem os mesmos.
50%
> 30Kb
< 30Kb
2. Esquema fundamentais da montagem de sequências
Esquemas fundamentais
h'ps://genomics.rcac.purdue.edu/users/messick/hr00595_Lucas/ 2. Esquema fundamentais da montagem de sequências
Greedy Approach
“Dada uma leitura, adiciona-se outra leitura ou contig”
1. Greedy Approach
2. Overlap-layout-consensus
3. Alignment-layout-consensus
4. Bruijn graph scheme
Não são exclusivos e um algoritmo pode
ser classificado em mais de um esquema
Montagem comparativa vai precisar de montagem de novo em
áreas que são muito divergentes da sequência de referência
1) Pega-se uma leitura
2) Extende-se o final 3’ do contig com a leitura de melhor
sobreposição
3) Se o processo não pode mais ser extendido (ex. várias leituras
são melhores sobreposições), o processo é repetido no 5’ do
reverso complemento.
ATCGTCGGATTCGATCGGATCGGATGCTGATGCTG ATCGTCGGATTCGATCGGATCGGATGCTGATGCTGATGCGGATGCGGATGAGGC ATCGTCGGATTCGATCGGATCGTATGCTGATGCTGATGCGGATGGCGGATTAGA ATCGTCGGATTCGATCGGAACGGACGCTGATGCTGATGCGGATGGAGGCTGAG Capacidade heurísitica de resolver problemas. Faz a melhor/ótima
escolha em cada estágio, na esperança de achar um ótimo global.
5 4/11/14 2. Esquema fundamentais da montagem de sequências
Overlap-layout-consensus
• Bem estabelecido, mas mais difícil de implementar.
• Para leituras longas
• Teoria dos gráficos
2. Esquema fundamentais da montagem de sequências
Overlap-layout-consensus
1) Overlap graph
Greedy approach
Cada leitura é um vértice, e os arcos são os overlaps
2) Layout stage
Achar um único caminho do começo ao fim que passa por
todas as leituras apenas uma vez.
Obviamente, isto nem é sempre atingido e vários contigs são
formados separadamente.
Ideal: um único caminho
Realidade: vários gráficos separados. Cada gráfico forma
um contig.
3) Consensus stage
Unir os contigs (técnicas de resolução de gráfico ou uso de
paired-end or mate pair).
“Gráfico” é uma abstração utilizada na ciência da computação.
Vértices e arcos que mostram a relação pareada entre objetos
Conectar estes contigs: scaffolding
2. Esquema fundamentais da montagem de sequências
Overlap-layout-consensus
• Vários loops = sequência
repetitivas ou erros de leitura.
• Várias maneiras de se resolver
entre as possibilidades.
Critérios de: tamanho do overlap, % identidade do overlap,
tamanho do overhang, paired-end.
Processo extensivo de simplificação dos gráficos para que
possa chegar em scaffolding.
6 4/11/14 2. Esquema fundamentais da montagem de sequências
2. Esquema fundamentais da montagem de sequências
Overlap-layout-consensus
Removing nodes
Overlap-layout-consensus
• TIGR, Celera, PHRAP, CAP3, PCAP, Newbler
• Newbler (New Assembler): Linux (32 e 64 bit), tem
command-line e uma interface em JAVA GUI, chamado de
gsAssembler. Input: .sff, fastaq or fasta (Sanger e outras
plataformas)
Removing edges
Pulling apart
Disambiguation
Remoção de arcos transitórios
Se E1 < E2 sendo que E1 é sobreposto por E2, E1 é transitório
2. Esquema fundamentais da montagem de sequências
Alignment-layout-consensus
• É o esquema de montagem comparativa.
• Ao invés de utilizar o overlap, utiliza o alinhamento com uma
sequência já conhecida (MUMmer)
• Exemplos:
AMOS (JCVI).
BWA + Bowtie
GS Reference Mapper
• TIGR
Haemophilus influenzae
Mycoplasma genitalium
Comparação pairwise de todas as leituras
H. influenzae tinha 25.000 fragmentos, o que gerou 625 milhões de
comparações por um Smith-Waterman modificado.
2. Esquema fundamentais da montagem de sequências
Bruijn graph scheme
• NGS: leituras curtas e em grande quantidade
para se atingir boa cobertura
• Se cada leitura fosse um vértice, o gráfico do
OLC seria enorme para se computar.
• Adotaram o gráfico de Bruijn
Menor RAM
Melhor para repetições
7 4/11/14 2. Esquema fundamentais da montagem de sequências
2. Esquema fundamentais da montagem de sequências
Bruijn graph scheme
Bruijn graph scheme
1) Fragmenta todas as sequências em tamanhos especificados (esses
tamanhos se chamam k-mer) (um k-mer tem como limite máximo o
tamanho de suas leituras).
2) Coloca todos os k-mers únicos em uma tabela ordenada
3) Para cada k-mer observado em um conjunto de leituras, o software
marca a ID da leitura e a posição do kmer no read
4) Com os kmers, monta-se o gráfico de Bruijn.
Vértices: kmers Arcos: overlap (k-1). Várias possibilidades vão surgir.
ATCTCGGATCGCGATAGCCGCTAGCTTTTAGACCCCAGATGCGGATTACGCTTA GTGTCGATGA AGTGTCGATG GTGTCGATGC CGTGTCGATG GTGTCGATG GTGTCGATGG GGTGTCGATG GTGTCGATGT TGTGTCGATG 10 mer Hash value Buckets 001 AGACCCCAGA 002 ATCGATGTTT 003 ATGCTGGATC TCGATGATCT GTGTCGATGA TGTCGATGAT GTCGATGATC 2. Esquema fundamentais da montagem de sequências
2. Esquema fundamentais da montagem de sequências
Bruijn graph scheme
5) Junta overlaps inequívocos
6) Resolver ambiguidades mapeando com as leituras
TCGATGATCT GTGTCGATGA TGTCGATGAT GTCGATGATC TCGATGATCG TCGATGATCG Bruijn graph scheme
• Quanto maior o K-mer, menor a memória RAM, mais
específico, menos sensível.
• Montagem com vários kmers e observa a formação
dos maiores contigs e N50.
• Misturar dados de Illumina e 454 em algoritmos DBG
pode ser complicado devido ao tamanho do kmer.
TCGATGATCT GTGTCGATGATC • Exemplos:
TCGATGATCG GTGTCGATGATCTAGTCGGATCGT EULER (foi o primeiro)
ALLPATHS
Velvet assembler (user friendly)
ABySS (Illumina) (Assembly by Short Sequence) - .bcl ou FASTA
8 4/11/14 3. Exemplo de output file (Newbler)
3. Exemplo de output file (Newbler)
Montagem
Montagem
Trimming
Newbler output files
• 454 – não é necessário tirar os adaptadores ou bases de
baixa qualidade. Software já entrega “trimmed”
• Illumina – Trimmomatic e fastx_clipper (input FASTAQ)
Remove os adaptadores das sequências
Bases de baixa qualidade (< Phred 20) são removidas
dos finais 3’e 5’
Qualquer leitura < 30 bases é descartada
3. Exemplo de output file (Newbler)
1) 454AllContigs.txt (>100 pb)
2) 454LargeContigs.txt (>500 pb)
3) 454Scaffolds.txt
4) Qual.txt (qualidade em phred)
5) AGP file
6) 454NewblerMetrics.txt
7) 454ContigGraph.txt
3. Exemplo de output file (Newbler)
Montagem
Montagem
Newbler output files
Newbler output files
AGP file
1: Número, 2: Start 3: End, 4: identifiação do contig dentro do scaffold, 5:
W=contig, N=gap, 6: Número do contig, 7 e 8: start and end, 9: orientação
do scaffold, Fragment e yes (evidência de ligação entre os contigs)
454NewblerMetrics.txt
• Dados da corrida
(Leituras, bases)
• Dados de controle do
início do alinhamento
• Localização dos arquivos
• Número de bases e
leituras alinhadas
• N50
• Média dos contigs
• Maior contig
9 4/11/14 Montagem
Montagem
Newbler output files
Newbler output files
Metrics
Metrics
• Montagem quase perfeita
• M. suis (2 scaffolds) – fechou-se o gap com PCR.
3. Exemplo de output file (Newbler)
3. Exemplo de output file (Newbler)
Montagem
Montagem
Newbler output files
Newbler output files
Contig Graph
Parte 1
1) Identifier
2) Nome do contig
3) Tamanho do contig
4) Read depth
Número total de bases
dividido pelo tamanho do
contig.
Contig Graph
Parte 2
1) C de contig
2) Número do contig a
esquerda do arco
3) Final do contig que o arco
se refere (5’ou 3’)
4) Contig a direita do arco
5) Final do contig que o arco
se refere (5’ou 3’)
6) Read depth do arco
10 4/11/14 3. Exemplo de output file (Newbler)
3. Exemplo de output file (Newbler)
Montagem
Montagem
Newbler output files
Newbler output files
Contig Graph
Contig Graph
Parte 3
1) S de scaffold
2) O número do scaffold
3) Tamanho do scaffold
Como o scaffold foi montado:
Contig 7 na orientação senso (+), seguido de um
gap de 974, e do contig 8 na orientação senso (+)
3. Exemplo de output file (Newbler)
Parte 4 (thru-flow information)
1) I
2) Número do contig
3) A sequência do contig
4) Thru-flow information
Contigs pequenos, em que o repeat é maior que
este contig, logo ele não se encaixa.
7 desses contigs, no contig 660, final 3’…
3. Exemplo de output file (Newbler)
Montagem
Montagem
Newbler output files
Newbler output files
Contig Graph
Contig Graph
Parte 5
1) F
2) Número do contig
3) Informação sobre as leituras que estão no final 5’do
contig
4) Informação sobre leituras que estão no final 3’ do contig
Parte 6 (informação de paired end)
Mesma coisa que a parte 5 só que lida com as
leituras oriundas de paired-end
Leituras que estão nos finais de contigs e se sobrepõe em
outros contigs mas não se alinham inteiramente neles.
11 leituras do final 5’do contig 345 se sobrepõe com o contig
1287, e a distância entre eles é zero (logo, estão juntos)
11 4/11/14 3. Exemplo de output file (Newbler)
Newbler – gsAssembler
2. Esquema fundamentais da montagem de sequências
ABySS
• Genoma de 100Mb
• Genomas de mamíferos
• Linux/Unix
• Memória depende das leituras (ex. 16Gb RAM)
Dúvidas
[email protected]
12