Tratamento inicial de sequências

Transcrição

Tratamento inicial de sequências
Tratamento inicial de seqüências
Leandro Costa do Nascimento
[email protected]
[email protected]
Motivação
•Reads não são perfeitos / Contém erros e artefatos
•Trechos da sequência que não fazem parte do
organismo desejado atrapalham a montagem
•Sequências com qualidade ruim podem atrapalhar a
montagem também (454, solexa, solid)
•Erros nos reads ocasionam montagens erradas
•Corrigir reads antes de montar diminui o uso da
memória
Fluxograma das análises
Sanger
454
Solexa
Solid
Identificação de
regiões com vetor
e qualidade ruim
Eliminação de
sequencias com N
Excluir reads
de baixa
qualidade
Excluir reads
de baixa
qualidade
Eliminação de
contaminantes
(bacteria, homo
sapiens)
Eliminação de
sequencias de
tamanhos extremos
Trimar Reads
Corrigir reads
Excluir adaptador
Formatar
arquivos
Excluir vetor/adaptador
Corrigir reads
Montagem
Montagem
Montagem
Formatar
arquivos
Montagem
Converter
montagem
para “base
space”
Processamento dos cromatogramas
(Sanger)
- Lendo o cromatograma usando o programa phred (linux)
background
Qualidade boa
Qualidade média
Qualidade ruim
- Sequência fasta
- Arquivo de qualidade
>Unknown sequences #1
0 0 0 5 6 5 7 10 9 10 12 15 16 17 20 20 23 25 30 30 30 40 40 45 50 50 50
56 56 50 50 30 40 40 45 ...
Sequências com nota phred = 0 são identificadas pela letra N :
>Unknown
NNNATCG...
Identificando regiões de vetor
DNA genômico
reads
clonar em vetor
sequenciamento
>Unknown sequence
NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC
NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC
NNNATCGTTTTGGGCCAAAAATGGCATGTACCCC
Sequência do vetor de clonagem
Para análises em larga escala o programa cross_match (linux) faz a identificação
da região do vetor através da comparação entre as sequências fasta e o banco de
vetores mascarando a região do vetor na sequência fasta. Isto é, substitui os
nucleotídeos identificados com vetor pela letra X :
>Unknown sequence
XXXXXXXXXXXXXXXXXXXAAATGGCATGTACCCCATCCGGGGAAGTACC
NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC
NNNATCGTTTTGGGCCAXXXXXXXXXXXXXXXXXX
X => Sequência do vetor de clonagem
A identificação da região de vetor é feita através da comparação, via
BLAST (bl2seq), da sequência fasta com a sequência do vetor. A
sequência do vetor utilizado na clonagem pode ser obtida no site do
fabricante/distribuidor :
http://www.invitrogen.com/content.cfm?pageid=94
Outra possibilidade é utilizando o banco de sequências de vetores
do NCBI (BLASTn):
http://www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html
Excluir sequencias de baixa qualidade
Máxima subsequência
Encontra a máxima subseqüência com uma qualidade mínima
Exemplo: máxima subseqüência com qualidade mínima de 15
Janela deslizante
busca trechos que possuam um número máximo de bases
com qualidades menores que a mínima
Exemplo: janela com no máximo 50 bases com qualidade
abaixo de 16
Identificando regiões de qualidade ruim – Máxima
Subsequência
Nota phred média da subsequência= 50
Nota phred média da subsequência= 15
Identificando regiões de qualidade ruim – Janela
Deslizante
Janela deslizante de 50 pb
Nota phred méda da janela = 11
Janela deslizante de 50 pb
Nota phred méda da janela = 13
A
janela
para
quando a nota phred
média for igual a
nota de corte (no
caso phred=16)
Janela deslizante de 50 pb
Nota phred méda da janela = 16
Janela deslizante de 50 pb
Nota phred méda da janela = 16
- Como as regiões de vetor e qualidade ruim estão sobrepostas o
problema pode ser complicado
Identificar regiões de
baixa qualidade
Identificar regiões de
vetores
Cortar regiões de baixa
qualidade e vetor
Bioinformatics 17 (2001), n. 122001, 1093-1104
- Possíveis combinações de regiões com qualidade ruim e vetores
Bioinformatics 17 (2001), n. 122001, 10931104
Possíveis cortes de qualidade
• Nota de corte phred :
• Igual a 16 para corte processamento em larga escala
• Igual a 30 quando tem a necessidade de trabalhar
com sequências de alta qualidade (Exemplo : SNPs)
• Igual a 0 quando se está interessado no máximo de
informação possível sobre a sequência estudada.
• Possivelmente uma região de qualidade ruim pode
continuar dando similaridade com a proteína de
interesse
Programas para tratar sequências de sanger
•Lucy
•DBTrimmer
Identificando sequências contaminantes
- Geralmente é utilizado um programa que busca
similaridade em nucleotídeo entre os reads obtidos
e outras espécies “comuns”
- Homo sapiens, e-coli (outras bacterias),
levedura
Reads pareados em Sanger
DNA genômico
reads
clonar em vetor
sequenciamento
>Unknown sequence.F
NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC
NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC
NNNATCGTTTTGGGCCAAAAATGGCATGTACCCC
>Unknown sequence.R
GGGGTACATGCCATTTTTGGCCCAAAACGATNNNGGTACTTCCCCGGATG
GGGTACATGCCATTTTTGGCCCAAAACGATNNNGGTACTTCCCCGGATGG
GGTACATGCCATTTTTGGCCCAAAACGATNNN
Reads pareados em Sanger
• Forward e reverse
• Programas de montagem utilizam essa formação
de link para corrigir possíveis erros de montagem
Fluxograma das análises
Sanger
454
Solexa
Solid
Identificação de
regiões com vetor
e qualidade ruim
Eliminação de
sequencias com N
Excluir reads
de baixa
qualidade
Excluir reads
de baixa
qualidade
Eliminação de
contaminantes
(bacteria, homo
sapiens)
Eliminação de
sequencias de
tamanhos extremos
Trimar Reads
Corrigir reads
Excluir adaptador
Formatar
arquivos
Excluir vetor/adaptador
Corrigir reads
Montagem
Montagem
Montagem
Formatar
arquivos
Montagem
Converter
montagem
para “base
space”
Primeira geração de
sequenciamento no 454 GS20
São obtidas seqüências de 230 bp no FLX e 330 bp no Titanium (XLR)
454
• Pirogramas
• Formato sff
• sffinfo
• Relatório geral e para cada sequência
• extrai informações do arquivo sff e grava em arquivos de
texto
• pirograma/sequencia/qualidade
Processamento de pirogramas
sff_extract



Converte sff para fasta (seq + qual + xml)

Trima sequência se for necessário
Avisa caso exista uma sequência repetida muitas vezes


Usar sff_extract com –c para remover adaptador
Sfffile

Gera um novo sff com somente os reads q vc indicar num
arquivo de ids.
Identificando o adaptador com o
Ssaha2
• http://www.sanger.ac.uk/resources/software/ss
aha2/
• ssaha2 parametros importantes:
• -output ssaha2 adaptator 454.fasta >
ALL_ssaha2vectorscreen_in.txt
• É possível trimar as sequências a partir dessas
coordenadas ou passar esse arquivo para um
montador
Regiões de qualidade ruim

Homopolímeros

Regiões vizinhas aos homopolímeros
>sequencia
TGTGACTAAAAAAAAAAAAAACGTCGA T
>sequencia
40 20 20 20 20 20 11 11 11 11 11 11 11 11 11 11 11 11 11 11 12 12 22 20 40
TGTGACTAAAAAAAAAAAAACGTCGA
TGTGACTAAAAAAAAAAAAAAACGTCGA
TGTGACTAAAAAAAAAACGTCGA
TGTGACTAAAAAAAAAAAAAAAACGTCGA
TGTGACTAAAAAAAAAAAAAAAAAAACGTCGA
Excluindo sequencias ruins
• Sequências com base “N”
• Sequências com tamanho muito acima ou abaixo
do tamanho médio
• Foi observado que excluir esse tipo de sequência
melhora a montagem
O paired end em 454
• Sequência-adaptador-sequência
TCAGCGTGCATCGACTGCAGTCTACGAT
GCGCGATCATTCGACTGGAGCATTTCAG
• Remover o adaptador de paired end com o ssaha2 antes
de montar
• É necessário conhecer o tamanho médio do inserto para
que a montagem seja bem sucedida
• Com reads “paired ends” são formados scaffolds
Fasta ou sff?
• A conversão de sff para fasta pode não ser
muito precisa.
• Alguns montadores são capazes de ler o
arquivo sff e montar fazendo sobreposição
entre os pirogramas.
• Vantagens do formato fasta:
• É muito mais fácil manipular arquivos fasta para: remover
adaptador, excluir sequencias indesejadas, trimar os
reads.
Fluxograma das análises
Sanger
454
Solexa
Solid
Identificação de
regiões com vetor
e qualidade ruim
Eliminação de
sequencias com N
Excluir reads
de baixa
qualidade
Excluir reads
de baixa
qualidade
Eliminação de
contaminantes
(bacteria, homo
sapiens)
Eliminação de
sequencias de
tamanhos extremos
Trimar Reads
Corrigir reads
Excluir adaptador
Formatar
arquivos
Excluir vetor/adaptador
Corrigir reads
Montagem
Montagem
Montagem
Formatar
arquivos
Montagem
Converter
montagem
para “base
space”
Solexa reads
• GAIIx, GAIIe e Hiseq 2000
• 35 bp
• 50bp
• 75 bp
• 100 bp
• Tamanhos fixos
• Qualidade diminui nas últimas bases
Formato FASTQ
@HWI-EAS225:3:1:2:854#0/1
GGGGGGAAGTCGGCAAAATAGATCCGTAACTTCGGG
+HWI-EAS225:3:1:2:854#0/1
a`abbbbabaabbababb^`[aaa`_N]b^ab^``a
@HWI-EAS225:3:1:2:1595#0/1
GGGAAGATCTCAAAAACAGAAGTAAAACATCGAACG
+HWI-EAS225:3:1:2:1595#0/1
a`abbbababbbabbbbbbabb`aaababab\aa_`
Formato FASTQ
Cada read é representado por 4 linhas
@ + read ID
Sequencia
“+”, opcionalmente seguido do read ID repetido
Qualidade
Mesmo tamanho da sequencia
Cada base possui uma uma qualidade
Formato Fastq
Se p é a probabilidade de encontrarmos uma base
errada, o score Phred é dado por:
-código ascii do caracter= Q + 33 (sanger)
-código ascii do caracter= Q + 64 (solexa)
Formato Fastq - Read ID
@HWUSI-EAS100R:6:73:941:1973#0/1
HWUSI-EAS100R – Nome da máquina
6 - calha
73 – numero do bloco na calha
941 – coordenada 'x’ no bloco
1973 – coordenada 'y’ no bloco
#0 – indice para uma amostra com varias bibliotecas (0 para
amostra não multiplexada)
/1 – membro de um par, /1 ou /2 (somente para
sequenciamento paired-end )
Fastx-toolkit
FASTQ-to-FASTA - converte fastq para fasta
FASTQ Information – estatistica de qualidade e distribuição de
nucleotídeos
FASTQ/A Collapser – identifica sequencias idênticas e junta em
uma só
FASTQ/A Trimmer – trima a sequencia em ambas as
extremidades
FASTQ/A Renamer – renomeia sequencias
FASTQ/A Clipper – remove adaptadores
FASTQ/A Reverse-Complement
Fastx-toolkit
FASTQ Quality Filter – filtra seqüência de acordo com a
qualidade
FASTQ Quality Trimmer – trima a seqüência de acordo com a
qualidade
FASTQ Masker – Mascara seqüência com N de acordo com a
qualidade
Correção de reads
• Encontrar possíveis erros de sequenciamento e
editar os reads
• Objetivo principal: Diminuir o uso da memória
pelo montador
• SOAPdenovo correction tool
• http://soap.genomics.org.cn/soapdenovo.html
• Baseado na frequência de um determinado kmer que deve ser
constante em todo o genoma
Correção de reads
• Exemplo do Panda:
• K=17 bp
• 17-mers com frequência menor foram corrigidos com base
naqueles de maior frequência
• corrigidos 8.4% dos reads e 0.2% das bases.
• O grafo usado para a montagem foi reduzido de 4X o tamanho
apenas por utilizar essa etapa de correção.
Illumina solexa - arquivos


Sequências “single end” estão em arquivos
únicos
Sequências “paired end”:

Arquivos separados


Único arquivo


Sequencias nos dois arquivos devem estar na mesma ordem
Sequencias /1 e /2 devem estar juntas
Arquivos de input depende de cada montador
Fluxograma das análises
Sanger
454
Solexa
Solid
Identificação de
regiões com vetor
e qualidade ruim
Eliminação de
sequencias com N
Excluir reads
de baixa
qualidade
Excluir reads
de baixa
qualidade
Eliminação de
contaminantes
(bacteria, homo
sapiens)
Eliminação de
sequencias de
tamanhos extremos
Trimar Reads
Corrigir reads
Excluir adaptador
Formatar
arquivos
Excluir vetor/adaptador
Corrigir reads
Montagem
Montagem
Montagem
Formatar
arquivos
Montagem
Converter
montagem
para “base
space”
Applied Biosystems SOLiD™
Sequencer
Tamanho dos reads varia de 25-35 pb
Cada corrida pode produzir 2-4 Gb
Análises computacionais incluem:
Análise de imagens
Processamento do sinal
Subtração do backgrond
Mudança entre os espaços de base e cor
Avaliação da qualidade
Sequência
T T G A G C G T T C
Color Space
T
●●●●●●●●●
T 0 1 2 2 3 3 1 0 2
Double Encoded
T A C G G T T C A G
Tipos de arquivos
XXXX.csfasta
XXXX.qual
FIM

Documentos relacionados

from lvaruzza.com - Leonardo Varuzza`s Site

from lvaruzza.com - Leonardo Varuzza`s Site Uma questão relevante para os sequenciadores que utilizam fluxos de dNTP’s são os homopolímeros, sequencias contínuas de bases iguais como AAAA, CCCCC e etc4 . Nesse caso, todas as bases do homopol...

Leia mais

Reads

Reads sequences themselves, if -c is set) paired with mates in Comma-separated list of files containing downstream mates (or the sequences themselves if -c is set) paired with mates in Comma-se...

Leia mais

Introdução à análise de dados de sequenciadores de nova geração

Introdução à análise de dados de sequenciadores de nova geração já será impraticável analisar manualmente 96 kilobases por corrida, com os sequenciadores que geram gigabytes por corrida é impossível, se uma pessoa pudesse analisar uma base por segundo, demorari...

Leia mais