Tratamento inicial de sequências
Transcrição
Tratamento inicial de sequências
Tratamento inicial de seqüências Leandro Costa do Nascimento [email protected] [email protected] Motivação •Reads não são perfeitos / Contém erros e artefatos •Trechos da sequência que não fazem parte do organismo desejado atrapalham a montagem •Sequências com qualidade ruim podem atrapalhar a montagem também (454, solexa, solid) •Erros nos reads ocasionam montagens erradas •Corrigir reads antes de montar diminui o uso da memória Fluxograma das análises Sanger 454 Solexa Solid Identificação de regiões com vetor e qualidade ruim Eliminação de sequencias com N Excluir reads de baixa qualidade Excluir reads de baixa qualidade Eliminação de contaminantes (bacteria, homo sapiens) Eliminação de sequencias de tamanhos extremos Trimar Reads Corrigir reads Excluir adaptador Formatar arquivos Excluir vetor/adaptador Corrigir reads Montagem Montagem Montagem Formatar arquivos Montagem Converter montagem para “base space” Processamento dos cromatogramas (Sanger) - Lendo o cromatograma usando o programa phred (linux) background Qualidade boa Qualidade média Qualidade ruim - Sequência fasta - Arquivo de qualidade >Unknown sequences #1 0 0 0 5 6 5 7 10 9 10 12 15 16 17 20 20 23 25 30 30 30 40 40 45 50 50 50 56 56 50 50 30 40 40 45 ... Sequências com nota phred = 0 são identificadas pela letra N : >Unknown NNNATCG... Identificando regiões de vetor DNA genômico reads clonar em vetor sequenciamento >Unknown sequence NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC NNNATCGTTTTGGGCCAAAAATGGCATGTACCCC Sequência do vetor de clonagem Para análises em larga escala o programa cross_match (linux) faz a identificação da região do vetor através da comparação entre as sequências fasta e o banco de vetores mascarando a região do vetor na sequência fasta. Isto é, substitui os nucleotídeos identificados com vetor pela letra X : >Unknown sequence XXXXXXXXXXXXXXXXXXXAAATGGCATGTACCCCATCCGGGGAAGTACC NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC NNNATCGTTTTGGGCCAXXXXXXXXXXXXXXXXXX X => Sequência do vetor de clonagem A identificação da região de vetor é feita através da comparação, via BLAST (bl2seq), da sequência fasta com a sequência do vetor. A sequência do vetor utilizado na clonagem pode ser obtida no site do fabricante/distribuidor : http://www.invitrogen.com/content.cfm?pageid=94 Outra possibilidade é utilizando o banco de sequências de vetores do NCBI (BLASTn): http://www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html Excluir sequencias de baixa qualidade Máxima subsequência Encontra a máxima subseqüência com uma qualidade mínima Exemplo: máxima subseqüência com qualidade mínima de 15 Janela deslizante busca trechos que possuam um número máximo de bases com qualidades menores que a mínima Exemplo: janela com no máximo 50 bases com qualidade abaixo de 16 Identificando regiões de qualidade ruim – Máxima Subsequência Nota phred média da subsequência= 50 Nota phred média da subsequência= 15 Identificando regiões de qualidade ruim – Janela Deslizante Janela deslizante de 50 pb Nota phred méda da janela = 11 Janela deslizante de 50 pb Nota phred méda da janela = 13 A janela para quando a nota phred média for igual a nota de corte (no caso phred=16) Janela deslizante de 50 pb Nota phred méda da janela = 16 Janela deslizante de 50 pb Nota phred méda da janela = 16 - Como as regiões de vetor e qualidade ruim estão sobrepostas o problema pode ser complicado Identificar regiões de baixa qualidade Identificar regiões de vetores Cortar regiões de baixa qualidade e vetor Bioinformatics 17 (2001), n. 122001, 1093-1104 - Possíveis combinações de regiões com qualidade ruim e vetores Bioinformatics 17 (2001), n. 122001, 10931104 Possíveis cortes de qualidade • Nota de corte phred : • Igual a 16 para corte processamento em larga escala • Igual a 30 quando tem a necessidade de trabalhar com sequências de alta qualidade (Exemplo : SNPs) • Igual a 0 quando se está interessado no máximo de informação possível sobre a sequência estudada. • Possivelmente uma região de qualidade ruim pode continuar dando similaridade com a proteína de interesse Programas para tratar sequências de sanger •Lucy •DBTrimmer Identificando sequências contaminantes - Geralmente é utilizado um programa que busca similaridade em nucleotídeo entre os reads obtidos e outras espécies “comuns” - Homo sapiens, e-coli (outras bacterias), levedura Reads pareados em Sanger DNA genômico reads clonar em vetor sequenciamento >Unknown sequence.F NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC NNNATCGTTTTGGGCCAAAAATGGCATGTACCCC >Unknown sequence.R GGGGTACATGCCATTTTTGGCCCAAAACGATNNNGGTACTTCCCCGGATG GGGTACATGCCATTTTTGGCCCAAAACGATNNNGGTACTTCCCCGGATGG GGTACATGCCATTTTTGGCCCAAAACGATNNN Reads pareados em Sanger • Forward e reverse • Programas de montagem utilizam essa formação de link para corrigir possíveis erros de montagem Fluxograma das análises Sanger 454 Solexa Solid Identificação de regiões com vetor e qualidade ruim Eliminação de sequencias com N Excluir reads de baixa qualidade Excluir reads de baixa qualidade Eliminação de contaminantes (bacteria, homo sapiens) Eliminação de sequencias de tamanhos extremos Trimar Reads Corrigir reads Excluir adaptador Formatar arquivos Excluir vetor/adaptador Corrigir reads Montagem Montagem Montagem Formatar arquivos Montagem Converter montagem para “base space” Primeira geração de sequenciamento no 454 GS20 São obtidas seqüências de 230 bp no FLX e 330 bp no Titanium (XLR) 454 • Pirogramas • Formato sff • sffinfo • Relatório geral e para cada sequência • extrai informações do arquivo sff e grava em arquivos de texto • pirograma/sequencia/qualidade Processamento de pirogramas sff_extract Converte sff para fasta (seq + qual + xml) Trima sequência se for necessário Avisa caso exista uma sequência repetida muitas vezes Usar sff_extract com –c para remover adaptador Sfffile Gera um novo sff com somente os reads q vc indicar num arquivo de ids. Identificando o adaptador com o Ssaha2 • http://www.sanger.ac.uk/resources/software/ss aha2/ • ssaha2 parametros importantes: • -output ssaha2 adaptator 454.fasta > ALL_ssaha2vectorscreen_in.txt • É possível trimar as sequências a partir dessas coordenadas ou passar esse arquivo para um montador Regiões de qualidade ruim Homopolímeros Regiões vizinhas aos homopolímeros >sequencia TGTGACTAAAAAAAAAAAAAACGTCGA T >sequencia 40 20 20 20 20 20 11 11 11 11 11 11 11 11 11 11 11 11 11 11 12 12 22 20 40 TGTGACTAAAAAAAAAAAAACGTCGA TGTGACTAAAAAAAAAAAAAAACGTCGA TGTGACTAAAAAAAAAACGTCGA TGTGACTAAAAAAAAAAAAAAAACGTCGA TGTGACTAAAAAAAAAAAAAAAAAAACGTCGA Excluindo sequencias ruins • Sequências com base “N” • Sequências com tamanho muito acima ou abaixo do tamanho médio • Foi observado que excluir esse tipo de sequência melhora a montagem O paired end em 454 • Sequência-adaptador-sequência TCAGCGTGCATCGACTGCAGTCTACGAT GCGCGATCATTCGACTGGAGCATTTCAG • Remover o adaptador de paired end com o ssaha2 antes de montar • É necessário conhecer o tamanho médio do inserto para que a montagem seja bem sucedida • Com reads “paired ends” são formados scaffolds Fasta ou sff? • A conversão de sff para fasta pode não ser muito precisa. • Alguns montadores são capazes de ler o arquivo sff e montar fazendo sobreposição entre os pirogramas. • Vantagens do formato fasta: • É muito mais fácil manipular arquivos fasta para: remover adaptador, excluir sequencias indesejadas, trimar os reads. Fluxograma das análises Sanger 454 Solexa Solid Identificação de regiões com vetor e qualidade ruim Eliminação de sequencias com N Excluir reads de baixa qualidade Excluir reads de baixa qualidade Eliminação de contaminantes (bacteria, homo sapiens) Eliminação de sequencias de tamanhos extremos Trimar Reads Corrigir reads Excluir adaptador Formatar arquivos Excluir vetor/adaptador Corrigir reads Montagem Montagem Montagem Formatar arquivos Montagem Converter montagem para “base space” Solexa reads • GAIIx, GAIIe e Hiseq 2000 • 35 bp • 50bp • 75 bp • 100 bp • Tamanhos fixos • Qualidade diminui nas últimas bases Formato FASTQ @HWI-EAS225:3:1:2:854#0/1 GGGGGGAAGTCGGCAAAATAGATCCGTAACTTCGGG +HWI-EAS225:3:1:2:854#0/1 a`abbbbabaabbababb^`[aaa`_N]b^ab^``a @HWI-EAS225:3:1:2:1595#0/1 GGGAAGATCTCAAAAACAGAAGTAAAACATCGAACG +HWI-EAS225:3:1:2:1595#0/1 a`abbbababbbabbbbbbabb`aaababab\aa_` Formato FASTQ Cada read é representado por 4 linhas @ + read ID Sequencia “+”, opcionalmente seguido do read ID repetido Qualidade Mesmo tamanho da sequencia Cada base possui uma uma qualidade Formato Fastq Se p é a probabilidade de encontrarmos uma base errada, o score Phred é dado por: -código ascii do caracter= Q + 33 (sanger) -código ascii do caracter= Q + 64 (solexa) Formato Fastq - Read ID @HWUSI-EAS100R:6:73:941:1973#0/1 HWUSI-EAS100R – Nome da máquina 6 - calha 73 – numero do bloco na calha 941 – coordenada 'x’ no bloco 1973 – coordenada 'y’ no bloco #0 – indice para uma amostra com varias bibliotecas (0 para amostra não multiplexada) /1 – membro de um par, /1 ou /2 (somente para sequenciamento paired-end ) Fastx-toolkit FASTQ-to-FASTA - converte fastq para fasta FASTQ Information – estatistica de qualidade e distribuição de nucleotídeos FASTQ/A Collapser – identifica sequencias idênticas e junta em uma só FASTQ/A Trimmer – trima a sequencia em ambas as extremidades FASTQ/A Renamer – renomeia sequencias FASTQ/A Clipper – remove adaptadores FASTQ/A Reverse-Complement Fastx-toolkit FASTQ Quality Filter – filtra seqüência de acordo com a qualidade FASTQ Quality Trimmer – trima a seqüência de acordo com a qualidade FASTQ Masker – Mascara seqüência com N de acordo com a qualidade Correção de reads • Encontrar possíveis erros de sequenciamento e editar os reads • Objetivo principal: Diminuir o uso da memória pelo montador • SOAPdenovo correction tool • http://soap.genomics.org.cn/soapdenovo.html • Baseado na frequência de um determinado kmer que deve ser constante em todo o genoma Correção de reads • Exemplo do Panda: • K=17 bp • 17-mers com frequência menor foram corrigidos com base naqueles de maior frequência • corrigidos 8.4% dos reads e 0.2% das bases. • O grafo usado para a montagem foi reduzido de 4X o tamanho apenas por utilizar essa etapa de correção. Illumina solexa - arquivos Sequências “single end” estão em arquivos únicos Sequências “paired end”: Arquivos separados Único arquivo Sequencias nos dois arquivos devem estar na mesma ordem Sequencias /1 e /2 devem estar juntas Arquivos de input depende de cada montador Fluxograma das análises Sanger 454 Solexa Solid Identificação de regiões com vetor e qualidade ruim Eliminação de sequencias com N Excluir reads de baixa qualidade Excluir reads de baixa qualidade Eliminação de contaminantes (bacteria, homo sapiens) Eliminação de sequencias de tamanhos extremos Trimar Reads Corrigir reads Excluir adaptador Formatar arquivos Excluir vetor/adaptador Corrigir reads Montagem Montagem Montagem Formatar arquivos Montagem Converter montagem para “base space” Applied Biosystems SOLiD™ Sequencer Tamanho dos reads varia de 25-35 pb Cada corrida pode produzir 2-4 Gb Análises computacionais incluem: Análise de imagens Processamento do sinal Subtração do backgrond Mudança entre os espaços de base e cor Avaliação da qualidade Sequência T T G A G C G T T C Color Space T ●●●●●●●●● T 0 1 2 2 3 3 1 0 2 Double Encoded T A C G G T T C A G Tipos de arquivos XXXX.csfasta XXXX.qual FIM
Documentos relacionados
from lvaruzza.com - Leonardo Varuzza`s Site
Uma questão relevante para os sequenciadores que utilizam fluxos de dNTP’s são os homopolímeros, sequencias contínuas de bases iguais como AAAA, CCCCC e etc4 . Nesse caso, todas as bases do homopol...
Leia maisReads
sequences themselves, if -c is set) paired with mates in
Introdução à análise de dados de sequenciadores de nova geração
já será impraticável analisar manualmente 96 kilobases por corrida, com os sequenciadores que geram gigabytes por corrida é impossível, se uma pessoa pudesse analisar uma base por segundo, demorari...
Leia mais