Introdução

Transcrição

Introdução
Tutorial “Hands-on”
Autor: Daniel Guariz Pinheiro
([email protected] - http://lattes.cnpq.br/1127775073652502)
Data: 03/02/2012
Introdução
Ao seguir este tutorial leia atentamente às informações e notas que permitirão entender o
propósito de cada passo. Caso encontre problemas com a execução de alguma das etapas, por favor,
entre em contato para podermos verificar a ocorrência de erros ou complementarmos as instruções e
atualizarmos o tutorial.
A seguir, serão apresentadas algumas informações úteis, como comandos e os locais na
internet onde os programas utilizados neste tutorial podem ser encontrados.
1.1 Comandos úteis
mkdir
ls
pwd
file
gunzip
tar
bunzip2
unzip
chmod
ln
cat
head
Criar diretórios (caminhos)
$ mkdir -p /work/alunos/
Listar todo o conteúdo de diretórios
$ ls /work/alunos/*
Informar diretório atual
$ pwd
Determinar o tipo do arquivo
$ file undeterminedfiletype.unk
Descompactar arquivos no formato .gz
$ gunzip file.gz
Descompactar arquivos no formato .tar.gz ou .tgz
$ tar -zxvf file.tar.gz
Descompactar arquivos no formato .tar
$ tar -xvf file.tar
Descompactar arquivos no formato .tar.bz2 ou .tar.bz
$ tar -jxvf file.tar.bz2
Descompactar arquivos no formato .bz2 ou .bz
$ bunzip2 file.bz2
Descompactar arquivos no formato .zip
$ unzip file.zip
Atribuir permissão de execução em um arquivo para todos os usuários
$ chmod a+x script.sh
Fazer um link simbólico (criar um atalho)
$ ln -s /source/file.txt /destiny/linktofile.txt
Concatenar arquivos e redirecionar a saída para o STDOUT (tela - padrão).
$ cat file1.txt file2.txt # imprime na tela o conteúdo de file1.txt e file2.txt
$ cat file1.txt > file3.txt # imprime em file3.txt o conteúdo de file1.txt
$ cat file1.txt | grep ‘>’ # redireciona a saída do cat p/ entrada (STDIN) do grep
Imprime na tela as n (10) primeiras linhas de um arquivo texto (file1.txt)
$ head -10 file1.txt
Dica 1: Criar um pipeline utilizando shell/Perl/Python scripts para armazenar as chamadas dos
comandos que serão executados.
Dica 2: Utilize o comando time precedendo os comandos para calcular o tempo de execução.
1.2 Lista de programas
Bioperl 1.6.1
[Stajich JE et al.,
2002]
NCBI SRA Toolkit
2.0.1
FASTX-Toolkit 0.0.13
FastQC 0.9.2
PRINSEQ 0.15
(standalone)
[Schmieder R and
Edwards R]
Nsort (necessita
requisitar uma
licença acadêmica)
Goby 1.9.6.1
SAMtools 0.1.16
[Li H, et al., 2009]
BEDTools 2.12.0
[Quinlan AR et al.,
2010]
Bowtie 0.12.7
[Langmead B, et al.,
2009]
BWA 0.5.9
[Li H and Durbin R,
2009]
[Li H and Durbin R,
2010]
in-house Perl/shell
scripts
IGV 2.0
[Robinson JT et al.,
2011]
igvtools 1.5.15
sff2fastq
Trim.pl
tophat
cufflinks
1.
http://www.bioperl.org/
http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
http://hannonlab.cshl.edu/fastx_toolkit/
http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/
http://prinseq.sourceforge.net/
http://www.ordinal.com/
http://campagnelab.org/software/goby/
http://samtools.sourceforge.net/
http://code.google.com/p/bedtools/
http://bowtie-bio.sourceforge.net/index.shtml
http://bio-bwa.sourceforge.net/
http://lgmb.fmrp.usp.br/redmine-1.0/projects/bitutils/repository
http://www.broadinstitute.org/software/igv/download
http://www.broadinstitute.org/software/igv/download
https://github.com/indraniel/sff2fastq
http://wiki.bioinformatics.ucdavis.edu/index.php/Trim.pl
http://tophat.cbcb.umd.edu/
http://cufflinks.cbcb.umd.edu/
Alinhamento de sequências RNA-Seq em genoma referência
A partir dos dados gerados de dois sequenciamentos de transcriptomas, serão realizadas as seguintes
tarefas: obtenção dos dados, preparação para o alinhamento dos dados das leituras contra o genoma
de referência, execução dos programas de alinhamento, análise preliminar dos resultados, utilização
dos resultados para gerar informação dos genes expressos.
1.1
Estrutura de diretórios
Manter os dados bem organizados é uma prática que deve ser adotada. Convenções para o
conteúdo de cada diretório:
dataset1/ – diretórios contendo os cojuntos de dados n;
dataset1/raw – arquivos contendo os dados brutos ou convertidos para determinado formato;
dataset1/tophat_output/ – diretórios contendo os resutados do tophat;
dataset1/bowtie_output/ – diretórios contendo os resutados do tophat;
dataset1/tophat_indexes/ – diretório que irá conter os arquivos índices para o genoma humano, que
podem ser utilizados pelo (alinhador bowtie ou tophat);
dataset1/refs/ – diretório contendo os arquivos que serão usados como referências (hg19.fa – arquivo
no formato FASTA com as sequências do cromossomo humano; refGene.gtf – arquivos com as
coordenadas dos genes humanos, no formato GTF que foi obtida do UCSC);
scripts/ – scripts;
[/]$ cd /work/alunos/
[/work/alunos/]$ mkdir nome/
[/work/alunos/]$ cd nome/
[nome/]$
[nome/]$
[nome/]$
[nome/]$
[nome/]$
mkdir
mkdir
mkdir
mkdir
mkdir
#
#
#
#
#
o diretório "/work/alunos/"
criar o diretório com o seu nome se ele ainda não
existe (por favor não utilizar espaços no nome)
"/work/alunos" será omitido a seguir e durante
todo o restante do documento
-p dataset1/raw/
refs/
-p dataset1/tophat_output/
-p dataset1/bowtie_output/
-p dataset1/cufflinks_output/
[nome/]$ mkdir -p dataset2/tophat_output/
[nome/]$ mkdir -p dataset2/bowtie_output/
[nome/]$ mkdir -p dataset2/cufflinks_output/
[nome/]$ mkdir tophat_indexes/
[nome/]$ mkdir cuffdiff_output/
[nome/]$ mkdir scripts/
raw
dataset1
tophat_output
cufflinks_output
raw
dataset2
tophat_output
refs
cufflinks_output
nome
tophat_indexes
cuffdiff_output
scripts
1.2
Informações e fonte dos dados de seqüenciamento
Os dados brutos deverão estar armazenados no diretórios “classes/dataset1/raw/” e
“classes/dataset2/raw/”, respectivamente para o primeiro e segundo conjunto de dados.
Os dados podem ser obtidos em um dos três repositórios públicos que compartilham os dados
submetidos entre si, utilizando um código de acesso:
 SRA (NCBI Sequence Read Archive): http://www.ncbi.nlm.nih.gov/sra
 ENA (EBI European Nucleotide Archive): http://www.ebi.ac.uk/ena/
 DRA (DDBJ Sequence Read Archive): http://trace.ddbj.nig.ac.jp/dra/index_e.shtml
A organização dos dados nesses três repositórios é realizada de acordo com a representação
abaixo, obtida do site do DDBJ:
[http://trace.ddbj.nig.ac.jp/dra/documentation_e.shtml]
Objeto de
Metadados
Submission
Sample
Study
Experiment
Run
Analysis


Descrição
Contém informações a respeito de quem está submetendo e dos
arquivos submetidos
Contém informações sobre a mostra sob a qual os experimentos
de seqüenciamento são baseados e podem ser utilizados em
vários experimentos
Contém informações sobre o projeto de seqüenciamento e
podem conterm vários experimentos e análises
Contém informações sobre o experimento de seqüenciamento e
estão associados às Runs que contém o resultado do
sequenciamento
Contém todo ou parte do resultado dos experimentos de
sequenciamento (Ex.: Uma Lane de Illumina)
Contém resultados de análises secundárias computadas a partir
de resultados primários de seqüenciamento.
Prefixo
SRA ENA
SRA ERA
DRA
DRA
SRS
ERS
DRS
SRP
ERP
DRP
SRX
ERX
DRX
SRR
ERX
DRX
SRZ
ERZ
DRZ
Study: ERP000418
NCBI SRA: http://trace.ncbi.nlm.nih.gov/Traces/sra/?study=ERP000418
 dataset1
Run:
Accession: ERR022660
Instrument model:
Illumina Genome Analyzer II
Date of run: 2009-06-29 07:00:00
Run center: INCTC
Statistics:
Number of spots: 16021315
Number of reads: 32042630
Study ERP000418:Gene expression profiles between normal and breast tumor genomes
Design: Illumina Paired-end Sequencing of Human Cell Line HCC1954 Transcriptome
Platform: Illumina
Sample ERS013009:Human cell line HCC1954
Library:
Name: HCOPI
Strategy: EST
Source: TRANSCRIPTOMIC
Selection: cDNA
Layout:
PAIRED (ORIENTATION=5'-3'-3'-5, NOMINAL_LENGTH=200, NOMINAL_SDEV=0.0E0)
Construction Protocol: Total RNA was isolated from the cell pellets using the RNeasy Mini Kit (Qiagen,
Valencia, CA). Total RNA was treated with DNase I (New England Biolabs, Ipswich, MA) and purified
with Qiagen RNeasy columns (Qiagen Valencia, CA). DNA-free RNA yield and purity were initially
assessed by spectrophotometry. PolyA+ RNA was prepared from 500 ?g of total RNA with oligo(dT)
beads using the Oligotex mRNA Mini Kit (Qiagen Valencia, CA). First-strand cDNA was prepared from 1
ug of poly(A)+ RNA with 200 pmol oligo random primers by using 300 units of Superscript II reverse
transcriptase (Invitrogen , Carlsbad, CA). Second-strand synthesis was performed in 20 ul at 16oC for 2
h after addition of 10 units of E. coli DNA ligase, 40 units of E. coli DNA polymerase, and 2 units of
RNase H (all from Invitrogen, Carlsbad, CA). T4 DNA polymerase (5 units) was added and incubated for
5 min at 16oC. Double-strand cDNA was purified by phenol-chloroform extraction and precipitation of
the aqueous phase in 1/10 volume 3 M sodium acetate and 100% ethanol.
 dataset2
Run:
Accession: ERR022684
Instrument model:
Illumina Genome Analyzer II
Date of run: 2009-06-08 04:00:00
Run center: INCTC
Statistics:
Number of spots: 10333897
Number of reads: 20667794
Study ERP000418:Gene expression profiles between normal and breast tumor genomes
Design: Illumina Paired-end Sequencing of Human Cell Line HCC1954 Transcriptome
Platform: Illumina
Sample ERS013010:Human cell line HCC1954BL
Library:
Name: LCOPI
Strategy: EST
Source: TRANSCRIPTOMIC
Selection: cDNA
Layout:
PAIRED (ORIENTATION=5'-3'-3'-5, NOMINAL_LENGTH=200, NOMINAL_SDEV=0.0E0)
Construction Protocol: Total RNA was isolated from the cell pellets using the RNeasy Mini Kit (Qiagen,
Valencia, CA). Total RNA was treated with DNase I (New England Biolabs, Ipswich, MA) and purified
with Qiagen RNeasy columns (Qiagen Valencia, CA). DNA-free RNA yield and purity were initially
assessed by spectrophotometry. PolyA+ RNA was prepared from 500 ?g of total RNA with oligo(dT)
beads using the Oligotex mRNA Mini Kit (Qiagen Valencia, CA). First-strand cDNA was prepared from 1
ug of poly(A)+ RNA with 200 pmol oligo random primers by using 300 units of Superscript II reverse
transcriptase (Invitrogen , Carlsbad, CA). Second-strand synthesis was performed in 20 ul at 16oC for 2
h after addition of 10 units of E. coli DNA ligase, 40 units of E. coli DNA polymerase, and 2 units of
RNase H (all from Invitrogen, Carlsbad, CA). T4 DNA polymerase (5 units) was added and incubated for
5 min at 16oC. Double-strand cDNA was purified by phenol-chloroform extraction and precipitation of
the aqueous phase in 1/10 volume 3 M sodium acetate and 100% ethanol.
Download
O download de um conjunto de dados pode ser feito utilizando o protocolo FTP, utilizando, por
exemplo, o programa wget. Porém é recomendado utilizar o protocolo Aspera
(http://www.asperasoft.com/en/products/client_software_2/aspera_connect_8), por meio do
programa ascp (aspera connect), o qual é capaz de realizar uma transferência muito mais rápida. Para
maiores informações sobre o Aspera: http://www.ncbi.nlm.nih.gov/books/NBK47527/.
FTP:

dataset1
[nome/dataset1/raw/]$ wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/srainstant/reads/ByRun/litesra/ERR/ERR022/ERR022660/ERR022660.lite.sra
Aspera:
ascp
-QTK -l300k -i ~/.aspera/connect/etc/asperaweb_id_dsa.putty [email protected]:/source_directory /destination_directory/
ascp
Argumentos:
-Q
Enables the fair transfer policy, which ensures that the available bandwidth is shared amongst
other traffic and transfers at a fair rate;
-T
Disables encryption for maximum throughput;
-K
Enables fatal transfer restarts. Resume levels 0,1,2,3;
-l
Maximum bandwidth;
-i
DSA public key;

dataset1
[nome/dataset1/raw/]$ ~/.aspera/connect/bin/ascp -T -K2 -Q -l5000k -i
~/.aspera/connect/etc/asperaweb_id_dsa.putty [email protected]:/sra/srainstant/reads/ByRun/sra/ERR/ERR022/ERR022660/ERR022660.sra .
1.3
Informações e fonte dos dados de referência
O genoma de referência e de coordenadas dos genes para diversos organismos podem ser
encontrados no UCSC Genome Browser download (http://hgdownload.cse.ucsc.edu/downloads.html).
Os dados das sequências de cromossomos do genoma humano podem ser encontrados em
ftp://hgdownload.cse.ucsc.edu/goldenPath/currentGenomes/Homo_sapiens/bigZips/chromFa.tar.gz.
As coordenadas de genes humanos na ferramenta UCSC Table Browser: http://genome.ucsc.edu/cgibin/hgTables. Selecionando as opções como na imagem abaixo:
No caso da imagem acima, estão sendo selecionadas as informações sobre coordenadas de
transcritos gênicos no formato GTF da tabela refGene (baseadas no mapeamento de transcritos do
banco de dados NCBI RefSeq - http://www.ncbi.nlm.nih.gov/RefSeq/) – refGene.gtf.
O arquivo deverá estar no diretório refs/.
1.4
Preparação dos dados
Os dados devem ser convertidos para o formato FASTQ [Cock PJ et al., 2009] para as etapas
seguintes. A conversão é feita utilizando os programas disponíveis no NCBI SRA Toolkit.
Nota: Atenção à codificação (Sanger, Solexa, Illumina 1.3+). Em ambos os casos, a codificação de
qualidade por padrão é Phred+33 (Sanger). Isso pode ser alterado utilizando o argumento “-Q” do
programa fastq-dump.
Antes do pré-processamento das leituras estatísticas serão geradas para os dois
sequenciamentos. O programa fastQC fornece uma série de gráficos e dados que permitem avaliar a
qualidade geral do sequenciamento. Possui uma interface gráfica que permite navegar pelos gráficos e
obter informações sobre o critério de avaliação de cada um dos módulos de análise.

dataset1
o
Conversão do arquivo (ERR022660.sra) no formato SRA para FASTQ
[nome/]$ fastq-dump dataset1/raw/ERR022660.sra -O dataset1/raw/ --split-3
o
Seleção de 100.000 sequências aleatórias
No caso da outra corrida de sequências paired-end de Illumina, no formato FASTQ, podemos
utilizar um in-house shell script(subsampling_pe_fastq.sh) desenvolvido com AWK
(http://en.wikipedia.org/wiki/AWK) e outros comandos UNIX. Ele gera arquivos com a extensão
.random no diretório dos arquivos de entrada. Esses arquivos .random podem ser movidos e
renomeados para outra pasta.
[nome/scripts]$ subsampling_pe_fastq.sh \
> ../dataset1/raw/ERR022660_1.fastq dataset2/raw/ ERR022660_2.fastq 100000
[nome/scripts]$ mv ../datase1/raw/ERR022660_1.fastq.random \
> ../dataset1/raw/ERR022660_100k_1.fastq
[nome/scripts]$ mv ../dataset1/raw/ERR022660_2.fastq.random \
> ../dataset1/raw/ERR022660_100k_2.fastq
o
Obter estatística descritiva dos dados
Utilizando o programa fastqc. Verifique os critérios para avaliação em cada módulo por meio
da inteface gráfica, chamando fastqc sem nenhum parâmetro.
fastqc
Argumentos:
-o
-t
--extract
-q
: diretório onde os dados serão gravados;
: número de processadores;
: indica ao programa para descompactar o arquivo (.zip) gerado (unzip);
: suprime as mensagens de progresso;
[nome/scripts/]$ fastqc -o ../dataset1/raw/ -t 2 --extract \
> ../dataset1/raw/ERR022660_100k_1.fastq \
> ../dataset1/raw/ERR022660_100k_2.fastq
1.5
Preparação das referências
Os cromossomos do genoma humano versão hg19 obtidos da UCSC devem ser formatados e
indexados para as buscas com os programas alinhadores bowtie e bwa. Inicialmente os cromossomos
devem ser concatenados em um único arquivo.
Com todas as sequências (incluindo chrN_random,
(http://genome.ucsc.edu/FAQ/FAQdownloads#download10):
chrUn
e
haplotypes)
[nome/ref/hg19/]$ cat chr*.fa > hg19.fa
Ou somente utilizando as sequências consistentes dos cromossomos:
[nome/ref/hg19/]$ cat chr?.fa chr??.fa > hg19.fa

bowtie
O programa automaticamente faz os ajustes de parâmetros para se adequar à plataforma
computacional, de acordo com a memória disponível.
bowtie-build [options]* <reference_in> <ebwt_outfile_base>
bowtie-build
Argumentos:
-f
--packed
: indica que o arquivo está no formato FASTA;
: representação binária para a sequência (2-bits-per-nucleotide) – requer menos
memória, porém elevará o tempo de processamento;
[nome/tophat_indexes/]$ bowtie-build --packed \
> -f refs/hg19.fa hg19
Nota: Extremamente lento em computadores com no máximo 4G de memória RAM! Pode demorar
horas para criar o índice do genoma humano completo. Na página do bowtie (http://bowtiebio.sourceforge.net/), há diversos genomas pré-indexados, inclusive o genoma humano.
Alternativa:
[nome/tophat_indexes/]$ wget \
> ftp://ftp.cbcb.umd.edu/pub/data/bowtie_indexes/hg19.ebwt.zip
[nome/tophat_indexes/]$ unzip hg19.zip
1.6
Alinhamentos

bowtie
Seleção de apenas 1000 leituras para um teste do programa bowtie.
[nome/scripts]$ head -4000 \
> ../dataset1/raw/ERR022660_100k_1.fastq > \
> ../dataset1/raw/ERR022660_100k_1000_1.fastq
[nome/scripts]$ head -4000 \
> ../dataset1/raw/ERR022660_100k_2.fastq > \
> ../dataset1/raw/ERR022660_100k_1000_2.fastq
bowtie
Argumentos:
Alignment:
-n <int>
-v <int>
-l <int>
-e <int>
: número máximo de mismatches na seed [1..3] (2) – Mutuamente exclusivo (-v);
: número máximo de mismatches em todo o alinhamento, ignorando qualidade;
: tamanho da seed [5..*] (28);
: total valor qualidade [10..30] máximo para as posições onde há mismatch,
considerando o alinhamento todo (70);
--maxbts <int> : número máximo de backtracks permitidos (125, 800 com --best);
--pairtries <int> : número máximo de tentativas de encontrar seqüências em pares;
--try_hard
: equivalente p/ valores altos de --maxbts e –pairtries
Report:
--best
--strata
-a
-k <int>
-m <int>
-S
: reporta os melhores alinhamentos considerando no úmero de mismatches na seed e
o valor de qualidade dessas bases; (1 mismatch com qualidade 40 é melhor que 2
mismatches com qualidade 10);
: reporta os melhores alinhamentos em termos de stratum (menor quantidade de
mismatches);
: reporta todos os alinhamentos válidos;
: reporta até k alinhamentos válidos;
: suprime os alinhamentos múltiplos de uma leitura se há mais que m alinhamentos
válidos;
: reporta alinhamentos no formato SAM;
Performance:
-t
: número de processos;
--offrate
: espaçamento de marcações de coordenadas no genoma, quanto maior menos
memória é requerida, mas o processamento demora mais;
[nome/scripts/]$ bowtie -p 2 ../tophat_indexes/hg19 \
> -1 ../dataset1/raw/ERR022660_100k_1000_1.fastq \
> -2 ../dataset1/raw/ERR022660_100k_1000_2.fastq \
> --offrate 10 -a -S --best --strata \
> -m 1 > ../dataset1/bowtie_output/ERR022660_100k_1000.sam
1.7
Visualização
Uma ferramenta funcional que possibilita a visualização de dados mapeados no genoma é o
IGV. Porém antes de carregar o alinhamento no visualizador é necessário converter para o formato
BAM, ordenar e indexar o alinhamento, isso pode ser feito com o programa samtools.
Converter SAM para BAM
samtools view
Argumentos:
-b
: saída em BAM;
-h
: imprime cabeçalho para o SAM;
-S
: entrada é SAM;
-T
: arquivo referência;
-o FILE : arquivo de saída;

dataset1
[nome/scripts]$ samtools view -S -b -h \
> -o ../dataset1/bowtie_output/ERR022660_100k_1000.bam \
> ../dataset1/bowtie_output/ERR022660_100k_1000.sam
Ordenar o BAM
samtools sort

dataset1
[nome/scripts]$ samtools sort \
> ../dataset1/bowtie_output/ERR022660_100k_1000.bam \
> ../dataset1/bowtie_output/ERR022660_100k_1000_sorted
Indexar o BAM
samtools sort

dataset1
[nome/scripts]$ samtools index \
> ../dataset1/bowtie_output/ERR022660_100k_1000_sorted.bam
Chamar o IGV e carregar os arquivos BAM.
[nome/scripts]$ igv.sh &
2.7
# "&" desassociar o processo do terminal shell.
Estatísticas de Alinhamento
Utilizaremos o programa samtools flagstat para obter estatísticas básicas a respeito dos
alinhamentos.
samtools flagstat
Exemplo:
51364 in total
0 QC failure
0 duplicates
39734 mapped (77.36%)
51364 paired in sequencing
25682 read1
25682 read2
29822 properly paired (58.06%)
apropriadamente
35728 with itself and mate mapped
4006 singletons (7.80%)
1034 with mate mapped to a different chr
443 with mate mapped to a different chr (mapQ>=5)

total de leituras
falhas na qualidade = muitos Ns
duplicações
total de sequências mapeadas
total de leituras em pares
total leituras P1
total leituras P2
total de leituras pareadas mapeadas
total de leituras mapeadas em pares
total de leituras mapeadas sem o par
total de leituras mapeadas com pares em
diferentes cromossomos
total de leituras mapeadas com pares em
diferentes cromossomos, com qualidade do
mapeamento [Li H et al., 2008] superior a 5
dataset1
[nome/scripts/]$ samtools \
> flagstat ../dataset1/bowtie_output/ERR022660_100k_1000_sorted.bam
2.8
Mapeamento de junções de Splicing
O programa TopHat [Trapnell C et al., 2009] realiza o alinhamento das sequências com o
genoma referência, considerando as coordenadas de transcritos gênicos utilizando o programa Bowtie
[Langmead B, et al., 2009] e possui recursos para identificar novas junções de splicing.
tophat
tophat [options] <bowtie_index> <reads1[,reads2,...]> [reads1[,reads2,...]] \
[quals1,[quals2,...]] [quals1[,quals2,...]]
Argumentos:
--output-dir <output-dir>
--mate-inner-dist <int>
--mate-std-dev <int>
--num-threads <int>
--max-multihits <int>
--library-type <lib-type>
: diretório onde serão gravados os arquivos gerados;
: distância em bases entre os dois fragmentos em
sequênciamento paired-end;
: desvio padrão para a distância entre os fragmentos pares;
: número de threads (processos) em paralelo;
: número máximo de hits para um alinhamento no genoma;
: tipo de biblioteca (fr-unstranded Standard Illumina);
--transcriptome-max-hits <int>
--GTF <gtf-file>
--solexa1.3-quals
--min-intron-length <int>
--max-intron-length <int>
--min-anchor-length <int>
...
: máximo de hits para um alinhamento dentro do
transcriptoma;
: arquivo GTF com as coordenadas do transcriptoma;
: codificação fastq (Solexa 1.3);
: tamanho mínimo para introns;
: tamanho máximo para introns;
: tamanho mínimo da região âncora;
[nome/]$ tophat --output-dir ./dataset1/tophat_output/ --mate-inner-dist 200
> --num-threads 12
--max-multihits 1
--library-type fr-unstranded
> --transcriptome-max-hits 1
--GTF ./refs/refGene.gtf
./tophat_indexes/hg19
> ./dataset1/raw/ERR022660_100k_1000_1.fastq \
> ./dataset1/raw/ERR022660_100k_1000_2.fastq
\
\
\
[nome/]$ tophat --output-dir ./dataset2/tophat_output/ --mate-inner-dist 200
> --num-threads 12
--max-multihits 1
--library-type fr-unstranded
> --transcriptome-max-hits 1
--GTF ./refs/refGene.gtf
./tophat_indexes/hg19
> ./dataset2/raw/ERR022684_100k_1000_1.fastq
\
> ./dataset2/raw/ERR022684_100k_1000_2.fastq
\
\
\
2.9
Expressão gênica
O programa Cufflinks [Trapnell C et al., 2010; Roberts A et al., 2011; Roberts A et al., 2011] realiza a
montagem de transcritos estimando suas abundâncias e testando a expressão diferencial e em
experimentos RNA-Seq. A estimativa é feita baseada em quantas leituras suportam cada transcrito,
levando em consideração os vieses nos protocolos de preparação das bibliotecas.
A análise de expressão gênica é realizada por meio de um roteiro de execução de programas. Há três
tipos de roteiros (http://seqanswers.com/forums/showthread.php?t=16422), a seguir uma análise
utilizando a seguinte sequência de programas: cufflinks, cuffmerge e cuffdiff;
cufflinks
cufflinks [options]* <aligned_reads.(sam/bam)>
Argumentos:
--output-dir <output-dir>
--num-threads <int>
--library-type <lib-type>
--GTF-guide <gtf-file>
--frag-bias-correct <ref.genome>
--multi-read-correct
...
: diretório onde serão gravados os arquivos gerados;
: número de threads (processos) em paralelo;
: tipo de biblioteca (fr-unstranded Standard Illumina);
: arquivo GTF com as coordenadas do transcriptoma;
: arquivo da referência genômica para correção do viés de
fragmentos;
: realizar a correção de alinhamentos em múltiplas posições;
[nome/]$ cufflinks
--GTF-guide ./refs/refGene.gtf
--num-threads 12 \
> --frag-bias-correct refs/hg19.fa
--multi-read-correct \
> --library-type fr-unstranded --output-dir dataset1/cufflinks_output/ \
> dataset1/tophat_output/accepted_hits.bam
[nome/]$ cufflinks
--GTF-guide ./refs/refGene.gtf
--num-threads 12 \
> --frag-bias-correct refs/hg19.fa
--multi-read-correct \
> --library-type fr-unstranded --output-dir dataset2/cufflinks_output/ \
>
dataset2/tophat_output/accepted_hits.bam
cuffmerge
cuffmerge [options]* <assembly_GTF_list.txt>
Argumentos:
--ref-sequence <ref-seqs-dir> : diretório onde estão as sequências referências no formato fasta;
--num-threads <int>
: número de threads (processos) em paralelo;
--ref-gtf <gtf-file>
: arquivo GTF com as coordenadas do transcriptoma;
...
[nome/]$ cuffmerge --ref-gtf refs/refGene.gtf
> assembly_GTF_list.txt
--ref-sequence
./refs/fa/ \
cuffdiff
cuffdiff [options]* <transcripts.gtf> <sample1_replicate1.sam[,...,sample1_replicateM]> \
<sample2_replicate1.sam[,...,sample2_replicateM.sam]>...
[sampleN.sam_replicate1.sam[,...,sample2_replicateM.sam]]
Argumentos:
--output-dir <output-dir>
--num-threads <int>
--library-type <lib-type>
--frag-bias-correct <ref.genome>
--multi-read-correct
...
: diretório onde serão gravados os arquivos gerados;
: número de threads (processos) em paralelo;
: tipo de biblioteca (fr-unstranded Standard Illumina);
: arquivo da referência genômica para correção do viés de
fragmentos;
: realizar a correção de alinhamentos em múltiplas posições;
[nome/]$ ]$ cuffdiff
--num-threads 12
--frag-bias-correct ./refs/hg19.fa \
> --multi-read-correct
--library-type fr-unstranded \
> --cuffdiff_output/
merged_asm/merged.gtf
\
> dataset1/tophat_output/accepted_hits.bam dataset2/tophat_output/accepted_hits.bam
Referências
[Stajich JE et al., 2002]
Stajich JE, Block D, Boulez K, Brenner SE, Chervitz SA, Dagdigian
C, Fuellen G, Gilbert JG, Korf I, Lapp H, Lehväslaiho H, Matsalla
C, Mungall CJ, Osborne BI, Pocock MR, Schattner P, Senger M,
Stein LD, Stupka E, Wilkinson MD, Birney E. The Bioperl toolkit:
Perl modules for the life sciences. Genome Res. 2002
Oct;12(10):1611-8. PubMed PMID: 12368254; PubMed Central
PMCID: PMC187536.
[Li H, et al., 2009]
Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N,
Marth G, Abecasis G, Durbin R; 1000 Genome Project Data
Processing Subgroup. The Sequence Alignment/Map format
and SAMtools. Bioinformatics. 2009 Aug 15;25(16):2078-9.
Epub 2009 Jun 8. PubMed PMID: 19505943; PubMed Central
PMCID: PMC2723002.
[Quinlan AR et al., 2010]
Quinlan AR, Hall IM. BEDTools: a flexible suite of utilities for
comparing genomic features. Bioinformatics. 2010 Mar
15;26(6):841-2. Epub 2010 Jan 28. PubMed PMID: 20110278;
PubMed Central PMCID: PMC2832824.
[Li H and Durbin R, 2009]
Li H, Durbin R. Fast and accurate short read alignment with
Burrows-Wheeler transform. Bioinformatics. 2009 Jul
15;25(14):1754-60. Epub 2009 May 18. PubMed PMID:
19451168; PubMed Central PMCID: PMC2705234;
[Li H and Durbin R, 2010]
Li H, Durbin R. Fast and accurate long-read alignment with
Burrows-Wheeler transform. Bioinformatics. 2010 Mar
1;26(5):589-95. Epub 2010 Jan 15. PubMed PMID: 20080505;
PubMed Central PMCID: PMC2828108;
[Langmead B, et al., 2009]
Langmead B, Trapnell C, Pop M, Salzberg SL. Ultrafast and
memory-efficient alignment of short DNA sequences to the
human genome. Genome Biol. 2009;10(3):R25. Epub 2009 Mar
4. PubMed PMID: 19261174; PubMed Central PMCID:
PMC2690996;
[Robinson JT et al., 2011]
Robinson JT, Thorvaldsdóttir H, Winckler W, Guttman M,
Lander ES, Getz G, Mesirov JP. Integrative genomics viewer.
Nat Biotechnol. 2011 Jan;29(1):24-6. PubMed PMID: 21221095;
[Cock PJ et al., 2009]
Cock PJ, Fields CJ, Goto N, Heuer ML, Rice PM. The Sanger
FASTQ file format for sequences with quality scores, and the
Solexa/Illumina FASTQ variants. Nucleic Acids Res. 2010
Apr;38(6):1767-71. Epub 2009 Dec 16. Review. PubMed PMID:
20015970; PubMed Central PMCID: PMC2847217;
[Li H et al., 2008]
Li H, Ruan J, Durbin R. Mapping short DNA sequencing reads
and calling variants using mapping quality scores. Genome
Res. 2008 Nov;18(11):1851-8. Epub 2008 Aug 19. PubMed
PMID: 18714091; PubMed Central PMCID: PMC2577856;
[Garber M et al., 2011]
Garber M, Grabherr MG, Guttman M, Trapnell C.
Computational methods for transcriptome annotation and
quantification using RNA-seq. Nat Methods. 2011
Jun;8(6):469-77. Epub 2011 May 27. PubMed PMID: 21623353.
[Mortazavi A et al., 2008]
Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B.
Mapping and quantifying mammalian transcriptomes by RNA-
Seq. Nat Methods. 2008 Jul;5(7):621-8. Epub 2008 May 30.
PubMed PMID: 18516045.
[Trapnell C et al., 2009]
Trapnell C, Pachter L, Salzberg SL. TopHat: discovering splice
junctions with RNA-Seq. Bioinformatics. 2009 May
1;25(9):1105-11. Epub 2009 Mar 16. PubMed PMID: 19289445.
[Trapnell C et al., 2010]
Trapnell C, Williams BA, Pertea G, Mortazavi A, Kwan G, van
Baren MJ, Salzberg SL, Wold BJ, Pachter L. Transcript assembly
and quantification by RNA-Seq reveals unannotated
transcripts and isoform switching during cell differentiation.
Nat Biotechnol. 2010 May;28(5):511-5. Epub 2010 May 2.
PubMed PMID: 20436464;
Roberts A, Trapnell C, Donaghey J, Rinn JL, Pachter L.
Improving RNA-Seq expression estimates by correcting for
fragment bias. Genome Biol. 2011;12(3):R22. Epub 2011 Mar
16. PubMed PMID: 21410973;
Roberts A, Pimentel H, Trapnell C, Pachter L. Identification of
novel transcripts in annotated genomes using RNA-Seq.
Bioinformatics. 2011 Sep 1;27(17):2325-9. Epub 2011 Jun 21.
PubMed PMID: 21697122;
[Roberts A et al., 2011]
[Roberts A et al., 2011]

Documentos relacionados

Reads

Reads print this usage message

Leia mais