Introdução
Transcrição
Introdução
Tutorial “Hands-on” Autor: Daniel Guariz Pinheiro ([email protected] - http://lattes.cnpq.br/1127775073652502) Data: 03/02/2012 Introdução Ao seguir este tutorial leia atentamente às informações e notas que permitirão entender o propósito de cada passo. Caso encontre problemas com a execução de alguma das etapas, por favor, entre em contato para podermos verificar a ocorrência de erros ou complementarmos as instruções e atualizarmos o tutorial. A seguir, serão apresentadas algumas informações úteis, como comandos e os locais na internet onde os programas utilizados neste tutorial podem ser encontrados. 1.1 Comandos úteis mkdir ls pwd file gunzip tar bunzip2 unzip chmod ln cat head Criar diretórios (caminhos) $ mkdir -p /work/alunos/ Listar todo o conteúdo de diretórios $ ls /work/alunos/* Informar diretório atual $ pwd Determinar o tipo do arquivo $ file undeterminedfiletype.unk Descompactar arquivos no formato .gz $ gunzip file.gz Descompactar arquivos no formato .tar.gz ou .tgz $ tar -zxvf file.tar.gz Descompactar arquivos no formato .tar $ tar -xvf file.tar Descompactar arquivos no formato .tar.bz2 ou .tar.bz $ tar -jxvf file.tar.bz2 Descompactar arquivos no formato .bz2 ou .bz $ bunzip2 file.bz2 Descompactar arquivos no formato .zip $ unzip file.zip Atribuir permissão de execução em um arquivo para todos os usuários $ chmod a+x script.sh Fazer um link simbólico (criar um atalho) $ ln -s /source/file.txt /destiny/linktofile.txt Concatenar arquivos e redirecionar a saída para o STDOUT (tela - padrão). $ cat file1.txt file2.txt # imprime na tela o conteúdo de file1.txt e file2.txt $ cat file1.txt > file3.txt # imprime em file3.txt o conteúdo de file1.txt $ cat file1.txt | grep ‘>’ # redireciona a saída do cat p/ entrada (STDIN) do grep Imprime na tela as n (10) primeiras linhas de um arquivo texto (file1.txt) $ head -10 file1.txt Dica 1: Criar um pipeline utilizando shell/Perl/Python scripts para armazenar as chamadas dos comandos que serão executados. Dica 2: Utilize o comando time precedendo os comandos para calcular o tempo de execução. 1.2 Lista de programas Bioperl 1.6.1 [Stajich JE et al., 2002] NCBI SRA Toolkit 2.0.1 FASTX-Toolkit 0.0.13 FastQC 0.9.2 PRINSEQ 0.15 (standalone) [Schmieder R and Edwards R] Nsort (necessita requisitar uma licença acadêmica) Goby 1.9.6.1 SAMtools 0.1.16 [Li H, et al., 2009] BEDTools 2.12.0 [Quinlan AR et al., 2010] Bowtie 0.12.7 [Langmead B, et al., 2009] BWA 0.5.9 [Li H and Durbin R, 2009] [Li H and Durbin R, 2010] in-house Perl/shell scripts IGV 2.0 [Robinson JT et al., 2011] igvtools 1.5.15 sff2fastq Trim.pl tophat cufflinks 1. http://www.bioperl.org/ http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software http://hannonlab.cshl.edu/fastx_toolkit/ http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/ http://prinseq.sourceforge.net/ http://www.ordinal.com/ http://campagnelab.org/software/goby/ http://samtools.sourceforge.net/ http://code.google.com/p/bedtools/ http://bowtie-bio.sourceforge.net/index.shtml http://bio-bwa.sourceforge.net/ http://lgmb.fmrp.usp.br/redmine-1.0/projects/bitutils/repository http://www.broadinstitute.org/software/igv/download http://www.broadinstitute.org/software/igv/download https://github.com/indraniel/sff2fastq http://wiki.bioinformatics.ucdavis.edu/index.php/Trim.pl http://tophat.cbcb.umd.edu/ http://cufflinks.cbcb.umd.edu/ Alinhamento de sequências RNA-Seq em genoma referência A partir dos dados gerados de dois sequenciamentos de transcriptomas, serão realizadas as seguintes tarefas: obtenção dos dados, preparação para o alinhamento dos dados das leituras contra o genoma de referência, execução dos programas de alinhamento, análise preliminar dos resultados, utilização dos resultados para gerar informação dos genes expressos. 1.1 Estrutura de diretórios Manter os dados bem organizados é uma prática que deve ser adotada. Convenções para o conteúdo de cada diretório: dataset1/ – diretórios contendo os cojuntos de dados n; dataset1/raw – arquivos contendo os dados brutos ou convertidos para determinado formato; dataset1/tophat_output/ – diretórios contendo os resutados do tophat; dataset1/bowtie_output/ – diretórios contendo os resutados do tophat; dataset1/tophat_indexes/ – diretório que irá conter os arquivos índices para o genoma humano, que podem ser utilizados pelo (alinhador bowtie ou tophat); dataset1/refs/ – diretório contendo os arquivos que serão usados como referências (hg19.fa – arquivo no formato FASTA com as sequências do cromossomo humano; refGene.gtf – arquivos com as coordenadas dos genes humanos, no formato GTF que foi obtida do UCSC); scripts/ – scripts; [/]$ cd /work/alunos/ [/work/alunos/]$ mkdir nome/ [/work/alunos/]$ cd nome/ [nome/]$ [nome/]$ [nome/]$ [nome/]$ [nome/]$ mkdir mkdir mkdir mkdir mkdir # # # # # o diretório "/work/alunos/" criar o diretório com o seu nome se ele ainda não existe (por favor não utilizar espaços no nome) "/work/alunos" será omitido a seguir e durante todo o restante do documento -p dataset1/raw/ refs/ -p dataset1/tophat_output/ -p dataset1/bowtie_output/ -p dataset1/cufflinks_output/ [nome/]$ mkdir -p dataset2/tophat_output/ [nome/]$ mkdir -p dataset2/bowtie_output/ [nome/]$ mkdir -p dataset2/cufflinks_output/ [nome/]$ mkdir tophat_indexes/ [nome/]$ mkdir cuffdiff_output/ [nome/]$ mkdir scripts/ raw dataset1 tophat_output cufflinks_output raw dataset2 tophat_output refs cufflinks_output nome tophat_indexes cuffdiff_output scripts 1.2 Informações e fonte dos dados de seqüenciamento Os dados brutos deverão estar armazenados no diretórios “classes/dataset1/raw/” e “classes/dataset2/raw/”, respectivamente para o primeiro e segundo conjunto de dados. Os dados podem ser obtidos em um dos três repositórios públicos que compartilham os dados submetidos entre si, utilizando um código de acesso: SRA (NCBI Sequence Read Archive): http://www.ncbi.nlm.nih.gov/sra ENA (EBI European Nucleotide Archive): http://www.ebi.ac.uk/ena/ DRA (DDBJ Sequence Read Archive): http://trace.ddbj.nig.ac.jp/dra/index_e.shtml A organização dos dados nesses três repositórios é realizada de acordo com a representação abaixo, obtida do site do DDBJ: [http://trace.ddbj.nig.ac.jp/dra/documentation_e.shtml] Objeto de Metadados Submission Sample Study Experiment Run Analysis Descrição Contém informações a respeito de quem está submetendo e dos arquivos submetidos Contém informações sobre a mostra sob a qual os experimentos de seqüenciamento são baseados e podem ser utilizados em vários experimentos Contém informações sobre o projeto de seqüenciamento e podem conterm vários experimentos e análises Contém informações sobre o experimento de seqüenciamento e estão associados às Runs que contém o resultado do sequenciamento Contém todo ou parte do resultado dos experimentos de sequenciamento (Ex.: Uma Lane de Illumina) Contém resultados de análises secundárias computadas a partir de resultados primários de seqüenciamento. Prefixo SRA ENA SRA ERA DRA DRA SRS ERS DRS SRP ERP DRP SRX ERX DRX SRR ERX DRX SRZ ERZ DRZ Study: ERP000418 NCBI SRA: http://trace.ncbi.nlm.nih.gov/Traces/sra/?study=ERP000418 dataset1 Run: Accession: ERR022660 Instrument model: Illumina Genome Analyzer II Date of run: 2009-06-29 07:00:00 Run center: INCTC Statistics: Number of spots: 16021315 Number of reads: 32042630 Study ERP000418:Gene expression profiles between normal and breast tumor genomes Design: Illumina Paired-end Sequencing of Human Cell Line HCC1954 Transcriptome Platform: Illumina Sample ERS013009:Human cell line HCC1954 Library: Name: HCOPI Strategy: EST Source: TRANSCRIPTOMIC Selection: cDNA Layout: PAIRED (ORIENTATION=5'-3'-3'-5, NOMINAL_LENGTH=200, NOMINAL_SDEV=0.0E0) Construction Protocol: Total RNA was isolated from the cell pellets using the RNeasy Mini Kit (Qiagen, Valencia, CA). Total RNA was treated with DNase I (New England Biolabs, Ipswich, MA) and purified with Qiagen RNeasy columns (Qiagen Valencia, CA). DNA-free RNA yield and purity were initially assessed by spectrophotometry. PolyA+ RNA was prepared from 500 ?g of total RNA with oligo(dT) beads using the Oligotex mRNA Mini Kit (Qiagen Valencia, CA). First-strand cDNA was prepared from 1 ug of poly(A)+ RNA with 200 pmol oligo random primers by using 300 units of Superscript II reverse transcriptase (Invitrogen , Carlsbad, CA). Second-strand synthesis was performed in 20 ul at 16oC for 2 h after addition of 10 units of E. coli DNA ligase, 40 units of E. coli DNA polymerase, and 2 units of RNase H (all from Invitrogen, Carlsbad, CA). T4 DNA polymerase (5 units) was added and incubated for 5 min at 16oC. Double-strand cDNA was purified by phenol-chloroform extraction and precipitation of the aqueous phase in 1/10 volume 3 M sodium acetate and 100% ethanol. dataset2 Run: Accession: ERR022684 Instrument model: Illumina Genome Analyzer II Date of run: 2009-06-08 04:00:00 Run center: INCTC Statistics: Number of spots: 10333897 Number of reads: 20667794 Study ERP000418:Gene expression profiles between normal and breast tumor genomes Design: Illumina Paired-end Sequencing of Human Cell Line HCC1954 Transcriptome Platform: Illumina Sample ERS013010:Human cell line HCC1954BL Library: Name: LCOPI Strategy: EST Source: TRANSCRIPTOMIC Selection: cDNA Layout: PAIRED (ORIENTATION=5'-3'-3'-5, NOMINAL_LENGTH=200, NOMINAL_SDEV=0.0E0) Construction Protocol: Total RNA was isolated from the cell pellets using the RNeasy Mini Kit (Qiagen, Valencia, CA). Total RNA was treated with DNase I (New England Biolabs, Ipswich, MA) and purified with Qiagen RNeasy columns (Qiagen Valencia, CA). DNA-free RNA yield and purity were initially assessed by spectrophotometry. PolyA+ RNA was prepared from 500 ?g of total RNA with oligo(dT) beads using the Oligotex mRNA Mini Kit (Qiagen Valencia, CA). First-strand cDNA was prepared from 1 ug of poly(A)+ RNA with 200 pmol oligo random primers by using 300 units of Superscript II reverse transcriptase (Invitrogen , Carlsbad, CA). Second-strand synthesis was performed in 20 ul at 16oC for 2 h after addition of 10 units of E. coli DNA ligase, 40 units of E. coli DNA polymerase, and 2 units of RNase H (all from Invitrogen, Carlsbad, CA). T4 DNA polymerase (5 units) was added and incubated for 5 min at 16oC. Double-strand cDNA was purified by phenol-chloroform extraction and precipitation of the aqueous phase in 1/10 volume 3 M sodium acetate and 100% ethanol. Download O download de um conjunto de dados pode ser feito utilizando o protocolo FTP, utilizando, por exemplo, o programa wget. Porém é recomendado utilizar o protocolo Aspera (http://www.asperasoft.com/en/products/client_software_2/aspera_connect_8), por meio do programa ascp (aspera connect), o qual é capaz de realizar uma transferência muito mais rápida. Para maiores informações sobre o Aspera: http://www.ncbi.nlm.nih.gov/books/NBK47527/. FTP: dataset1 [nome/dataset1/raw/]$ wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/srainstant/reads/ByRun/litesra/ERR/ERR022/ERR022660/ERR022660.lite.sra Aspera: ascp -QTK -l300k -i ~/.aspera/connect/etc/asperaweb_id_dsa.putty [email protected]:/source_directory /destination_directory/ ascp Argumentos: -Q Enables the fair transfer policy, which ensures that the available bandwidth is shared amongst other traffic and transfers at a fair rate; -T Disables encryption for maximum throughput; -K Enables fatal transfer restarts. Resume levels 0,1,2,3; -l Maximum bandwidth; -i DSA public key; dataset1 [nome/dataset1/raw/]$ ~/.aspera/connect/bin/ascp -T -K2 -Q -l5000k -i ~/.aspera/connect/etc/asperaweb_id_dsa.putty [email protected]:/sra/srainstant/reads/ByRun/sra/ERR/ERR022/ERR022660/ERR022660.sra . 1.3 Informações e fonte dos dados de referência O genoma de referência e de coordenadas dos genes para diversos organismos podem ser encontrados no UCSC Genome Browser download (http://hgdownload.cse.ucsc.edu/downloads.html). Os dados das sequências de cromossomos do genoma humano podem ser encontrados em ftp://hgdownload.cse.ucsc.edu/goldenPath/currentGenomes/Homo_sapiens/bigZips/chromFa.tar.gz. As coordenadas de genes humanos na ferramenta UCSC Table Browser: http://genome.ucsc.edu/cgibin/hgTables. Selecionando as opções como na imagem abaixo: No caso da imagem acima, estão sendo selecionadas as informações sobre coordenadas de transcritos gênicos no formato GTF da tabela refGene (baseadas no mapeamento de transcritos do banco de dados NCBI RefSeq - http://www.ncbi.nlm.nih.gov/RefSeq/) – refGene.gtf. O arquivo deverá estar no diretório refs/. 1.4 Preparação dos dados Os dados devem ser convertidos para o formato FASTQ [Cock PJ et al., 2009] para as etapas seguintes. A conversão é feita utilizando os programas disponíveis no NCBI SRA Toolkit. Nota: Atenção à codificação (Sanger, Solexa, Illumina 1.3+). Em ambos os casos, a codificação de qualidade por padrão é Phred+33 (Sanger). Isso pode ser alterado utilizando o argumento “-Q” do programa fastq-dump. Antes do pré-processamento das leituras estatísticas serão geradas para os dois sequenciamentos. O programa fastQC fornece uma série de gráficos e dados que permitem avaliar a qualidade geral do sequenciamento. Possui uma interface gráfica que permite navegar pelos gráficos e obter informações sobre o critério de avaliação de cada um dos módulos de análise. dataset1 o Conversão do arquivo (ERR022660.sra) no formato SRA para FASTQ [nome/]$ fastq-dump dataset1/raw/ERR022660.sra -O dataset1/raw/ --split-3 o Seleção de 100.000 sequências aleatórias No caso da outra corrida de sequências paired-end de Illumina, no formato FASTQ, podemos utilizar um in-house shell script(subsampling_pe_fastq.sh) desenvolvido com AWK (http://en.wikipedia.org/wiki/AWK) e outros comandos UNIX. Ele gera arquivos com a extensão .random no diretório dos arquivos de entrada. Esses arquivos .random podem ser movidos e renomeados para outra pasta. [nome/scripts]$ subsampling_pe_fastq.sh \ > ../dataset1/raw/ERR022660_1.fastq dataset2/raw/ ERR022660_2.fastq 100000 [nome/scripts]$ mv ../datase1/raw/ERR022660_1.fastq.random \ > ../dataset1/raw/ERR022660_100k_1.fastq [nome/scripts]$ mv ../dataset1/raw/ERR022660_2.fastq.random \ > ../dataset1/raw/ERR022660_100k_2.fastq o Obter estatística descritiva dos dados Utilizando o programa fastqc. Verifique os critérios para avaliação em cada módulo por meio da inteface gráfica, chamando fastqc sem nenhum parâmetro. fastqc Argumentos: -o -t --extract -q : diretório onde os dados serão gravados; : número de processadores; : indica ao programa para descompactar o arquivo (.zip) gerado (unzip); : suprime as mensagens de progresso; [nome/scripts/]$ fastqc -o ../dataset1/raw/ -t 2 --extract \ > ../dataset1/raw/ERR022660_100k_1.fastq \ > ../dataset1/raw/ERR022660_100k_2.fastq 1.5 Preparação das referências Os cromossomos do genoma humano versão hg19 obtidos da UCSC devem ser formatados e indexados para as buscas com os programas alinhadores bowtie e bwa. Inicialmente os cromossomos devem ser concatenados em um único arquivo. Com todas as sequências (incluindo chrN_random, (http://genome.ucsc.edu/FAQ/FAQdownloads#download10): chrUn e haplotypes) [nome/ref/hg19/]$ cat chr*.fa > hg19.fa Ou somente utilizando as sequências consistentes dos cromossomos: [nome/ref/hg19/]$ cat chr?.fa chr??.fa > hg19.fa bowtie O programa automaticamente faz os ajustes de parâmetros para se adequar à plataforma computacional, de acordo com a memória disponível. bowtie-build [options]* <reference_in> <ebwt_outfile_base> bowtie-build Argumentos: -f --packed : indica que o arquivo está no formato FASTA; : representação binária para a sequência (2-bits-per-nucleotide) – requer menos memória, porém elevará o tempo de processamento; [nome/tophat_indexes/]$ bowtie-build --packed \ > -f refs/hg19.fa hg19 Nota: Extremamente lento em computadores com no máximo 4G de memória RAM! Pode demorar horas para criar o índice do genoma humano completo. Na página do bowtie (http://bowtiebio.sourceforge.net/), há diversos genomas pré-indexados, inclusive o genoma humano. Alternativa: [nome/tophat_indexes/]$ wget \ > ftp://ftp.cbcb.umd.edu/pub/data/bowtie_indexes/hg19.ebwt.zip [nome/tophat_indexes/]$ unzip hg19.zip 1.6 Alinhamentos bowtie Seleção de apenas 1000 leituras para um teste do programa bowtie. [nome/scripts]$ head -4000 \ > ../dataset1/raw/ERR022660_100k_1.fastq > \ > ../dataset1/raw/ERR022660_100k_1000_1.fastq [nome/scripts]$ head -4000 \ > ../dataset1/raw/ERR022660_100k_2.fastq > \ > ../dataset1/raw/ERR022660_100k_1000_2.fastq bowtie Argumentos: Alignment: -n <int> -v <int> -l <int> -e <int> : número máximo de mismatches na seed [1..3] (2) – Mutuamente exclusivo (-v); : número máximo de mismatches em todo o alinhamento, ignorando qualidade; : tamanho da seed [5..*] (28); : total valor qualidade [10..30] máximo para as posições onde há mismatch, considerando o alinhamento todo (70); --maxbts <int> : número máximo de backtracks permitidos (125, 800 com --best); --pairtries <int> : número máximo de tentativas de encontrar seqüências em pares; --try_hard : equivalente p/ valores altos de --maxbts e –pairtries Report: --best --strata -a -k <int> -m <int> -S : reporta os melhores alinhamentos considerando no úmero de mismatches na seed e o valor de qualidade dessas bases; (1 mismatch com qualidade 40 é melhor que 2 mismatches com qualidade 10); : reporta os melhores alinhamentos em termos de stratum (menor quantidade de mismatches); : reporta todos os alinhamentos válidos; : reporta até k alinhamentos válidos; : suprime os alinhamentos múltiplos de uma leitura se há mais que m alinhamentos válidos; : reporta alinhamentos no formato SAM; Performance: -t : número de processos; --offrate : espaçamento de marcações de coordenadas no genoma, quanto maior menos memória é requerida, mas o processamento demora mais; [nome/scripts/]$ bowtie -p 2 ../tophat_indexes/hg19 \ > -1 ../dataset1/raw/ERR022660_100k_1000_1.fastq \ > -2 ../dataset1/raw/ERR022660_100k_1000_2.fastq \ > --offrate 10 -a -S --best --strata \ > -m 1 > ../dataset1/bowtie_output/ERR022660_100k_1000.sam 1.7 Visualização Uma ferramenta funcional que possibilita a visualização de dados mapeados no genoma é o IGV. Porém antes de carregar o alinhamento no visualizador é necessário converter para o formato BAM, ordenar e indexar o alinhamento, isso pode ser feito com o programa samtools. Converter SAM para BAM samtools view Argumentos: -b : saída em BAM; -h : imprime cabeçalho para o SAM; -S : entrada é SAM; -T : arquivo referência; -o FILE : arquivo de saída; dataset1 [nome/scripts]$ samtools view -S -b -h \ > -o ../dataset1/bowtie_output/ERR022660_100k_1000.bam \ > ../dataset1/bowtie_output/ERR022660_100k_1000.sam Ordenar o BAM samtools sort dataset1 [nome/scripts]$ samtools sort \ > ../dataset1/bowtie_output/ERR022660_100k_1000.bam \ > ../dataset1/bowtie_output/ERR022660_100k_1000_sorted Indexar o BAM samtools sort dataset1 [nome/scripts]$ samtools index \ > ../dataset1/bowtie_output/ERR022660_100k_1000_sorted.bam Chamar o IGV e carregar os arquivos BAM. [nome/scripts]$ igv.sh & 2.7 # "&" desassociar o processo do terminal shell. Estatísticas de Alinhamento Utilizaremos o programa samtools flagstat para obter estatísticas básicas a respeito dos alinhamentos. samtools flagstat Exemplo: 51364 in total 0 QC failure 0 duplicates 39734 mapped (77.36%) 51364 paired in sequencing 25682 read1 25682 read2 29822 properly paired (58.06%) apropriadamente 35728 with itself and mate mapped 4006 singletons (7.80%) 1034 with mate mapped to a different chr 443 with mate mapped to a different chr (mapQ>=5) total de leituras falhas na qualidade = muitos Ns duplicações total de sequências mapeadas total de leituras em pares total leituras P1 total leituras P2 total de leituras pareadas mapeadas total de leituras mapeadas em pares total de leituras mapeadas sem o par total de leituras mapeadas com pares em diferentes cromossomos total de leituras mapeadas com pares em diferentes cromossomos, com qualidade do mapeamento [Li H et al., 2008] superior a 5 dataset1 [nome/scripts/]$ samtools \ > flagstat ../dataset1/bowtie_output/ERR022660_100k_1000_sorted.bam 2.8 Mapeamento de junções de Splicing O programa TopHat [Trapnell C et al., 2009] realiza o alinhamento das sequências com o genoma referência, considerando as coordenadas de transcritos gênicos utilizando o programa Bowtie [Langmead B, et al., 2009] e possui recursos para identificar novas junções de splicing. tophat tophat [options] <bowtie_index> <reads1[,reads2,...]> [reads1[,reads2,...]] \ [quals1,[quals2,...]] [quals1[,quals2,...]] Argumentos: --output-dir <output-dir> --mate-inner-dist <int> --mate-std-dev <int> --num-threads <int> --max-multihits <int> --library-type <lib-type> : diretório onde serão gravados os arquivos gerados; : distância em bases entre os dois fragmentos em sequênciamento paired-end; : desvio padrão para a distância entre os fragmentos pares; : número de threads (processos) em paralelo; : número máximo de hits para um alinhamento no genoma; : tipo de biblioteca (fr-unstranded Standard Illumina); --transcriptome-max-hits <int> --GTF <gtf-file> --solexa1.3-quals --min-intron-length <int> --max-intron-length <int> --min-anchor-length <int> ... : máximo de hits para um alinhamento dentro do transcriptoma; : arquivo GTF com as coordenadas do transcriptoma; : codificação fastq (Solexa 1.3); : tamanho mínimo para introns; : tamanho máximo para introns; : tamanho mínimo da região âncora; [nome/]$ tophat --output-dir ./dataset1/tophat_output/ --mate-inner-dist 200 > --num-threads 12 --max-multihits 1 --library-type fr-unstranded > --transcriptome-max-hits 1 --GTF ./refs/refGene.gtf ./tophat_indexes/hg19 > ./dataset1/raw/ERR022660_100k_1000_1.fastq \ > ./dataset1/raw/ERR022660_100k_1000_2.fastq \ \ \ [nome/]$ tophat --output-dir ./dataset2/tophat_output/ --mate-inner-dist 200 > --num-threads 12 --max-multihits 1 --library-type fr-unstranded > --transcriptome-max-hits 1 --GTF ./refs/refGene.gtf ./tophat_indexes/hg19 > ./dataset2/raw/ERR022684_100k_1000_1.fastq \ > ./dataset2/raw/ERR022684_100k_1000_2.fastq \ \ \ 2.9 Expressão gênica O programa Cufflinks [Trapnell C et al., 2010; Roberts A et al., 2011; Roberts A et al., 2011] realiza a montagem de transcritos estimando suas abundâncias e testando a expressão diferencial e em experimentos RNA-Seq. A estimativa é feita baseada em quantas leituras suportam cada transcrito, levando em consideração os vieses nos protocolos de preparação das bibliotecas. A análise de expressão gênica é realizada por meio de um roteiro de execução de programas. Há três tipos de roteiros (http://seqanswers.com/forums/showthread.php?t=16422), a seguir uma análise utilizando a seguinte sequência de programas: cufflinks, cuffmerge e cuffdiff; cufflinks cufflinks [options]* <aligned_reads.(sam/bam)> Argumentos: --output-dir <output-dir> --num-threads <int> --library-type <lib-type> --GTF-guide <gtf-file> --frag-bias-correct <ref.genome> --multi-read-correct ... : diretório onde serão gravados os arquivos gerados; : número de threads (processos) em paralelo; : tipo de biblioteca (fr-unstranded Standard Illumina); : arquivo GTF com as coordenadas do transcriptoma; : arquivo da referência genômica para correção do viés de fragmentos; : realizar a correção de alinhamentos em múltiplas posições; [nome/]$ cufflinks --GTF-guide ./refs/refGene.gtf --num-threads 12 \ > --frag-bias-correct refs/hg19.fa --multi-read-correct \ > --library-type fr-unstranded --output-dir dataset1/cufflinks_output/ \ > dataset1/tophat_output/accepted_hits.bam [nome/]$ cufflinks --GTF-guide ./refs/refGene.gtf --num-threads 12 \ > --frag-bias-correct refs/hg19.fa --multi-read-correct \ > --library-type fr-unstranded --output-dir dataset2/cufflinks_output/ \ > dataset2/tophat_output/accepted_hits.bam cuffmerge cuffmerge [options]* <assembly_GTF_list.txt> Argumentos: --ref-sequence <ref-seqs-dir> : diretório onde estão as sequências referências no formato fasta; --num-threads <int> : número de threads (processos) em paralelo; --ref-gtf <gtf-file> : arquivo GTF com as coordenadas do transcriptoma; ... [nome/]$ cuffmerge --ref-gtf refs/refGene.gtf > assembly_GTF_list.txt --ref-sequence ./refs/fa/ \ cuffdiff cuffdiff [options]* <transcripts.gtf> <sample1_replicate1.sam[,...,sample1_replicateM]> \ <sample2_replicate1.sam[,...,sample2_replicateM.sam]>... [sampleN.sam_replicate1.sam[,...,sample2_replicateM.sam]] Argumentos: --output-dir <output-dir> --num-threads <int> --library-type <lib-type> --frag-bias-correct <ref.genome> --multi-read-correct ... : diretório onde serão gravados os arquivos gerados; : número de threads (processos) em paralelo; : tipo de biblioteca (fr-unstranded Standard Illumina); : arquivo da referência genômica para correção do viés de fragmentos; : realizar a correção de alinhamentos em múltiplas posições; [nome/]$ ]$ cuffdiff --num-threads 12 --frag-bias-correct ./refs/hg19.fa \ > --multi-read-correct --library-type fr-unstranded \ > --cuffdiff_output/ merged_asm/merged.gtf \ > dataset1/tophat_output/accepted_hits.bam dataset2/tophat_output/accepted_hits.bam Referências [Stajich JE et al., 2002] Stajich JE, Block D, Boulez K, Brenner SE, Chervitz SA, Dagdigian C, Fuellen G, Gilbert JG, Korf I, Lapp H, Lehväslaiho H, Matsalla C, Mungall CJ, Osborne BI, Pocock MR, Schattner P, Senger M, Stein LD, Stupka E, Wilkinson MD, Birney E. The Bioperl toolkit: Perl modules for the life sciences. Genome Res. 2002 Oct;12(10):1611-8. PubMed PMID: 12368254; PubMed Central PMCID: PMC187536. [Li H, et al., 2009] Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R; 1000 Genome Project Data Processing Subgroup. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 2009 Aug 15;25(16):2078-9. Epub 2009 Jun 8. PubMed PMID: 19505943; PubMed Central PMCID: PMC2723002. [Quinlan AR et al., 2010] Quinlan AR, Hall IM. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics. 2010 Mar 15;26(6):841-2. Epub 2010 Jan 28. PubMed PMID: 20110278; PubMed Central PMCID: PMC2832824. [Li H and Durbin R, 2009] Li H, Durbin R. Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics. 2009 Jul 15;25(14):1754-60. Epub 2009 May 18. PubMed PMID: 19451168; PubMed Central PMCID: PMC2705234; [Li H and Durbin R, 2010] Li H, Durbin R. Fast and accurate long-read alignment with Burrows-Wheeler transform. Bioinformatics. 2010 Mar 1;26(5):589-95. Epub 2010 Jan 15. PubMed PMID: 20080505; PubMed Central PMCID: PMC2828108; [Langmead B, et al., 2009] Langmead B, Trapnell C, Pop M, Salzberg SL. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biol. 2009;10(3):R25. Epub 2009 Mar 4. PubMed PMID: 19261174; PubMed Central PMCID: PMC2690996; [Robinson JT et al., 2011] Robinson JT, Thorvaldsdóttir H, Winckler W, Guttman M, Lander ES, Getz G, Mesirov JP. Integrative genomics viewer. Nat Biotechnol. 2011 Jan;29(1):24-6. PubMed PMID: 21221095; [Cock PJ et al., 2009] Cock PJ, Fields CJ, Goto N, Heuer ML, Rice PM. The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic Acids Res. 2010 Apr;38(6):1767-71. Epub 2009 Dec 16. Review. PubMed PMID: 20015970; PubMed Central PMCID: PMC2847217; [Li H et al., 2008] Li H, Ruan J, Durbin R. Mapping short DNA sequencing reads and calling variants using mapping quality scores. Genome Res. 2008 Nov;18(11):1851-8. Epub 2008 Aug 19. PubMed PMID: 18714091; PubMed Central PMCID: PMC2577856; [Garber M et al., 2011] Garber M, Grabherr MG, Guttman M, Trapnell C. Computational methods for transcriptome annotation and quantification using RNA-seq. Nat Methods. 2011 Jun;8(6):469-77. Epub 2011 May 27. PubMed PMID: 21623353. [Mortazavi A et al., 2008] Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B. Mapping and quantifying mammalian transcriptomes by RNA- Seq. Nat Methods. 2008 Jul;5(7):621-8. Epub 2008 May 30. PubMed PMID: 18516045. [Trapnell C et al., 2009] Trapnell C, Pachter L, Salzberg SL. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 2009 May 1;25(9):1105-11. Epub 2009 Mar 16. PubMed PMID: 19289445. [Trapnell C et al., 2010] Trapnell C, Williams BA, Pertea G, Mortazavi A, Kwan G, van Baren MJ, Salzberg SL, Wold BJ, Pachter L. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 2010 May;28(5):511-5. Epub 2010 May 2. PubMed PMID: 20436464; Roberts A, Trapnell C, Donaghey J, Rinn JL, Pachter L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 2011;12(3):R22. Epub 2011 Mar 16. PubMed PMID: 21410973; Roberts A, Pimentel H, Trapnell C, Pachter L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinformatics. 2011 Sep 1;27(17):2325-9. Epub 2011 Jun 21. PubMed PMID: 21697122; [Roberts A et al., 2011] [Roberts A et al., 2011]