Northern eletronico e SAGE
Transcrição
Northern eletronico e SAGE
SAGE E NORTHERN ELETRÔNICO Gustavo Gilson Lacerda Costa SAGE • Serial Analysis of Gene Expression • Quantificar níveis de expressão dos genes em uma amostra • Sistema aberto – Potencialmente pode quantificar a expressão de todos os genes (diferentemente dos microarrays) Que informação SAGE produz? mRNA (Enzima corta ~14bp a partir do CATG mais próximo do polyA) TAGS (~14bp) Formação de Concatâmeros Concatâmero DITAG DITAG DITAG DITAG • Vârios concatâmeros são sequenciados • Cada concatâmero tem várias DITAGS, separadas por CATG Bioinformática – Processamento inicial Cromatogramas Seqüência do concatâmero e qualidades associadas Base calling (Phred), descarte de seqüências com qualidade ruim Screening de vetor (Crossmatch) Seqüência do concatâmero limpa Do concatâmero às TAGS >Sequencia1 GCCCTCTAATGCATGTTGACGTGCACTTCCGTAGCCTCA TGTTTTATGGAATCACCTATTATGCCATGACTTTTTCAAA ACTAGGCTGTGCCATGTTTACACAGTATGCACACATCTT CCATGGATGTGGACAGAAAATCCTCCAACATGATGGCA A Do concatâmero às TAGS • • • • • • • • • • Localize as ocorrências de “CATG” Extraia ditags de comprimento 20-26 entre os CATG’s Descarte as ditags duplicadas – provavelmente artefatos Descarte as ditags em que há alguma base com qualidade abaixo de 20 Para cada DITAG, extraia as 10 bases de ambas as extremidades Conte as ocorrências de cada TAG Softwares para extração das tags: CSAGE (linux), ESAGE2000 (windows) SAGENHAFT http://tagcalling.mbgproject.org/extract-library.html CGAP ExtractTagsFromSeqs http://cgap.nci.nih.gov/SAGE/ExtractTagsFromSeqs Do concatâmero às TAGS Erros no processo • Erros de seqüenciamento (mesmo com PHRED>20, deve haver um erro a cada 10 tags) • Possibilidade de tags não unívocas • Transcritos que não geram tags para uma dada enzima Das tags aos genes • Situação ideal: – Um gene = uma tag • Situação real – Um gene = várias tags (splicjng alternativo; poliadenilação alternativa, enzima nao reconhece o CATG mais próximo) – Uma tag = vários genes (regiões 3’ conservadas) Das tags aos genes • Prepare uma tabela de mapeamento (TAG -> GENE) a partir dos dados de transcritos seqüenciados daquele organismo • Para alguns organismos (H. sapiens, Mus musculus etc), já existem boas tabelas disponíveis Das tags aos genes • SAGEGenie CGAP http://cgap.nci.nih.gov/SAGE/ • Best gene for a TAG • Best TAG for a gene • confident • Tabelas para download Das tags aos genes • As associações confident (um tag para um gene): poucas TAGS mapeadas • Best gene for a TAG: ideal para o tipo de associação que queremos • Cautela ao fazer qualquer hipótese sobre a expressão de um gene baseada nessas associações! Das tags aos genes • As associações “TAG para gene” podem ser feitas no EXCEL, no ACCESS ou em outro banco de dados Das tags aos genes TAGS únicas e TAGS totais • TAGS totais: somatório de todas as tags da biblioteca • TAGS únicas: número de TAGS diferentes que foram seqüenciadas • (TAGS únicas/Tags totais): Índice de NOVIDADE Expressão diferencial • Normalmente, estamos interessados em avaliar a expressão diferencial em duas ou mais condições • Ex: câncer vs controle • Que genes estão mais expressos em câncer? Que genes foram reprimidos? • Uma biblioteca SAGE para cada condição • Para cada TAG, contamos as ocorrências em cada biblioteca Expressão diferencial • Estatísticas de expressão diferencial – Fold (razão entre os counts das bibliotecas) • Normalizar as bibliotecas se elas tiverem diferentes tamanhos (TAGS por MILHAO) – – – – – – Pairwise Audic & Claverie test Pairwise Fisher Exact test Pairwise Chi sq. Test Greller & Tobin Stekel & Falciani R test Multiple Chi sq. test Expressão diferencial Expressão diferencial • Ferramenta ON-LINE para identificação dos genes diferencialmente expressos http://telethon.bio.unipd.it/bioinfo/IDEG6_form/ Northern Eletrônico Gustavo Gilson Lacerda Costa Northern eletrônico • Inferência da expressão gênica a partir de uma montagem de ESTs Contig Câncer Controle Northern eletrônico • Montagem realizada com ESTs de todas as bibliotecas • Anotam-se os contigs • Conta-se, para cada contig, qual a freqüência de ESTs de cada biblioteca • Se as bibliotecas não são subtrativas, tem-se uma idéia da expressão em cada biblioteca Northern eletrônico • • • • Número razoável de ESTs em cada biblioteca Montagem cuidadosa Anotação manual ou automática Levar em conta o tamanho das bibliotecas ao fazer as estatísticas (normalização) • As mesmas estatísticas do SAGE valem aqui também Expressão gênica com as novas tecnologias de seqüenciamento • Seqüenciamento de fragmentos de mRNA Expressão gênica com as novas tecnologias de seqüenciamento • Idéia semelhante ao seqüenciamento de ESTs com SANGER • Altíssimo throughput (milhões de fragmentos de 25 a 50bp) • Custo baixo • Capaz de identificar até os transcritos de menor abundância Expressão gênica com as novas tecnologias de seqüenciamento • S. cerevisae -> 1Gbp -> 91% dos transcritos seqüenciados • S. pombe -> 5Gbp -> 99,3% dos transcritos seqüenciados • 5 estudos todos de 2008 usaram esta técnica Expressão gênica com as novas tecnologias de seqüenciamento • Especialmente útil quando há genoma seqüenciado • Útil para determinar variantes de splicing No futuro... • Melhores algoritmos para montar essas seqüências curtas • Seqüenciamento de outros RNAs (além de mRNAs) • Bibliotecas de paired-end • Chegada dessas novas tecnologias no Brasil