Northern eletronico e SAGE

Transcrição

Northern eletronico e SAGE
SAGE E NORTHERN ELETRÔNICO
Gustavo Gilson Lacerda Costa
SAGE
• Serial Analysis of Gene Expression
• Quantificar níveis de expressão dos genes em
uma amostra
• Sistema aberto
– Potencialmente pode quantificar a expressão de
todos os genes (diferentemente dos microarrays)
Que informação SAGE produz?
mRNA (Enzima
corta ~14bp a
partir do CATG
mais próximo do
polyA)
TAGS (~14bp)
Formação de
Concatâmeros
Concatâmero
DITAG
DITAG
DITAG
DITAG
• Vârios concatâmeros são sequenciados
• Cada concatâmero tem várias DITAGS,
separadas por CATG
Bioinformática – Processamento
inicial
Cromatogramas
Seqüência do
concatâmero e
qualidades
associadas
Base calling (Phred), descarte de
seqüências com qualidade ruim
Screening de vetor (Crossmatch)
Seqüência do
concatâmero limpa
Do concatâmero às TAGS
>Sequencia1
GCCCTCTAATGCATGTTGACGTGCACTTCCGTAGCCTCA
TGTTTTATGGAATCACCTATTATGCCATGACTTTTTCAAA
ACTAGGCTGTGCCATGTTTACACAGTATGCACACATCTT
CCATGGATGTGGACAGAAAATCCTCCAACATGATGGCA
A
Do concatâmero às TAGS
•
•
•
•
•
•
•
•
•
•
Localize as ocorrências de “CATG”
Extraia ditags de comprimento 20-26 entre os CATG’s
Descarte as ditags duplicadas – provavelmente artefatos
Descarte as ditags em que há alguma base com qualidade abaixo de
20
Para cada DITAG, extraia as 10 bases de ambas as extremidades
Conte as ocorrências de cada TAG
Softwares para extração das tags: CSAGE (linux), ESAGE2000
(windows)
SAGENHAFT
http://tagcalling.mbgproject.org/extract-library.html
CGAP ExtractTagsFromSeqs
http://cgap.nci.nih.gov/SAGE/ExtractTagsFromSeqs
Do concatâmero às TAGS
Erros no processo
• Erros de seqüenciamento (mesmo com
PHRED>20, deve haver um erro a cada 10
tags)
• Possibilidade de tags não unívocas
• Transcritos que não geram tags para uma dada
enzima
Das tags aos genes
• Situação ideal:
– Um gene = uma tag
• Situação real
– Um gene = várias tags (splicjng alternativo;
poliadenilação alternativa, enzima nao reconhece
o CATG mais próximo)
– Uma tag = vários genes (regiões 3’ conservadas)
Das tags aos genes
• Prepare uma tabela de mapeamento (TAG ->
GENE) a partir dos dados de transcritos
seqüenciados daquele organismo
• Para alguns organismos (H. sapiens, Mus
musculus etc), já existem boas tabelas disponíveis
Das tags aos genes
• SAGEGenie CGAP
http://cgap.nci.nih.gov/SAGE/
• Best gene for a TAG
• Best TAG for a gene
• confident
• Tabelas para download
Das tags aos genes
• As associações confident (um tag para um
gene): poucas TAGS mapeadas
• Best gene for a TAG: ideal para o tipo de
associação que queremos
• Cautela ao fazer qualquer hipótese sobre a
expressão de um gene baseada nessas
associações!
Das tags aos genes
• As associações “TAG para gene” podem ser
feitas no EXCEL, no ACCESS ou em outro banco
de dados
Das tags aos genes
TAGS únicas e TAGS totais
• TAGS totais: somatório de todas as tags da
biblioteca
• TAGS únicas: número de TAGS diferentes que
foram seqüenciadas
• (TAGS únicas/Tags totais): Índice de
NOVIDADE
Expressão diferencial
• Normalmente, estamos interessados em
avaliar a expressão diferencial em duas ou
mais condições
• Ex: câncer vs controle
• Que genes estão mais expressos em câncer?
Que genes foram reprimidos?
• Uma biblioteca SAGE para cada condição
• Para cada TAG, contamos as ocorrências em
cada biblioteca
Expressão diferencial
• Estatísticas de expressão diferencial
– Fold (razão entre os counts das bibliotecas)
• Normalizar as bibliotecas se elas tiverem diferentes
tamanhos (TAGS por MILHAO)
–
–
–
–
–
–
Pairwise Audic & Claverie test
Pairwise Fisher Exact test
Pairwise Chi sq. Test
Greller & Tobin
Stekel & Falciani R test
Multiple Chi sq. test
Expressão diferencial
Expressão diferencial
• Ferramenta ON-LINE para identificação dos
genes diferencialmente expressos
http://telethon.bio.unipd.it/bioinfo/IDEG6_form/
Northern Eletrônico
Gustavo Gilson Lacerda Costa
Northern eletrônico
• Inferência da expressão gênica a partir de uma
montagem de ESTs
Contig
Câncer
Controle
Northern eletrônico
• Montagem realizada com ESTs de todas as
bibliotecas
• Anotam-se os contigs
• Conta-se, para cada contig, qual a freqüência
de ESTs de cada biblioteca
• Se as bibliotecas não são subtrativas, tem-se
uma idéia da expressão em cada biblioteca
Northern eletrônico
•
•
•
•
Número razoável de ESTs em cada biblioteca
Montagem cuidadosa
Anotação manual ou automática
Levar em conta o tamanho das bibliotecas ao
fazer as estatísticas (normalização)
• As mesmas estatísticas do SAGE valem aqui
também
Expressão gênica com as novas
tecnologias de seqüenciamento
• Seqüenciamento de fragmentos de mRNA
Expressão gênica com as novas
tecnologias de seqüenciamento
• Idéia semelhante ao seqüenciamento de ESTs
com SANGER
• Altíssimo throughput (milhões de fragmentos
de 25 a 50bp)
• Custo baixo
• Capaz de identificar até os transcritos de
menor abundância
Expressão gênica com as novas
tecnologias de seqüenciamento
• S. cerevisae -> 1Gbp -> 91% dos transcritos
seqüenciados
• S. pombe -> 5Gbp -> 99,3% dos transcritos
seqüenciados
• 5 estudos todos de 2008 usaram esta técnica
Expressão gênica com as novas
tecnologias de seqüenciamento
• Especialmente útil quando há genoma
seqüenciado
• Útil para determinar variantes de splicing
No futuro...
• Melhores algoritmos para montar essas
seqüências curtas
• Seqüenciamento de outros RNAs (além de
mRNAs)
• Bibliotecas de paired-end
• Chegada dessas novas tecnologias no Brasil

Documentos relacionados

Roteiro

Roteiro modificação da expressão gênica. Isso pode indicar que esses genes estão associados com uma determinada função celular. Analisando somente a expressão do mRNA não é possível conhecer a quantidade d...

Leia mais