Desenvolvimento de uma Plataforma Integrativa para - BIT

Transcrição

UNIVERSIDADE DE SÃO PAULO
FACULDADE DE MEDICINA DE RIBEIRÃO PRETO
Daniel Guariz Pinheiro
Desenvolvimento de uma Plataforma
Integrativa para Depuração e Análise de
Dados de Expressão Gênica
Ribeirão Preto – SP
2009
AUTORIZO A REPRODUÇÃO E DIVULGAÇÃO TOTAL OU PARCIAL DESTE
TRABALHO, POR QUALQUER MEIO CONVENCIONAL OU ELETRÔNICO, PARA
FINS DE ESTUDO E PESQUISA, DESDE QUE CITADA A FONTE.
Catalogação na Publicação
Serviço de Documentação
Faculdade de Medicina de Ribeirão Preto
Pinheiro, Daniel Guariz
Desenvolvimento de uma Plataforma Integrativa para Depuração e Análise de
Dados de Expressão Gênica / Daniel Guariz Pinheiro; orientador: Wilson Araújo
da Silva Jr. – Ribeirão Preto – SP, 2009.
125 f. : fig.
Tese (Doutorado – Programa de Pós-Graduação em Genética.
centração: Genética) – Faculdade de Medicina de Ribeirão Preto.
Área de Con-
1. Expressão Gênica – Serial Analysis of Gene Expression – SAGE. 2.
nética. 3. Bioinformática.
Ge-
Daniel Guariz Pinheiro
Desenvolvimento de uma Plataforma
Integrativa para Depuração e Análise de
Dados de Expressão Gênica
Tese apresentada ao Programa de Pós-Graduação
em Genética da Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo para a
obtenção do tı́tulo de Doutor em Ciências.
Área de Concentração: Genética
Orientador: Prof. Dr. Wilson Araújo da Silva
Junior
Ribeirão Preto – SP
2009
Dedicatória
Dedico esta tese à minha famı́lia.
À minha esposa, Aline Dibelli Balestra Pinheiro,
aos meus pais, Hilário Tavares Pinheiro Filho e Waldira Luci Guariz Pinheiro,
aos meus irmãos, Samuel Guariz Pinheiro e Rafael Guariz Pinheiro,
aos meus avós paternos Hilário Tavares Pinheiro e Adelaide Corazza Pinheiro,
e avós maternos Mário Guariz e Elza Malerbo Guariz.
Agradecimentos
A Deus, pelo dom da vida e por iluminar o meu caminho, me concedendo força e
perseverança para superar os desafios encontrados.
À minha esposa, Aline Dibelli Balestra Pinheiro, pelo amor, companheirismo e paciência.
Aos meus pais, Hilário Tavares Pinheiro e Waldira Luci Guariz Pinheiro, pela educação, apoio e dedicação incondicional.
Aos meus irmãos, Samuel Guariz Pinheiro e Rafael Guariz Pinheiro pelo apoio em
todos os momentos.
Ao Prof. Dr. Wilson Araújo da Silva Junior pela orientação, incentivo, paciência e
confiança dispensada.
Aos Professores do Departamento de Genética da Faculdade de Medicina de Ribeirão
Preto, da Universidade de São Paulo, pelos ensinamentos, e à Comissão de Pós-Graduação
pela oportunidade concedida.
Ao Prof. Dr. Sandro José de Souza do Instituto Ludwig de Pesquisa sobre o Câncer,
pela atenção e colaboração.
Ao Dr. Pedro Alexandre Favoretto Galante do Instituto Ludwig de Pesquisa sobre o
Câncer, pela atenção e colaboração com valiosos comentários e sugestões.
À equipe do Laboratório de Genética Molecular pela alegre convivência. Em especial,
Cristiane Ayres Ferreira, Carla Martins Kaneto e Greice Andreotti de Molfetta.
Aos amigos do Laboratório de Bioinformática (BiT) pelo companheirismo e incentivo
durante esses anos. Em especial, Rodrigo Martins Brandão, Israel Tojal da Silva, Marco
Aurélio Valtas Cunha, Thiago Yukio Kikuchi Oliveira, Gislaine da Silva P. Pereira, Alynne
Oya e Chiromatzo, Rodrigo Lucena Borges, Olsen Rodrigo Mott Silva, Rodrigo Guarischi
M. A. de Sousa e Marcelo Gomes de Paula.
À Meire Vieira de Carvalho Tarlá, à Dalva Tereza Catto (Dalvinha), à Susie Adriana
Penha Nalon e à Maria Aparecida O. S. Elias, pela paciência, ajuda e dedicação nas
tarefas burocráticas e administrativas.
Aos funcionários do Hemocentro de Ribeirão Preto por proporcionarem um ambiente
de trabalho propı́cio.
Ao Centro de Terapia Celular (CEPID/FAPESP) pelo apoio financeiro.
Aos que contribuı́ram direta ou indiretamente para a realização deste trabalho.
“Comece fazendo o que é necessário,
depois o que é possı́vel,
e de repente você estará fazendo o impossı́vel.”
São Francisco de Assis
Resumo
Métodos de análise de expressão gênica em larga escala como microarrays, Serial
Analysis of Gene Expression (SAGE), Massively Parallel Signature Sequencing (MPSS) e
outros baseados na nova geração de seqüenciadores [e.g. Sequencing-By-Synthesis (SBS)]
têm sido amplamente utilizados e para traçar perfis de expressão gênica. Estas abordagens têm permitido a identificação de biomarcadores de tipos celulares especı́ficos em
uma extensa variedade de condições biológicas. Análises de expressão gênica diferencial
usando dados produzidos a partir dessas tecnologias fornecem recursos que auxiliam sobremaneira a identificação e avaliação de alvos terapêuticos. A fim de oferecer suporte
para essas análises, desenvolvemos uma plataforma integrativa que utiliza bancos de dados
públicos e próprios e reúne uma coleção de ferramentas web. Essa plataforma compreende dois sistemas integrados: o primeiro é chamado de Hyper- and Hypo-expressed Genes
(H2G) e o segundo de Score System for Sequence Tags (S3T). O H2G oferece suporte às
análises comparativas de expressão gênica diferencial e o S3T foi concebido para indexar os dados de expressão gênica por meio de uma série de avaliações baseadas em um
conjunto de regras definido, o qual permite a identificação/seleção de dados considerados
mais confiáveis para posterior análise com H2G ou quaisquer outros aplicativos. O H2G
possui ferramentas computacionais para a análise e detecção de genes diferencialmente
expressos e engloba um banco de dados de expressão gênica que contém atualmente 1.174
bibliotecas obtidas a partir das tecnologias SAGE, MPSS e SBS. O H2G inclui o S3T
como um recurso para realizar a depuração nesses dados. Análises com o S3T foram
realizadas em conjuntos de bibliotecas de SAGE humanas, organizadas por tipo celular.
Agrupamentos hierárquicos foram obtidos a partir dos dados brutos e também a partir
dos dados após a filtragem do S3T, para cada conjunto de bibliotecas. Os resultados das
avaliações desses agrupamentos revelam que os agrupamentos gerados a partir dos dados
após a filtragem são mais coerentes, sugerindo que o processo de depuração do S3T é capaz de reduzir a presença de ruı́dos. Este trabalho oferece uma contribuição significativa
para os estudos da dinâmica da expressão gênica. Essa plataforma de análise pode auxiliar outros pesquisadores na realização de suas investigações biológicas. Os recursos de
análise estão livremente disponı́veis nas seguintes URLs: http://gdm.fmrp.usp.br/h2g/ e
http://gdm.fmrp.usp.br/s3t/, respectivamente para o H2G e o S3T.
Abstract
Development of an Integrative Platform for Depuration and Analysis of
Gene Expression Data
High-throughput gene expression methods such as microarrays, Serial Analysis of
Gene Expression (SAGE), Massively Parallel Signature Sequencing (MPSS) and others
based on the new generation of sequencers [e.g. Sequencing-By-Synthesis (SBS)] have been
widely used for gene expression profiling. These approaches have stimulated searches for
biomarkers of specific cell types in a broad variety of biological conditions. Differential
gene expression analyses using data produced from these technologies can provide the
means for identification and evaluation of potential therapeutic targets. In order to offer
support for these analyses, we developed an integrative platform that uses public and
in-house databases and gathers a collection of web-based tools. This platform comprises two integrated systems: the first is named Hyper- and Hypo-expressed Genes (H2G)
and the second is named Score System for Sequence Tags (S3T). The H2G supports the
comparative analysis of differential gene expression and the S3T was designed to index
gene expression data by a series of evaluations based on a defined rule set, which allows
the identification/selection of data considered more reliable for further analysis with H2G
or any other resource. The H2G has computational tools for analysis and detection of
differentially expressed genes and comprises a gene expression database that currently
contains 1,174 library entries obtained from SAGE, MPSS and SBS technologies. The
H2G includes the S3T as a resource to perform a depuration in these data. S3T analyses
were performed in sets of human SAGE libraries, organized by cell type. Hierarchical clusters were obtained from raw data and also from data after S3T filtering, for each library
set. The evaluation results of these clusters reveal that the clusters generated from data
after filtering are more coherent, suggesting that the depuration process of S3T is able to
reduce the noise presence. This work offers a significant contribution to gene expression
dynamics studies. This analysis platform can assist other researchers to carry out its biological investigations. The analysis resources are freely available at the following URLs:
http://gdm.fmrp.usp.br/h2g/ and http://gdm.fmrp.usp.br/s3t/ respectively for the H2G
and S3T.
Sumário
Lista de Figuras
Lista de Tabelas
Lista de Abreviaturas e Siglas
1 Introdução
p. 17
1.1 Genômica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17
1.2 Genômica Funcional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17
1.3 Análise Global da Expressão Gênica . . . . . . . . . . . . . . . . . . . . . p. 19
1.3.1
Técnicas para a Análise Global da Expressão Gênica . . . . . . . p. 20
1.3.2
Comparações entre as tecnologias . . . . . . . . . . . . . . . . . . p. 33
1.3.3
Métodos de Análise de Expressão Gênica Diferencial . . . . . . . p. 34
1.4 Bancos de Dados Biológicos . . . . . . . . . . . . . . . . . . . . . . . . . p. 40
1.4.1
Seqüências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 43
1.4.2
Ontologias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 45
1.4.3
Vias metabólicas . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 47
1.4.4
Regulação da Expressão Gênica . . . . . . . . . . . . . . . . . . . p. 48
1.4.5
Expressão Gênica . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 50
1.4.6
Genoma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 53
2 Objetivos
p. 54
3 Material e métodos
p. 56
3.1 Plataforma de desenvolvimento dos sistemas . . . . . . . . . . . . . . . . p. 56
3.2 H2G - Hyper- and Hypo-expressed Genes . . . . . . . . . . . . . . . . . . p. 59
3.2.1
Repositório de Dados de Expressão Gênica . . . . . . . . . . . . . p. 59
3.2.2
Interfaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 63
3.3 S3T - Score System for Sequence Tags . . . . . . . . . . . . . . . . . . . p. 64
3.3.1
Conjuntos de tags virtuais . . . . . . . . . . . . . . . . . . . . . . p. 65
3.3.2
Regras de Classificação . . . . . . . . . . . . . . . . . . . . . . . . p. 70
3.3.3
Interface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 71
3.3.4
Análise com dados públicos de SAGE . . . . . . . . . . . . . . . . p. 72
4 Resultados e Discussão
p. 75
4.1 H2G - Hyper- and Hypo-expressed Genes . . . . . . . . . . . . . . . . . . p. 75
4.1.1
Recursos disponı́veis . . . . . . . . . . . . . . . . . . . . . . . . . p. 76
4.1.2
Aplicações do H2G . . . . . . . . . . . . . . . . . . . . . . . . . . p. 79
4.1.3
Disponibilidade e requisitos do sistema H2G . . . . . . . . . . . . p. 82
4.2 S3T - Score System for Sequence Tags . . . . . . . . . . . . . . . . . . . p. 82
4.2.1
Análise com dados públicos de SAGE . . . . . . . . . . . . . . . . p. 83
4.2.2
Disponibilidade e requisitos do sistema S3T . . . . . . . . . . . . p. 90
5 Conclusões
p. 92
6 Perspectivas
p. 94
Referências Bibliográficas
p. 96
Apêndice A -- Resumo do artigo que descreve o S3T
p. 116
Apêndice B -- Grupos histológicos para a análise com S3T
p. 117
Apêndice C -- Configuração do S3T
p. 121
Anexo A -- Seqüências dos Adaptadores e Primers para SAGE
p. 123
Anexo B -- Seqüências dos Adaptadores e Primers para LongSAGE
p. 124
Anexo C -- Seqüências dos Adaptadores para MPSS
p. 125
Lista de Figuras
1
Revolução dos “omas” e a Biologia Sistêmica . . . . . . . . . . . . . . . . p. 18
2
Protocolo original da técnica de SAGE . . . . . . . . . . . . . . . . . . . p. 24
3
Crescimento do GenBank . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 41
4
Arquitetura geral dos bancos de dados biológicos . . . . . . . . . . . . . . p. 43
5
Representação das conexões entre os bancos de dados no Entrez . . . . . p. 44
6
Diagrama geral dos sistemas H2G e S3T . . . . . . . . . . . . . . . . . . p. 57
7
Diagrama geral do sistema H2G . . . . . . . . . . . . . . . . . . . . . . . p. 60
8
Diagrama geral do sistema S3T . . . . . . . . . . . . . . . . . . . . . . . p. 65
9
Imagem da representação dos nı́veis de expressão das tags no sistema de
pesquisa do H2G . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 79
10
Gráfico de dispersão de uma análise com H2G. . . . . . . . . . . . . . . . p. 80
11
Resultado da ferramenta de consulta do H2G . . . . . . . . . . . . . . . . p. 81
12
Distribuições dos resultados da análise do S3T. . . . . . . . . . . . . . . . p. 86
13
Agrupamento hierárquico de bibliotecas SAGE de cólon. . . . . . . . . . p. 87
14
Scores mais abundantes nos resultados da classificação com o S3T. . . . . p. 89
15
Contribuição das tags com scores negativos para o tamanho final da
biblioteca. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 89
16
Histograma dos resultados das classificações aleatórias . . . . . . . . . . . p. 91
Lista de Tabelas
1
Fontes originais dos dados contidos no H2G. . . . . . . . . . . . . . . . . p. 62
2
Conjuntos de dados de tags virtuais. . . . . . . . . . . . . . . . . . . . . p. 66
3
Conjunto de regras padrão para o S3T. . . . . . . . . . . . . . . . . . . . p. 73
4
Conteúdo do repositório de dados do H2G. . . . . . . . . . . . . . . . . . p. 75
5
Correlação entre o total de tags e tags distinstas por score. . . . . . . . . p. 85
6
Avaliação de qualidade dos agrupamentos hierárquicos, . . . . . . . . . . p. 88
7
Valores médios e desvios padrões obtidos dos resultados das avaliações
com a medida-F. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 90
8
Diferenças e valores de significância estatı́stica comparando as médias
das porcentagens dos casos de agrupamentos. . . . . . . . . . . . . . . . . p. 90
Lista de Abreviaturas e Siglas
RNA Ácido Ribonucléico/Ribonucleic Acid
DNA Ácido Desoxirribonucléico/Deoxyribonucleic Acid
cDNA complementary DNA
EST Expressed Sequence Tag
SAGE Serial Analysis of Gene Expression
MPSS Massively Parallel Sinature Sequencing
cDNA-AFLP cDNA-Amplified Fragment Length Polymorphism Analysis
PCR Polymerase Chain Reaction
qPCR quantitative Polymerase Chain Reaction
EBE EST Based Expression experiments
NCBI National Center for Biotechnology Information
BLAST Basic Local Alignment Search Tool
BLAT BLAST -Like Alignment Tool
pb par(es) de bases
mRNA RNA mensageiro
DDD Digital Differential Display
SBS Sequencing-By-Synthesis
SBL Sequencing-By-Ligation
AE Anchoring Enzyme
TE Tagging Enzyme
SNP Single Nucleotide Polymorphism
InDel Insertion-Deletion polymorphisms
nt nucleotı́deo
ATP adenosina trifosfato
KEGG Kyoto Encyclopedia of Genes and Genomes
GO Gene Ontology
GOA Gene Ontology Annotation
SOAP Simple Object Access Protocol
HTTP HyperText Transfer Protocol
EBI European Bioinformatics Institute
INSDC International Nucleotide Sequence Database Collaboration
MGC Mammalian Gene Collection
ORF Open Reading Frame
OBO Open Biomedical Ontologies
mRNPs messenger ribonucleoproteins
MIAME Minimum Information About a Microarray Experiment
MAGE-ML Microarray Gene Expression Markup Language
MGED Microarray Gene Expression Data
UCSC University of California Santa Cruz
OMG Object Management Group
iAFLP introduced Amplified Fragment Length Polymorphism
DDBJ DNA Data Bank of Japan
RISC RNA-induced silence complex
SGBD Sistema de Gerenciamento de Banco de Dados
SO Sistema Operacional
GEO Gene Expression Omnibus
GIS Genome Institute of Singapore
LICR Ludwig Institute for Cancer Research
Poli(A) Poliadenilação
GLGI Generation of Longer cDNA fragments from SAGE tags for Gene Identification
CGAP Cancer Genome Anatomy Project
RDF Resource Description Framework
W3C World Wide Web Consortium
KDD Knowledge Discovery Database
SOM Self-Organizing Maps
PCA Principal Component Analysis
EM Expectation Maximization
GSEA Gene Set Enrichment Analysis
H2G Hyper- and Hypo-expressed Genes
S3T Score System for Sequence Tags
Perl Practical Extraction and Report Language
HTML HyperText Markup Language
CSS Cascading Style Sheets
XML Extensible Markup Language
AJAX Asynchronous Javascript And XML
CGI Common Gateway Interface
CPAN Comprehensive Perl Archive Network
API Application Programming Interface
GUI Graphical User Interface
SQL Structured Query Language
DER Diagrama Entidade-Relacionamento
URI Uniform Resource Identifier
URL Uniform Resource Locator
GNU GNU is Not Unix
GPL General Public License
LGMB Laboratório de Genética Molecular e Bioinformática
FAQ Frequently Asked Questions
XLS Microsoft Excel Spreadsheet
DECH doença do enxerto contra o hospedeiro
SCU sangue de cordão umbilical
MO medula óssea
fc fold change
d diferença
17
1
Introdução
1.1
Genômica
A Genômica é uma área da Biologia Molecular que visa estudar o genoma de um
determinado organismo, o que inclui sua organização estrutural e funções.
Os projetos genomas, em especial o Projeto Genoma Humano (LANDER et al., 2001;
VENTER et al., 2001), desencadearam uma revolução na área de Biologia e da Genética
Molecular.
Ela só foi possı́vel com o advento das tecnologias de seqüenciamento de Ácido Desoxirribonucléico/Deoxyribonucleic Acid (DNA) em larga-escala, que geraram um grande
volume de informações biológicas de um determinado organismo. A fim de processar tais
informações, o uso de métodos computacionais, fundamentados por modelos matemáticos
e estatı́sticos, foi crucial para o sucesso dos projetos genomas.
Nesse contexto surgiu a Bioinformática, como uma área da Biologia Computacional
voltada ao desenvolvimento de novos métodos, algoritmos, bancos de dados e sistemas
para extrair informações relevantes nesse universo de dados biológicos.
A Genômica compreende a Genômica Estrutural e a Genômica Funcional (Seção 1.2).
1.2
Genômica Funcional
As células que compõem um organismo possuem um genoma com um programa próprio de expressão gênica, que é ativado para exercer sua função mediante a um estı́mulo
endógeno ou exógeno. O seqüenciamento completo de um genoma não é suficiente para
esclarecer os mecanismos moleculares complexos envolvidos na regulação da expressão
gênica. Essa etapa é apenas o inı́cio de um processo que visa compreender a função das
estruturas ativas dos genomas. Essa etapa é conhecida como genômica estrutural, que
engloba o seqüenciamento completo dos cromossomos e o mapeamento gênico. A etapa
1.2 Genômica Funcional
18
seguinte, conhecida como genômica funcional (HIETER; BOGUSKI, 1997), consiste em
utilizar as informações providas pela genômica estrutural para o desenvolvimento de abordagens metodológicas aplicadas para a caracterização das funções gênicas.
A atividade ou inatividade do gene (sua expressão), observada em condições biológicas
especı́ficas, pode fornecer indı́cios sobre a função desse gene. Uma das estratégias mais
eficientes, para tal finalidade, é a quantificação da expressão gênica em condições biológicas
distintas (BUTTE, 2002). A genômica funcional é caracterizada por metodologias para
obtenção de dados em larga escala combinadas com análises estatı́sticas e computacionais
(MURRAY et al., 2007).
Atualmente, como resultado dessa revolução dos projetos “-omas” (Figura 1), emerge
uma nova área, a Biologia Sistêmica (SAUER; HEINEMANN; ZAMBONI, 2007), que
é o estudo das interações entre os componentes de um sistema biológico para tentar
compreender como os processos biológicos estão co-atuando em uma célula funcionalmente
ativa. Essa nova área, procura integrar todas essas informações geradas nos estudos “omas” (Figura 1) e a partir disso obter novos conhecimentos observando o todo e não
somente a soma das partes.
Figura 1: Esquema de nomenclaturas na revolução dos projetos “-omas” em relação ao conceito de
Biologia Sistêmica (Figura adaptada de Morel et al. (2004)).
1.3 Análise Global da Expressão Gênica
1.3
19
Análise Global da Expressão Gênica
As análises de expressão gênica em larga escala têm sido geradas em larga escala a fim
de determinar uma assinatura molecular única para os genes em diferentes tipos celulares
e encontrar sua relação com determinado comportamento celular (EMMERT-BUCK et
al., 2000).
A transcrição gênica, ou sı́ntese de Ácido Ribonucléico/Ribonucleic Acid (RNA) é
uma etapa essencial no contexto da regulação gênica. Normalmente, o produto final do
gene é a proteı́na, obtida a partir de uma molécula de RNA mensageiro (mRNA), o qual
direciona a sı́ntese protéica na etapa de tradução.
Portanto, uma estimação qualitativa do proteoma (conjunto de proteı́nas expressas
por uma determinada população de células) pode ser baseada em uma medida quantitativa
do transcritoma (conjunto de todos os transcritos gênicos presentes em uma determinada
população de células) (BRAZMA; VILO, 2000).
Dessa forma, análises globais comparando os perfis de expressão gênica de amostras
em condições biológicas distintas, são estudadas a fim de elucidar as caracterı́sticas transcricionais essenciais que determinam tais condições biológicas.
As análises dos perfis de expressão gênica possibilitam além da compreensão dos mecanismos moleculares envolvidos na regulação da expressão gênica, permitem a identificação de genes diferencialmente expressos, os quais podem ser considerados biomarcadores
para um determinado tipo celular, como, por exemplo, um determinado tipo de câncer (POLYAK; RIGGINS, 2001), no qual tais biomarcadores poderão ser úteis para um
diagnóstico, prognóstico bem como potenciais alvos para intervenções terapêuticas.
Um problema crı́tico dessas análises é que os resultados obtidos assumem proporções
gigantescas com milhares de genes diferencialmente expressos, tornando difı́cil distinguir
os genes que estão realmente envolvidos com o fenótipo de interesse dos que representam
epifenômenos ou que estão diferencialmente expressos erroneamente.
Uma aproximação lógica para identificar as caracterı́sticas essenciais de um processo,
dado um grande conjunto de possibilidades observadas em uma variedade de sistemas
independentes, é encontrar uma interseção entre as possibilidades observadas através de
um conjunto de sistemas. Pois é esperado que as caracterı́sticas essenciais dos sistemas
estejam muito representadas, enquanto que as caracterı́sticas especı́ficas, os epifenômenos
e os resultados espúrios, tenham baixa representatividade (RHODES et al., 2004).
1.3.1
20
Técnicas para a Análise Global da Expressão Gênica
As análises globais da Expressão Gênica possibilitam determinar quais são os prováveis
genes envolvidos em um determinado processo biológico e também como estão interagindo
esses genes nas vias metabólicas ativas. Entre as tecnologias mais utilizadas destacamse os métodos baseados em hibridação [e.g. complementary DNA (cDNA) microarrays
(SCHENA et al., 1995) e oligonucleotide-based microarrays (LOCKHART et al., 1996)]
e, especialmente, os métodos baseados em seqüenciamento [e.g. análises de Expressed
Sequence Tag (EST) (ADAMS et al., 1991; NETO et al., 2000) ou EST Based Expression
experiments (EBE), Serial Analysis of Gene Expression (SAGE) (VELCULESCU et al.,
1995), Massively Parallel Sinature Sequencing (MPSS) (BRENNER et al., 2000a)] e, mais
recentemente, as técnicas baseadas na nova geração de seqüenciadores (METZKER, 2005;
MARDIS, 2008a, 2008b; SHENDURE; JI, 2008).
As técnicas baseadas em seqüenciamento utilizam a freqüência observada de fragmentos dos transcritos expressos na amostra. Esses fragmentos são obtidos a partir de clones
de cDNA selecionados aleatoriamente. Eles devem ser seqüenciados para posteriormente
serem identificados, agrupados e contados. A abundância de fragmentos encontrados para
um determinado gene pode fornecer uma estimativa de sua atividade na amostra estudada,
além de possibilitar a descoberta de novos genes (BOGUSKI; TOLSTOSHEV; DE, 1994;
HARBERS; CARNINCI, 2005). É uma tecnologia considerada “aberta”, que permite ter
uma visão geral de quais são os genes que estão sendo expressos, sem a necessidade de
selecioná-los previamente como nos métodos baseados em hibridação.
As técnicas baseadas em hibridação molecular, como os microarrays, em geral utilizam a propriedade de complementaridade dos ácidos nucléicos e sondas com seqüências
complementares às das moléculas de interesse, que nesse caso é o RNA. Essas sondas são
marcadas para posteriormente serem identificadas por meio de um scanner que captura
a intensidade do sinal de hibridação que representa o nı́vel de expressão dos genes ativos.
Microarrays
De um modo geral, os experimentos de microarrays são baseados na hibridação de
moléculas de RNA marcados radioativamente ou utilizando fluoróforos, com de DNA
imobilizadas ordenadamente em um substrato sólido (e.g. lâmina de vidro). No caso dos
microarrays de cDNA, usualmente se emprega a técnica de hibridação competitiva, onde
o cDNA de cada amostra é marcado com um fluoróforo distinto (preferencialmente Cye3
21
e Cye5). Em seguida, os cDNAs marcados são hibridados simultaneamente em uma única
lâmina. Isso permite que a comparação da expressão gênica relativa das duas amostras
seja realizada em um único experimento.
No caso dos microarrays baseados em oligonucleotı́deos, cada arranjo é hibridado com
cDNAs derivados de uma única amostra. O sinal de hibridação é normalizado permitindo
a comparação dos resultados para as diferentes amostras.
As duas tecnologias possuem sensibilidade e especificidade na identificação de transcritos diferencialmente expressos, apesar de identificada uma correlação relativamente baixa
entre as duas tecnologias (YUEN et al., 2002), assim como entre as diferentes plataformas
da mesma tecnologia (KUO et al., 2006b). A comparação entre dados de diferentes plataformas de microarrays é algo complicado, que não pode ser realizado diretamente. Dessa
forma, meta-análises e estratégias para combinar os dados de diferentes plataformas têm
sido propostas (PARMIGIANI et al., 2004; RHODES et al., 2004).
EST Based Expression experiments
A análise de expressão gênica utilizando ESTs (EBE) inicia com o seqüenciamento
de fragmentos (tags) obtidos de posições aleatórias do transcrito. Eles possuem tamanhos variados (tipicamente 400 a 600 par(es) de bases (pb)) com uma taxa de erro de
2%. Essas tags devem ser submetidas a um procedimento de filtragem de qualidade e em
seguida a sucessivos alinhamentos de seqüências, para a identificação de similaridade com
seqüências contaminantes de vetores, adaptadores, ribossomais, mitocondriais, seqüências
de baixa-complexidade, repetições ou qualquer outro contaminante externo. As seqüências que passaram por este crivo são anotadas contra bancos de dados de seqüências de
transcritos já bem caracterizadas e também com as seqüências do genoma para a identificação da origem da transcrição. Adicionalmente, essas seqüências são agrupadas usando
as coordenadas obtidas nas etapas de alinhamento. Essa estratégia é utilizada para a
construção do UniGene.
O UniGene (SCHULER, 1997) é uma iniciativa do National Center for Biotechnology
Information (NCBI) para promover uma visão organizada do transcritoma por meio de um
sistema analı́tico automatizado. Esse sistema agrupa as seqüências já bem caracterizadas
de genes e as ESTs depositadas no dbESTs (BOGUSKI; LOWE; TOLSTOSHEV, 1993),
o qual é uma divisão do banco de dados de seqüências biológicas do NCBI, o GenBank
(BENSON et al., 2009). Isso é possı́vel devido ao fato dessas ESTs serem redundantes
comparadas entre si. Esses agrupamentos (clusters) de seqüências de transcritos simila-
22
res, que em teoria, provêm de um mesmo gene. Além de ser utilizado como repositório de
seqüências para o uso em inúmeros projetos de mapeamento, o UniGene é também utilizado em projetos de expressão gênica em larga escala. A versão atual do UniGene para
a espécie humana (Build #219) possui 123.641 agrupamentos, dos quais 33.037 possuem
pelo menos uma seqüência de mRNA bem caracterizada.
O UniGene ainda inclui uma ferramenta para a análise diferencial de expressão gênica, Digital Differential Display (DDD) (MURRAY et al., 2007), que emprega o método
estatı́stico de Fisher (FISHER, 1922) para determinar a significância da diferença de abundância de ESTs de um mesmo cluster entre bibliotecas. Essa abordagem foi empregada
com sucesso em vários estudos para a identificação de genes regulados diferencialmente
(SCHEURLE et al., 2000). Porém, alguns pontos devem ser levados em conta na interpretação dos dados de expressão gênica a partir de bibliotecas de cDNA (PEVSNER,
2009):
Viés em relação aos tipos de bibliotecas construı́das (e.g. maior quantidade de
bibliotecas de cérebro e fı́gado);
Variabilidade na profundidade do seqüenciamento de diferentes bibliotecas;
Viés em relação à comparação de bibliotecas normalizadas e não-normalizadas;
Alta taxa de erro de seqüenciamento;
Seqüências quiméricas podem contaminar a biblioteca.
Serial Analysis of Gene Expression
A tecnologia SAGE é uma das tecnologias baseadas no seqüenciamento de pequenos
fragmentos de cDNA de uma região relativa do transcrito. O princı́pio que fundamenta
a metodologia de SAGE é baseado no pressuposto de que esse pequeno fragmento (tag)
contém informação suficiente para identificar univocamente um gene, considerando que
essa tag é obtida de um único local no transcrito. Há uma estimativa teórica de que
mais de 99,8% de tags de 21-pb que ocorrem uma única vez em genomas do tamanho do
genoma humano. Considerando a informação de ∼16.000 genes humanos conhecidos, é
esperado que 75% das tags de 21-pb ocorram uma única vez no genoma humano (SAHA
et al., 2002). Essas pequenas moléculas de cDNA são obtidas de tal forma que podem ser
concatenadas em série constituindo uma longa molécula (concatâmero) que é então clonada e seqüenciada. Por fim, as tags podem ser isoladas, e quantificadas. A quantificação
23
do número de vezes que uma tag em particular foi observada provê o nı́vel de expressão
do gene correspondente. Com isso, SAGE permite uma análise quantitativa e simultânea
de um grande número de transcritos. Geralmente um único experimento pode gerar uma
biblioteca de aproximadamente 50.000 tags.
A análise dos dados de SAGE permite não apenas quantificar o nı́vel de expressão dos
genes, mas também identificar novos genes (CHEN et al., 2002) ou formas alternativas de
transcritos (KUO et al., 2006a; GE et al., 2006; KEIME et al., 2007), como por exemplo,
transcritos gerados por encadeamentos alternativos de exons e/ou Poli(A) alternativa, ou
transcritos “anti-senso”.
No método de SAGE (Figura 2) os mRNAs são isolados utilizando métodos convencionais e, os cDNAs são sintetizados após hibridação com oligo-dTs biotinilados, através
da cauda Poli(A), e digeridos com uma enzima de restrição, chamada de enzima de ancoragem - Anchoring Enzyme (AE) (e.g. NlaIII ). O protocolo original (VELCULESCU
et al., 1995) utiliza a enzima NlaIII que reconhece a seqüência CATG. Os fragmentos
correspondentes à região 3’ dos RNAs são capturados por estreptavidina ligada a partı́culas magnéticas (beads) e seletivamente purificados. Essa reação é dividida em 2 alı́quotas
iguais e em cada alı́quota é feita a ligação de um dos 2 adaptadores utilizados (Anexo A).
Os adaptadores contêm um sı́tio de reconhecimento para outra enzima de restrição, chamada de enzima de etiquetagem - Tagging Enzyme (TE), uma endonuclease de restrição
do tipo IIs (e.g. BsmFI ) e também um sı́tio de iniciação (priming) de Polymerase Chain
Reaction (PCR). Após essa ligação é realizada a clivagem pela AE que cliva de forma
abrupta o fragmento a uma distância acima de 20-pb a partir do sı́tio de reconhecimento,
e assim o libera das partı́culas magnéticas de estreptavidina. As duas alı́quotas são reunidas novamente em um pool e os dois conjuntos de moléculas linker -tag são ligados juntos
para formar moléculas linker -ditag-linker, que podem ser amplificadas por PCR usando
primers especı́ficos. As ditags são liberadas por meio de uma clivagem utilizando novamente a AE, são isoladas e ligadas umas às outras para formar os concatâmeros, os quais
podem ser clonados e seqüenciados.
O método original gera tags de até 14-pb, porém ele sofreu modificações e é chamado de
LongSAGE (SAHA et al., 2002), capaz de gerar tags de até 21-pb utilizando outra enzima
de etiquetagem (MmeI substituindo a BsmFI. Em teoria uma tag de 21-pb pode distinguir
uma em 17.179.869.184 (417 ) seqüências enquanto uma tag de 14-pb pode distinguir uma
em 1.048.576 (410 ) seqüências. Assumindo que o genoma contém ∼ 30 ∗ 106 tags derivadas
da AE NlaIII e é composto de seqüências aleatórias, a probabilidade de a tag contendo
24
Figura 2: Esquema do protocolo original da técnica de SAGE. Os números correspondem aos passos para
a execução do protocolo. (1) Preparação do RNA; (2) Sı́ntese de cDNA; (3) Clivagem do cDNA biotinilado
com a enzima de ancoragem - Anchoring Enzyme (AE); (4) Ligação do cDNA biotinilado às partı́culas
magnéticas (beads); (5) Ligação dos adaptadores (linkers) à fita de cDNA; (6) Liberação das tags de cDNA
usando a enzima de etiquetagem - Tagging Enzyme (TE); (7) tags de cDNA com extremidades coesivas
que foram liberadas; (8) Ligação das tags para formação de ditags; (9) Amplificação das ditags por PCR;
(10) Isolamento das ditags; (11) Purificação das ditags; (12) Ligação das ditags para a formação dos
concatâmeros; (13) Clonagem e seqüenciamento dos concatâmeros. (Figura obtida do protocolo original
disponı́vel em http://www.sagenet.org).
14-pb ser única no genoma é ı́nfima e contendo 21-pb é de ∼99,83% (SAHA et al., 2002).
Isso mostra que a técnica de LongSAGE além de reduzir os problemas de ambigüidade
do mapeamento das tags, pode fornecer com maior eficácia evidências de transcrição
para genes preditos, identificar novos exons e genes ainda não caracterizados (WAHL;
25
HEINZMANN; IMAI, 2005), provendo dessa forma informações valiosas para a anotação
de genomas.
É importante considerar que o aumento no tamanho da tag diminui a eficiência do
seqüenciamento devido à extensão da seqüência da tag e portanto poucas tags por leitura,
além de um aumento na taxa de erro por tag. Assumindo uma taxa de erro de seqüenciamento de 1% por base, é esperado que 14% das tags de 14-pb contenham erros, e 21%
no caso de tags de 21-pb.
Ao longo dos anos, além dessa adaptação inserida na técnica original para obter tags
maiores, outros ajustes foram sugeridos para:
Aumentar o tamanho das tags (RYO et al., 2000; MATSUMURA et al., 2003);
Reduzir a contaminação por adaptadores (POWELL, 1998; YE et al., 2000);
Aumentar a eficiência da digestão pela enzima de ancoragem (ANGELASTRO; KLI-
MASCHEWSKI; VITOLO, 2000);
Prevenir o viés relacionado ao conteúdo de GC (MARGULIES; KARDIA; INNIS,
2001);
Aumentar a eficiência de ligação dos adaptadores (SO; TURNER; HAYNES, 2004);
Construir bibliotecas a partir de uma menor quantidade de amostra de RNA total
(DATSON et al., 1999; PETERS et al., 1999; RYO et al., 2000; YE et al., 2000;
NEILSON et al., 2000; VIRLON et al., 1999; VILAIN et al., 2003; GOWDA et al.,
2004);
Aumentar a eficiência na clonagem e aumentar o tamanho dos insertos (KENZEL-
MANN; MUHLEMANN, 1999; GOWDA et al., 2004);
Reduzir as reações de PCR reduzindo, e dessa forma, reduzir o viés introduzido na
etapa de amplificação (RYO et al., 2000; GOWDA et al., 2004);
Detectar a expressão de pequenos RNAs, como microRNAs (miRNAs) (CUMMINS
et al., 2006);
Obter tags da região 3’ do transcrito (WEI et al., 2004; HASHIMOTO et al., 2004),
permitindo também a análise de regiões promotoras;
26
Aumentar a sensibilidade da técnica combinando LongSAGE com o seqüenciamento
utilizando a nova geração de seqüenciadores (e.g. DeepSAGE (NIELSEN; HOGH;
EMMERSEN, 2006), SuperSAGE (MATSUMURA et al., 2008) e LongSAGE Solexa
(HANRIOT et al., 2008)).
Ao final do seqüenciamento as seqüências dos concatâmeros estão contidas em cromatogramas, que devem ser analisados realizando-se a leitura das bases e atribuindo-se um
valor de qualidade a cada uma delas (EWING et al., 1998) (base-calling). Dentre os
aplicativos que fazem a extração e a contagem das tags estão: SAGE300 (ZHANG et
al., 1997), SAGE20001, eSAGE (MARGULIES; INNIS, 2000) e USAGE (KAMPEN et
al., 2000). Esses softwares essencialmente identificam e extraem as ditags, descartam as
ditags muito pequenas ou muito longas, consideradas artefatos da técnica, removem as
ditags duplicadas, que provavelmente podem ocorrer como produtos de amplificação, e removem tags correspondentes aos adaptadores (linkers). As tags são extraı́das das ditags
remanescentes, obter a seqüência complementar reversa da tag quando for necessário para
apresentá-la na orientação 5’-3’, e por fim, contadas as ocorrências. Esse processamento
resulta em uma lista de tags, cada uma com sua respectiva freqüência.
A técnica SAGE fornece a contagem de uma determinada tag como evidências da
transcrição do gene ao qual ela foi originada e o mapeamento da tag ao seu gene permite dar sentido biológico ao pequeno fragmento. Atualmente há diversas metodologias
que permitem obter essa associação (LASH et al., 2000; KAMPEN et al., 2000; BOON
et al., 2002; PLEASANCE; MARRA; JONES, 2003; KEIME et al., 2004; BALA et al.,
2005; MALIG et al., 2006; GALANTE et al., 2007; ROBERTSON et al., 2007), entretanto as mais populares são o SAGEmap (LASH et al., 2000) do NCBI, que foi base o
desenvolvimento de outros métodos de mapeamentos, e o SAGE Genie (BOON et al.,
2002) do Cancer Genome Anatomy Project (CGAP). Ambas as metodologias provêm
mapeamentos confiáveis para as espécies Homo sapiens e Mus musculus.
De um modo geral, o mapeamento é feito através de bancos de dados de tags virtuais.
As tags virtuais são predições de regiões nas seqüências de transcritos que podem ser
produzidas por um experimento de SAGE, ou seja, as seqüências (de 10-pb, utilizando
a TE BsmFI, de 17-pb, utilizando a TE MmeI ) adjacentes aos sı́tios de reconhecimento
das AEs (CATG no caso da NlaIII, GATC no caso da DpnII ou Sau3AI ) mais próximos
à extremidade 3’.
As tags virtuais são obtidas a partir das seqüências depositadas em bancos de dados
1 http://www.sagenet.org
27
públicos (e.g. GenBank (BENSON et al., 2009), RefSeq (PRUITT; TATUSOVA; MAGLOTT, 2005), dbEST (BOGUSKI; LOWE; TOLSTOSHEV, 1993), UniGene (SCHULER, 1997), MGC (STRAUSBERG et al., 1999)). As seqüências são orientadas no sentido
5’-3’, usando as evidências possı́veis sobre a orientação, o sinal de Poliadenilação (Poli(A))
(AAUAAA ou AUUAAA), a cauda de Poli(A) (seqüencia contı́gua de Adeninas ou Timinas em uma das extremidades) e a anotação manual da orientação (3’ ou 5’) da seqüência.
As tags virtuais são extraı́das das prováveis regiões de onde poderiam ter sido obtidas
tags verdadeiras. Normalmente são extraı́das quatro tags (quando possı́vel) mais próximas
à extremidade 3’ e classificadas de acordo com a confiabilidade:
1. Obtidas de seqüências de mRNAs (ou cDNAs) de genes bem conhecidos e caracterizados;
2. Obtidas de seqüências de ESTs com sinal de Poli(A) e/ou cauda de Poli(A) anotadas
como seqüências 3’;
3. Obtidas de seqüências de ESTs com sinal de Poli(A) e/ou cauda de Poli(A) mas
sem anotação 3’ ou 5’;
4. Obtidas de seqüências de ESTs com sinal de Poli(A) e/ou cauda de Poli(A) anotadas
como seqüências 5’;
5. Obtidas de seqüências de ESTs sem sinal de Poli(A) e/ou cauda de Poli(A) anotadas
como tendo orientação 3’.
O que geralmente acontece é que uma tag pode mapear em múltiplos transcritos ou
múltiplas tags podem mapear em um mesmo transcrito. Portanto, para cada tag, outros
dois parâmetros de qualidade são calculados: (i) a freqüência de uma associação gene-tag,
e (ii) a freqüência de uma associação tag-gene. A análise desses parâmetros possibilita
obter uma lista de associações mais confiáveis.
Ao final do processo de mapeamento as tags são associadas a um identificador de um
cluster do UniGene, que em teoria, contém seqüências que representam um único gene
(SCHULER, 1997).
O mapeamento é uma etapa crucial, pois resultados de mapeamentos que são ambı́guos, incorretos ou não disponı́veis podem conduzir a interpretações errôneas ou incompletas sobre a expressão gênica (PLEASANCE; MARRA; JONES, 2003). Porém ainda
há outras considerações importantes.
28
O método SAGE é um método de amostragem, e isso leva a algumas dificuldades como
por exemplo: alguns transcritos pouco abundantes podem não ser vistos ou o número de
contagens pode não refletir acuradamente sua verdadeira abundância nas células devido a
erros sistemáticos ou de seleção (MARGULIES; KARDIA; INNIS, 2001) inerentes ao processo experimental da técnica, que persistem apesar das diversas melhorias acrescentadas
ao protocolo original ao longo dos anos.
Entre os aspectos do SAGE que devem ser levados em consideração (STOLLBERG
et al., 2000) encontram-se: erro de amostragem, erro de seqüenciamento, ambigüidade
na identidade da seqüencia, a não aleatoriedade da seqüência de DNA (fontes de não
aleatoriedade: mutação dinucleotı́deo, pressão seletiva, evolução de genes de um ancestral
comum, elementos repetitivos, etc.). Entre outras dificuldades que podem ser encontradas
podem ser incluı́das as seguintes: contaminação da amostra, processamentos alternativos
de RNAs (e.g. alternative splicing, Poli(A) alternativa), polimorfismos de DNA (e.g. Single Nucleotide Polymorphism (SNP) e Insertion-Deletion polymorphisms (InDel)), mapeamentos incorretos devido a dados incompletos de seqüências. Um estudo recente relatou
o impacto de SNPs na interpretação de dados experimentais de SAGE e MPSS, onde foi
observado ao menos uma tag alternativa associada a SNP para aproximadamente 8,6%
dos genes humanos conhecidos, uma fração significativa dessas tags (61,9%) foram encontradas em dados experimentais.
Além disso, há o impacto dos erros na seqüência, que podem ser introduzidos em
qualquer etapa da técnica, a biotinilação, transcrição reversa, digestão enzimática, ligação, PCR, clonagem e seqüenciamento. Porém, geralmente ocorrem nas etapas de PCR
e seqüenciamento. Na etapa de PCR, a DNA polimerase pode introduzir erros durante
a sı́ntese do DNA. A taxa de tais erros pode variar de acordo com a eficiência da polimerase e as condições da reação. Esses erros se propagam através dos ciclos da reação
(∼25-30). Em um estudo anterior (AKMAEV; WANG, 2004) foi encontrada uma proporção esperada de ∼3,5% de tags LongSAGE com acúmulo de mutação nessa etapa,
considerando taxa estimada de erro de duplicação de ∼0.55% (ditag de 33 nts), eficiência
da Taq DNA polimerase de 88% (KEOHAVONG; THILLY, 1989) e 27 ciclos. No caso do
seqüenciamento a proporção esperada para tags com erros foi de ∼15,6%, considerando
uma ditag de 33 nts e taxa de erro de seqüenciamento por base de 1% (phred 20) (EWING
et al., 1998). Combinando essas duas contribuições majoritários para erros, a proporção
esperada de erro nas tags LongSAGE, segundo esse estudo, é de ∼17,3%. Há ainda um
estudo com evidências de que a taxa de erro para tags de 10-pb está em torno de 1,67%
(CHEN et al., 2002).
29
Esses artefatos da técnica podem conduzir a estimações errôneas, por exemplo, um
erro na seqüência de tags abundantes ou em muitas tags combinadas, pode alterar significativamente a freqüência de tags cujas seqüências sejam similares (COLINGE; FEGER,
2001). A conseqüência é baixa para a identificação de expressão diferencial para transcritos
moderadamente expressos mas é alta para a detecção de transcritos raros e identificação
de novos genes. Além disso, há a introdução de ruı́dos no perfil de expressão gênica global
de uma amostra inviabilizando a caracterização completa do transcritoma dessa amostra.
Massively Parallel Signature Sequencing
O método MPSS clássico foi desenvolvido pela empresa Lynx Therapeutics, e é baseado nos mesmos princı́pios de SAGE, ou seja, na produção e quantificação de tags, que são
identificadas próximas à extremidade 3’ dos transcritos. Porém o método de MPSS utiliza
a clonagem in vitro de fragmentos de DNA em micropartı́culas (microbeads) (BRENNER
et al., 2000b) e no seqüenciamento em larga escala dessas partı́culas por um método de
seqüenciamento de assinaturas (MPSS tags) baseado em fluorescência (BRENNER et al.,
2000a), que não necessita de separação fı́sica dos fragmentos a serem seqüenciados. A
assinatura é derivada da seqüência adjacente ao sı́tio de restrição para a enzima DpnII
ou Sau3AI (GATC), mais próxima à cauda poli(A) na região 3’ da molécula de cDNA
original.
As etapas de seqüenciamento consistem de uma série de repetidos ciclos de digestões,
ligações, e hibridações com sondas. O processo inicia com a digestão pela enzima de restrição DpnII que expõe a seqüências de nucleotı́deos GATC, o que permite a ligação do
adaptador que possui uma seqüência de nucleotı́deos complementar em sua extremidade
coesiva. Esse adaptador contém um sı́tio de ligação para uma endonuclease de restrição
do tipo IIs (e.g. BbvI ). A enzima de restrição liga-se à sonda adaptadora e cliva o cDNA,
expondo as próximas 4 bases a serem decodificadas. Após a digestão 4 bases desconhecidas são expostas. Para a identificação das novas bases expostas são utilizados séries
de adaptadores (Anexo C) que codificam cada nucleotı́deo especı́fico em cada uma das 4
posições. A identidade e a ordem dos nucleotı́deos são então obtidas pela hibridação, uma
por vez, de cada um das 16 sondas decodificadoras aos seus respectivos sı́tios de ligação
no adaptador.
Estas reações ocorrem em etapas consecutivas enquanto as partı́culas esféricas permanecem imobilizadas em células de fluxo sob um microscópio de alta potência, possibilitando
o fluxo de reagentes ao longo e em torno das partı́culas esféricas.
30
Os arquivos de imagens de fluorescência de cada etapa são processados para obter
a leitura das assinaturas de cada partı́cula. Esse procedimento é executado em paralelo, e aproximadamente 1 milhão de assinaturas são obtidas por experimento, possuindo
altı́ssima sensibilidade, permitindo a identificação de transcritos pouco abundantes e geralmente ainda não caracterizados. Assinaturas de ∼16-20-pb são obtidas a partir de cada
partı́cula (bead ) com 5 ciclos. O tamanho maior da tag garante maior especificidade.
A aplicação da técnica de MPSS ainda possui peculiaridades que devem ser consideradas na análise e interpretação dos resultados. Dentre essas particularidades estão incluı́dos
os casos dos genes que não podem ser detectados por não possuı́rem o sı́tio para a enzima
de restrição utilizada (DpnII ou Sau3AI ), e também os casos dos genes que possuem esse
sı́tio de restrição distante da extremidade 3’ do transcrito (e.g. >800-pb) e que podem não
ser detectados através do método clássico em conseqüência de um viés relativo à posição
da tag, de acordo com o reportado na literatura cientı́fica (JONGENEEL et al., 2005).
Resumidamente, a diferença entre o método clássico e o método MPSS baseado em
assinaturas (MEYERS et al., 2004) é que no primeiro todo o fragmento 3’-DpnII -poli(A)
é clonado, enquanto o segundo utiliza uma endonuclease de tipo IIs (MmeI ) para clonar
fragmentos de apenas 21 a 22-pb, os quais incluem um sı́tio de reconhecimento para a
enzima DpnII, o que poderia resolver o viés relativo à distância da tag existente no método
clássico. No entanto, há estudos que encontram evidências desse tipo de viés em ambos
os métodos (CHEN; RATTRAY, 2006), e que portanto devem ser considerados.
O método de mapeamento de tags da técnica MPSS é semelhante ao utilizado para
SAGE.
Next-generation sequencing
As novas tecnologias de seqüenciamento têm rapidamente reduzido o tempo e o custo
do seqüenciamento completo de um genoma (BENNETT et al., 2005) com excelente
cobertura, resolução e sensibilidade. Essas metodologias têm sido empregadas no “reseqüenciamento” de genomas, possibilitando o seqüenciamento completo de genomas individualizados (WHEELER et al., 2008), e comparações entre genomas (KIDD et al., 2008).
Isso permitirá o mapeamento de novas variações genéticas estruturais, especialmente com
a utilização das estratégias de mapeamentos de seqüências paired-ends (KORBEL et al.,
2007). O seqüenciamento de cDNA também é possı́vel para permitir uma análise do
transcritoma com uma maior resolução. Os dados gerados por essas novas tecnologias de
seqüenciamento são naturalmente adaptados às análises funcionais do genoma (WOLD;
31
MYERS, 2008).
Três sistemas da nova geração de seqüenciadores de DNA estão disponı́veis comercialmente: GS FLX System (454 Life Sciences e Roche Applied Science), 1G Genome
Analyzer (Illumina) e o SOLiD(Applied Biosystems).
Os pontos centrais para a excepcional capacidade destes novos equipamentos estão
na amplificação do DNA sem a necessidade da clonagem bacteriana e no método de
seqüenciamento, que é baseado em sı́ntese - Sequencing-By-Synthesis (SBS), ou ligação Sequencing-By-Ligation (SBL), diferentemente do tradicional seqüenciamento automático
(SMITH et al., 1986; PROBER et al., 1987) baseados no método de Sanger (SANGER;
NICKLEN; COULSON, 1977), baseado na terminação de cadeia. Resumidamente, o DNA
a ser seqüenciado é fragmentado, os fragmentos são amplificados independentemente por
PCR de forma que os produtos finais fiquem separados espacialmente na mesma reação.
454 (RUSK; KIERMER, 2008)
A preparação da amostra inicia com a ligação de adaptadores aos fragmentos de
DNA para facilitar sua captura em partı́culas esféricas (beads) (somente um fragmento
por partı́cula) para amplificá-los individualmente dentro de uma gotı́cula de emulsão de
água e óleo contendo os reagente de PCR. Após a amplificação a emulsão é quebrada,
o DNA é desnaturado e as partı́culas com seus respectivos fragmentos são distribuı́das
em poços de uma lâmina de fibra ótica. Para o seqüenciamento (piroseqüenciamento)
(MARGULIES et al., 2005), os poços são carregados com as enzimas de seqüenciamento
e primers (complementares ao adaptador na extremidade do fragmento), e expostos a
um fluxo de um nucleotı́deo sem marcação por vez, permitindo a sı́ntese de uma fita
complementar do DNA a ser seqüenciado. Quando o nucleotı́deo é incorporado, pirofosfato
é liberado e convertido para adenosina trifosfato (ATP), o qual alimenta a conversão
dirigida pela luciferase de luciferina para oxiluciferina e luz, quando isso acontece o poço
acende. O tamanho da seqüencia obtida é de 100 a 150 nucleotı́deos.
Solexa (RUSK; KIERMER, 2008)
A preparação da amostra inicia com a ligação de adaptadores na extremidade, a desnaturação e a ligação de uma das extremidades à superfı́cie sólida já revestidas com uma
densa camada de adaptadores. Cada fragmento fita-simples fica imobilizado por uma das
extremidades enquanto a extremidade livre curva-se e hibrida com um adaptador complementar na superfı́cie, o qual inicia a sı́ntese de uma fita complementar na presença de
reagentes de amplificação. Múltiplos ciclos dessa etapa de amplificação seguida de des-
32
naturação geram agrupamentos (clusters) distribuı́dos aleatoriamente sobre a superfı́cie
e constituı́dos por aproximadamente 1.000 cópias de fitas-simples de moléculas de DNA.
Para o seqüenciamento utilizando terminadores reversı́veis (BENTLEY et al., 2008), os
reagentes de sı́ntese são adicionados à célula de fluxo. Esses reagentes são primers, DNA
polimerase e 4 diferentes nucleotı́deos terminadores reversı́veis marcados com fluoróforos.
Após a incorporação de um nucleotı́deo, o qual é identificado por uma cor, e após a excitação por laser a imagem da fluorescência emitida em cada um dos cluster é capturada e
a leitura de cada uma das bases é obtida. O terminador 3’ e o fluoróforo são removidos
de cada uma das bases incorporadas. Esse ciclo é repetido para a leitura de 30 a 35
nucleotı́deos por seqüência.
SOLiD (RUSK; KIERMER, 2008)
A preparação das amostras inicia com a ligação de adaptadores aos fragmentos de
DNA, os quais são amplificados em partı́culas esféricas por PCR em emulsão. O DNA é
desnaturado e as partı́culas depositadas em uma lâmina de vidro.
O seqüenciamento é realizado utilizando uma versão desenvolvida pela Applied Biosystems do método de seqüenciamento por ligação SBL (SHENDURE et al., 2005). Para
o seqüenciamento, um primer de seqüenciamento anela ao adaptador de forma que sua
extremidade 5’ fica disponı́vel para a ligação de oligonucleotı́deos que podem anelar na
seqüência adjacente (molde). Uma mistura de oligonucleotı́deos octâmeros que competem
pela ligação na seqüência. Esses nucleotı́deos são sondas marcadas com uma fluorescência
que identifica um dos 4 dinucleotı́deos (CA, CT, GG e GC) que ficam em posições especı́ficas dessas moléculas (4ª e 5ª posições). Essas cores são registradas e o oligonucleotı́deo
é clivado (entre a 5ª e a 6ª posição) removendo a marcação e reiniciando o ciclo de ligação, detecção e clivagem. O número de ciclos determina a quantidade de bases que são
seqüenciadas de cada fragmento. Na primeira rodada o processo determina as possı́veis
identidades das bases nas posições 4, 5, 9, 10, 14, 15, etc.. O processo é repetido, com o
deslocamento de uma base utilizando uma seqüência de primer mais curta a cada rodada
(na segunda rodada é possı́vel determinar as posições 3, 4, 8, 9, 13, 14, etc.) até alcançar
a posição inicial desse primer. A identidade dessa primeira base do primer é conhecida,
portanto podemos utilizar esse sistema de cores para decodificar o restante das bases dessa
primeira até a última. A seqüência do fragmento é obtida combinando as informações de
posicionamento e cores. O tamanho da seqüência do fragmento, atualmente está entre 30
e 35 nucleotı́deos.
1.3.2
33
Comparações entre as tecnologias
No geral há vantagens e desvantagens em cada uma das tecnologias para estudo
do transcritoma. Dentre os problemas técnicos dos métodos baseados em hibridação,
destacam-se a necessidade de sintetizar os microarranjos com sondas de DNA pré-selecionadas
(o que não é muito bem escalável com genomas muito grandes), os consideráveis problemas de hibridação cruzada, as dificuldades com a quantificação do sinal de hibridação
(devido à sua natureza contı́nua) e também às dificuldades de padronização, calibragem e
normalização para a comparação apropriada entre os diferentes experimentos. Dentre os
problemas técnicos dos métodos baseados em seqüenciamento destacam-se de uma forma
geral o mapeamento ambı́guo da seqüência em relação às seqüências de referência e os
erros nas seqüências.
Dentre os métodos baseados em seqüenciamento, a técnica de SAGE, possui maior
sensibilidade na detecção de transcritos pouco abundantes comparada com as EBEs (SUN
et al., 2004), apesar das limitações de SAGE que são:
Conter pouca informação sobre a seqüência;
Pouco especı́fica para a representação de um único transcrito, especialmente para
as tags muito abundantes (LEE et al., 2002);
Não é possı́vel detectar transcritos que não possuam o sı́tio de reconhecimento para
a enzima âncora (e.g. NlaIII - CATG), embora o número desses transcritos seja
baixo, 151 (7,8%) de 19.399 cDNAs completos (full-length) humanos no banco de
dados RefSeq (SUN et al., 2004);
O erro em uma única base pode comprometer o mapeamento correto. Em teoria
a taxa de erro de seqüenciamento estimada é de aproximadamente 10%, apesar de
que existe uma estimativa de taxa de erro de 1,67% (CHEN et al., 2002) por tag.
Além disso, aproximadamente 70% das tags de SAGE pouco abundantes representam
transcritos reais com baixa expressão comprovados por meio de experimentos utilizando o
método Generation of Longer cDNA fragments from SAGE tags for Gene Identification
(GLGI) (CHEN et al., 2002), demonstrando, dessa forma, a sensibilidade da técnica.
A técnica MPSS pode gerar até 2 milhões de tags confiáveis a partir de 500 ng de
mRNA, porém a técnica RL-SAGE (GOWDA et al., 2004) pode gerar até 4,5 milhões de
tags a partir de 50 ng de mRNA se todos os clones forem seqüenciados. Além disso, MPSS
34
é uma técnica complexa e somente disponı́vel por meio da Lynx Therapeutics, Inc. além
de haver restrições proprietárias envolvidas, a técnica SAGE é mais simples e acessı́vel.
A técnica RL-SAGE possui duas limitações significativas, uma é o alto custo para
o seqüenciamento dos clones [U$6 por clone (GOWDA et al., 2004)], a qual pode ser
resolvida no futuro com o aperfeiçoamento das tecnologias de seqüenciamento. A outra
limitação é que para ser detectado o transcrito deve possuir um sı́tio para a enzima de
restrição âncora, neste caso a enzima NlaIII, essa limitação pode ser contornada com a
construção de uma biblioteca adicional utilizando outra enzima âncora, como a DpnII ou
a Sau3AI. A técnica MPSS também possui essas limitações, ela não oferece vantagens
com relação ao custo, ao tempo e volume de trabalho necessário, quando comparada com
os microarrays.
Todas as tecnologias apresentadas possuem caracterı́sticas próprias que devem ser
consideradas, e podem muitas vezes ser complementares umas às outras apesar da moderada concordância entre as tecnologias (LIU et al., 2007), em especial para os genes
pouco abundantes. Entretanto, comparações entre os diferentes sistemas e plataformas
para a determinação de perfis de expressão gênica têm sido propostas como uma alternativa para a validação de genes em larga escala (CHUAQUI et al., 2002), visto que os
métodos comumente utilizados com o propósito de validação dos resultados (e.g. quantitative Polymerase Chain Reaction (qPCR) (VANGUILDER; VRANA; FREEMAN, 2008))
consomem muito tempo e recursos, e portanto podem ser considerados praticamente inviáveis para serem executados em uma escala maior. Contudo, a comparação entre os
dados de diferentes sistemas deve ser feita com cautela, como demonstrado em um estudo
anterior (HAVERTY et al., 2004), o qual identificou nı́veis variados de concordância entre
os dados gerados pelos métodos de SAGE, microarrays e EBE.
As novas tecnologias de seqüenciamento também não constituem a solução definitiva
para análise do transcritoma. De 15-20% das seqüências no genoma humano não podem
ser mapeadas claramente em um único local, uma vez que ocorrem mais de uma vez no
genoma (WOLD; MYERS, 2008).
1.3.3
Métodos de Análise de Expressão Gênica Diferencial
Os dados de perfis de expressão gênica obtidos com as técnicas de análise em largaescala assumem proporções gigantescas, exigindo a necessidade de métodos estatı́sticos e
computacionais para a análise e seleção de uma fração desses dados que possuem significância no contexto biológico sob investigação. De um modo geral foram desenvolvidas
35
abordagens para:
identificar genes diferencialmente expressos (entre tipos celulares, estágios de desen-
volvimento, condições patológicas, etc.);
identificar genes expressos de um modo coordenado entre um conjunto de condições;
identificar conjuntos de genes compartilhando o mesmo padrão de expressão, even-
tualmente definindo vias metabólicas.
O principal nos experimentos de expressão gênica diferencial é identificar os genes peculiares, os quais variam entre as duas condições, enquanto os genes ubı́quos não exibem essa
variação. As abordagens variam de acordo com a natureza dos dados, ou seja, o processo
pelo qual eles foram obtidos, por exemplo, se são dados baseados em seqüenciamento e
amostragem de tags ou baseados em intensidade de sinal de hibridação.
Recursos para a análise de dados de amostragem de tags
Uma caracterı́stica dos dados baseados em amostragem de tags é que não há muitas
réplicas e isso implica no fato de que não é possı́vel obter as estimativas dos erros padrões
a partir da dispersão dos dados. Nos métodos disponı́veis atualmente, a medida de variância é obtida a partir de simulações ou baseadas nas propriedades de distribuição da
tag (RUIJTER; KAMPEN; BAAS, 2002). De acordo com alguns trabalhos reportados
na literatura (CLAVERIE, 1999; CAI et al., 2004) o resultado da amostragem de tags
se aproxima de uma distribuição de Poisson ou de uma distribuição binomial ou multinomial (KAL et al., 1999; MAN; WANG; WANG, 2000), porém outros modelos foram
propostos (VENCIO; BRENTANI; PEREIRA, 2003; VENCIO et al., 2004; THYGESEN;
ZWINDERMAN, 2006; ZUYDERDUYN, 2007).
Há uma série de métodos estatı́sticos que foram desenvolvidos para a análise dos dados
e implementados em sistemas computacionais, entre eles estão os seguintes:
SAGE300 (ZHANG et al., 1997), determina para cada comparação pareada de tags
a probabilidade relativa de obter uma diferença na contagem igual ou maior do
que a diferença observada por meio da aplicação do método de Monte Carlo para a
simulação. A probabilidade resultante atua como um valor de significância (p-value)
em um teste de significância unilateral;
36
IDEG6 (ROMUALDI et al., 2003), um sistema web que possibilita a análise e a
aplicação de seis diferentes métodos estatı́sticos: o teste estatı́stico de Audic e Claverie (AUDIC; CLAVERIE, 1997), o teste exato de Fisher (FISHER, 1922), o teste
de χ 2 para comparações com amostras pareadas, o teste de Greller e Tobin (GRELLER; TOBIN, 1999), e o teste baseado na razão de verossimilhança (STEKEL; GIT;
FALCIANI, 2000), o teste de χ 2 para comparações com múltiplas amostras;
SAGEmap (LASH et al., 2000), sistema web disponı́vel no NCBI para a análise de
dados de SAGE aplicando o método proposto por Chen et al. (1998) e adaptado por
Lal et al. (1999);
SAGE Genie (LIANG, 2002), sistema web disponı́vel no CGAP para a análise de
dados de SAGE e também disponı́vel para ESTs, que calcula a razão (fold change)
e um valor de significância estatı́stica, aplicando o método descrito por Lal et al.
(1999);
WEBSAGE (PYLOUSTER; SENAMAUD-BEAUFORT; SAISON-BEHMOARAS,
2005), sistema web que permite a comparação pareada entre duas bibliotecas com
a aplicação do método de Audic e Claverie (1997) e a visualização do resultado
em um gráfico de dispersão, além de fornecer informações funcionais obtidas do
Kyoto Encyclopedia of Genes and Genomes (KEGG) (KANEHISA; GOTO, 2000),
BioCarta e Gene Ontology (GO) (HARRIS et al., 2004);
POWER SAGE (MAN; WANG; WANG, 2000), sistema que gera bibliotecas de
SAGE virtuais de diferentes tamanhos e freqüências de tags e determina o poder
para os testes estatı́sticos, de Audic e Claverie, χ 2 e Fisher;
USAGE (KAMPEN et al., 2000), sistema web integrado a um banco de dados com
informações de mapeamento de tags e um conjunto de bibliotecas públicas, que
possui várias ferramentas para extração de tags a partir das seqüências dos concatâmeros de SAGE, para consultas à base de dados, para realizar análises comparativas
aplicando o teste estatı́stico descrito por Kal et al. (1999) e para o planejamento de
futuros experimentos baseado no poder desse teste. O sistema USAGE oferece uma
área para o usuário manipular suas consultas e armazenar os resultados;
DiscoverySpace (ROBERTSON et al., 2007), um sistema que integra 26 bancos de
dados que contêm informações funcionais, de seqüências, expressão gênica e mapeamento de tags. Todas essas informações são reunidas em um único banco de dados
37
relacional, de onde é possı́vel consultar os dados de interesse, realizar análises comparativas (aplicando o teste estatı́stico de Audic e Claverie), visualizar o resultado
em um gráfico de dispersão, gerar conjuntos de tags especı́ficas, além de outras funcionalidades. Utiliza as especificações Resource Description Framework (RDF) do
consórcio World Wide Web Consortium (W3C) como linguagem de metadados para
a integração dos dados (WANG; GORLITSKY; ALMEIDA, 2005);
Identitag (KEIME et al., 2004), é um sistema que realiza a identificação das tags
em bancos de dados de seqüências gênicas, por meio de um processo em série que
classifica a identidade da tag em diversas situações. O processo de anotação fornece
uma conexão entre as seqüências de transcritos de diferentes espécies, baseada no
conceito de ortologia (FITCH, 1970), permitindo a comparação da abundância de
tags inter-espécies;
SQUAT (LEYRITZ et al., 2008) é um sistema que contém um banco de dados de ex-
pressão gênica com informações funcionais e ferramentas para aquisição de conhecimento a partir desses dados [Knowledge Discovery Database (KDD)] (data mining),
como agrupamentos hierárquicos (EISEN et al., 1998) e descoberta de padrões locais utilizando regras de associação e extração de conceitos formais (BESSON et al.,
2005), além de consultas, por exemplo, por conceito, tag ou gene;
SAGE Data Analysis (CAI et al., 2004), ferramenta que permite o agrupamento
de tags com perfis de expressão semelhantes, por meio de uma implementação do
algoritmo k-means com possibilidade de aplicação de uma distância baseada na
distribuição de Poisson;
Cluster3 (HOON et al., 2004), ferramenta para agrupamento hierárquico com a
opção de diversas distâncias e métodos de agrupamento de genes ou amostras;
Simcluster (VENCIO et al., 2007), ferramenta com acesso local e acesso web que
implementa um método que utiliza a inferência Bayesiana e a distância de Aitchison (AITCHISON, 2001) nos seguintes algoritmos: k-means, k-medoids e SelfOrganizing Maps (SOM) para o agrupamento em partições, Principal Component
Analysis (PCA) para inferir o número de fontes de variabilidades presentes, e por
último agrupamento hierárquico;
GEAP (PINHEIRO et al., 2002) é um sistema genérico para anotação de ESTs, no
qual as ESTs são avaliadas e processadas para então serem anotadas contra bancos
de dados de seqüências conhecidas.
38
A maioria das ferramentas descritas para a análise dos dados está disponı́vel apenas
para dados das espécies humana (Homo sapiens) e murina (Mus musculus).
A normalização dos dados é um procedimento comum ao lidar com dados de amostragem de tags, nos casos onde a medida de avaliação não leva em conta o tamanho da
biblioteca (e.g. fold change). O procedimento de normalização é realizado dividindo a
freqüência observada de cada uma das tags de uma biblioteca pelo somatório das freqüências de todas as tags dessa mesma biblioteca, multiplicando esse valor por 300.000 que é
o número estimado de RNAs por célula (VELCULESCU et al., 1999).
Esses dados em geral possuem ruı́dos inerentes às técnicas que podem gerar artefatos
(tags espúrias). Há inúmeras abordagens desenvolvidas para a detecção, remoção ou
correção de tais artefatos, especialmente no caso de ESTs [e.g. GEAP (PINHEIRO et al.,
2002)].
No caso de ESTs as abordagens no geral incluem a checagem de qualidade das leituras do seqüenciador, para eliminação de regiões de baixa qualidade, e o alinhamento
das seqüências com bancos de dados de seqüências já conhecidas, para identificar e eliminar regiões de vetores, primers ou outro contaminante, além da identificação de ESTs
quiméricas (SOREK; SAFER, 2003).
No caso das técnicas onde a tag é constituı́da por uns poucos nucleotı́deos (14 a 17-pb)
as estratégias são outras, e há outros problemas especı́ficos relacionados aos procedimentos das técnicas. Geralmente, a abordagem empregada para a remoção desses ruı́dos é
eliminar as tags com baixas freqüências, especialmente as que aparecem uma única vez
na biblioteca.
Margulies e Innis (2000) implementa em seu programa eSAGE, antes da extração das
tags, um filtro de tags que leva em consideração os valores de qualidade das bases obtidos com o programa phred (EWING et al., 1998). Colinge e Feger (2001) introduziram
uma abordagem para identificar as tags de SAGE cuja abundância é enviesada por erros
de seqüenciamento, sua abordagem é baseada no conceito de vizinhança, em que tags
abundantes podem contaminar tags cujas seqüências são similares (distância de edição
(GUSFIELD, 1997) igual a 1) ou então gerar novas tags. Essa abordagem assume uma
probabilidade constante de erro (probabilidade de 9,13% de ter 1 erro somente, considerando uma tag de 10-pb) e ajusta a freqüência das tags de acordo com a resolução de um
sistema de equações lineares.
Blades (2003) desenvolveu um procedimento para estimar as taxas de erros na seqüên-
39
cia da tag. Nesse estudo foi observada uma relação linear entre o número de cópias de
uma determinada tag e o número de tags vizinhas, dentre as quais estão as tags artefatos
(chamadas nesse estudo de shadows). A estimativa de erro é obtida por meio da transformação da inclinação da linha de regressão linear dessa relação. Nesse estudo foi proposto
um modelo para a identificação das tags artefatos e correção das freqüências das tags com
base nessa taxas estimações.
Beissbarth et al. (2004) desenvolveram um modelo de propagação dos erros nas seqüências em SAGE e sugeriram um algoritmo de maximização de expectativas Expectation
Maximization (EM) para corrigi-las de acordo com as seqüências observadas na biblioteca
e nas estimativas de erros de leitura (base-calling). Esse método ajusta as contagens de
tags e é capaz de parcialmente corrigir o vieses introduzidos por erros de seqüenciamento.
Akmaev e Wang (2004) desenvolveram um algoritmo (SAGEScreen) para a correção
de erros nas tags de LongSAGE (SAHA et al., 2002). Esse algoritmo envolve múltiplos
procedimentos que abordam o processamento das ditags e extração das tags, estimação de
taxas de erros empı́ricas a partir de tags abundantes, agrupamento de tags com seqüências
similares e testes estatı́sticos para as contagens observadas. Os resultados da aplicação
desse algoritmos em dados simulados indicam que ele é capaz de corrigir 78% dos erros
recuperáveis e reduzir a ocorrência de tags que aparecem uma única vez (singleton).
Recursos para a análise de dados de microarrays
Uma caracterı́stica peculiar dos dados de microarrays é a presença de muitas fontes de
flutuações aleatórias, tais como variações na quantidade de DNA fixado em cada ponto do
arranjo, diferenças na eficiência da marcação das sondas e em sua hibridação, diferenças
na detecção e quantificação dos sinais obtidos em cada ponto, dentre outras (FREEMAN;
ROBERTSON; VRANA, 2000).
Portanto, a normalização dos dados é necessária para minimizar tendências sistemáticas e obter um melhor aproveitamento dos dados (BUTTE, 2002). Com esse objetivo,
diversas estratégias de normalização foram desenvolvidas (QUACKENBUSH, 2002). É
usual aplicar transformações aos dados, a transformação logarı́tmica é freqüentemente
adotada (QUACKENBUSH, 2002; STEINHOFF; VINGRON, 2006), isso faz as variações
de intensidades ou diferenças menos dependentes das magnitudes absolutas e estabiliza
distribuições fortemente enviesadas (STEINHOFF; VINGRON, 2006). A distribuição lognormal é uma boa aproximação para os dados de microarrays (LöNNSTEDT; SPEED,
2001).
1.4 Bancos de Dados Biológicos
40
Ao longo dos anos foram desenvolvidos muitos métodos para o pré-processamento e
a análise dos dados de microarrays, e muitos deles estão implementados nos seguintes
recursos disponı́veis livremente para a comunidade cientı́fica:
Bioconductor (GENTLEMAN et al., 2004), é uma iniciativa de criação colabora-
tiva de programas de código aberto (open-source) e desenvolvimento aberto (opendevelopment) para Bioinformática e Biologia Computacional. O Bioconductor provê
uma série de métodos estatı́sticas e ferramentas gráficas para a análise de dados de
microarrays e outros dados genômicos. Além disso, o Bioconductor constitui uma
plataforma para o desenvolvimento de novos programas. As ferramentas para microarray englobam pré-processamento, análise de expressão gênica diferencial, anotação, visualização, métodos de aprendizado de máquinas, entre outras. Também
pode ser utilizado para análises de dados obtidos de outras tecnologias, inclusive
SAGE;
GenePattern (REICH et al., 2006), é uma poderosa plataforma que provê acesso
a uma série de ferramentas para análise de dados genômicos, de expressão gênica,
proteômica, SNP, pré-processamento, importação de dados, visualização de resultados, entre outros muitos outros módulos. Essa plataforma possui uma interface
gráfica que provê acesso fácil a essas ferramentas e permite a criação de processos
em série (pipelines) que permitem a reprodução in silico de uma pesquisa. Além de
um cliente especı́fico para o acesso ao servidor GenePattern, há também um cliente
via navegador de internet (browser ).
1.4
Bancos de Dados Biológicos
A cada ano há um aumento significativo na quantidade de dados biológicos disponı́veis, especialmente de seqüências de nucleotı́deos e proteı́nas. Esse acúmulo de dados,
que crescem de forma exponencial (Figura 3), é conseqüência de uma série de avanços
tecnológicos, em especial o desenvolvimento do seqüenciador automático de DNA (CA,
2007), que tornou viável e concreto o seqüenciamento de diversos genomas, incluindo o
genoma humano (LANDER et al., 2001; VENTER et al., 2001).
Nos últimos anos, esse crescimento tornou e se tornará cada vez mais evidente com a
produção de dados a partir dos seqüenciadores de nova geração (Seção 1.3.1). Esses recentes avanços suscitam o desenvolvimento de ferramentas capazes de oferecerem o suporte
necessário para a investigação desses dados e extração de conhecimento. Nesse contexto,
41
Figura 3:
Crescimento do número de seqüências e pares de bases de DNA depositadas no GenBank (BENSON et al., 2009) (Figura obtida do sı́tio do GenBank http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html).
a utilização de bancos de dados é fundamental, pois são ferramentas que permitem modelar, armazenar, recuperar e manipular informação. Os dados biológicos possuem certas
caracterı́sticas (ELMASRI; NAVATHE, 2006) que devem ser consideradas no projeto de
um banco de dados biológicos:
1. Alta complexidade, ou seja, exigindo estruturas e relacionamentos complexos para
a sua representação;
2. Grande quantidade e variabilidade;
42
3. Ritmo acelerado de alterações dos esquemas dos dados;
4. Diversas representações para o mesmo tipo de dado;
5. Maioria dos acessos são para leitura;
6. Necessidade de uma interface limitada para a maioria dos usuários, pois quanto
maior a flexibilidade menor a usabilidade;
7. O contexto do dado adiciona significado biológico;
8. Necessidade da definição e representação de consultas complexas;
9. Necessidade de acesso a versões anteriores dos dados.
O modelo de arquitetura de sistemas de bancos de dados biológicos geralmente utilizado é o modelo de três camadas (3-tier ) (Figura 4). As três camadas são: camada de
apresentação (interação com o usuário), camada de negócios (implementação da lógica da
aplicação) e camada de dados (Sistema de Gerenciamento de Banco de Dados (SGBD)).
Um dos grandes desafios da Bioinformática é o de integração dos dados biológicos. Há
ainda diversas barreiras que são encontradas: em muitos casos não existe um padrão para
os nomes de objetos nos bancos de dados; a definição para alguns conceitos biológicos
pode variar de acordo com o contexto; não há um padrão para acesso aos dados; os dados
estão em constante alteração e a atualização é uma necessidade constante. Dentre as
abordagens utilizadas para a integração dos dados a mais comum é a integração via links
de hipertexto. Nesse contexto, o conceito de web service pode ser uma solução possı́vel
para a integração desses sistemas e comunicação entre aplicações e bases de dados com
arquiteturas heterogêneas.
O Entrez (OSTELL, 2003) é o sistema de busca e recuperação de informação do NCBI.
O Entrez utiliza um sistema de indexação para diversas fontes de dados (Figura 5), possibilitando buscar, coletar o dado a partir de sua fonte, organizar e integrar as informações.
Os web services possuem um formato padronizado para a troca de informações através da internet, utilizando com esse propósito a linguagem Extensible Markup Language
(XML) e o protocolo Simple Object Access Protocol (SOAP), o qual é baseado em XML.
Esse protocolo especifica um modelo para a codificação e decodificação de informações
estruturadas, que podem trafegar na rede, geralmente por HyperText Transfer Protocol (HTTP). Atualmente há implementações de web services que provêm a recuperação
e a análise de dados biológicos. O European Bioinformatics Institute (EBI) disponibiliza
43
Figura 4: Arquitetura geral dos bancos de dados biológicos, que utilizam o modelo de três camadas,
consistindo de um Sistema de Gerenciamento de Banco de Dados (SGBD), do programa para acesso aos
dados e da interface web (Figura obtida de Stein (2003)).
livremente seus recursos de bioinformática (HARTE et al., 2004) não somente via seu
sistema de interface gráfica mas também por um web service baseado em XML/SOAP
(PILLAI et al., 2005).
1.4.1
Seqüências
Os bancos de dados de seqüências, os quais vêm inflando em ritmo acelerado ao
longo dos últimos anos, são fundamentais para as atividades em Bioinformática e Biologia
Computacional, por meio de análises e comparações é possı́vel encontrar similaridades ou
44
Figura 5: Diagrama exibindo os bancos de dados integrados no Entrez (OSTELL, 2003) e as
conexões entre eles. Cada banco de dados é representado por um cı́rculo colorido, onde a cor
indica o número aproximado de registro no banco de dados (Figura obtida do sı́tio do NCBI http://www.ncbi.nlm.nih.gov/Database/datamodel/index.html).
padrões que podem prover conhecimento.
De um modo geral, existem dois tipos de bancos de dados de seqüências gênicas: os
bancos de seqüências primários e os secundários. Os bancos de dados de seqüências primários são derivados diretamente dos dados obtidos a partir do seqüenciamento de ácidos
nucléicos ou proteı́nas e podem conter, além da seqüência em si, os dados complementares
de anotações. Os principais bancos de dados primários, para seqüências de nucleotı́deos
são o GenBank (BENSON et al., 2009), o EMBL-Bank (COCHRANE et al., 2009) e
o DNA Data Bank of Japan (DDBJ) (TATENO et al., 2002), que juntos compõem o
International Nucleotide Sequence Database Collaboration (INSDC)2 , e para seqüências
2 http://www.insdc.org
45
de aminoácidos, o UniProt (APWEILER et al., 2004). O GenBank engloba seqüências
completas de clones de cDNA full-length Open Reading Frame (ORF), como as oriundas
do Mammalian Gene Collection (MGC) (STRAUSBERG et al., 1999), e as demais ESTs
que são depositadas no dbEST (BOGUSKI; LOWE; TOLSTOSHEV, 1993).
Os bancos de dados de seqüências secundários, contêm informações derivadas dos
bancos de dados de seqüências primários, entre eles estão os seguintes:
RefSeq (PRUITT; TATUSOVA; MAGLOTT, 2005), que é uma coleção curada de
seqüências não redundantes representando dados de DNA genômico, de transcritos
e de proteı́nas;
UniGene (SCHULER, 1997), que é uma coleção de clusters de seqüências que são
similares entre si de acordo com os parâmetros de um sistema automático de análise
de seqüências, que engloba seqüências bem caracterizadas e ESTs;
trEST (PAGNI et al., 2001), que é um banco de dados de seqüências virtuais de
proteı́nas hipotéticas derivadas de seqüências consenso de clusters de ESTs analisadas com ESTscan (ISELI; JONGENEEL; BUCHER, 1999; LOTTAZ et al., 2003),
o qual procura corrigir a maioria dos erros de deslocamento do quadro de leitura
(frameshift) predizendo a sua correta localização na EST (ORF);
trGEN (PAGNI et al., 2001), que é um banco de dados de seqüências virtuais de
proteı́nas hipotéticas derivadas de regiões de seqüências de DNA genômico de genes
preditos utilizando o Genscan (BURGE; KARLIN, 1998).
1.4.2
Ontologias
Em Ciência da Computação ou Ciência da Informação, uma ontologia é uma especificação formal de uma conceitualização (GRUBER, 1993), útil para definir um vocabulário
comum no qual o conhecimento pode ser representado e compartilhado. Ontologias geralmente descrevem indivı́duos (objetos básicos), classes (conjuntos, coleções ou tipos de
objetos), atributos (propriedades, caracterı́sticas ou parâmetros que os objetos podem ter
e compartilhar) e relacionamentos (formas como os objetos podem se relacionar uns com
os outros). O desenvolvimento de ontologias são fundamentais para promover a integração
dos bancos de dados biológicos. Atualmente há um consórcio, nomeado Open Biomedical
Ontologies (OBO) consortium (SMITH et al., 2007), que reúne iniciativas para promover
o desenvolvimento e a expansão de ontologias relacionadas às áreas biológicas e biomé-
46
dicas. Entre essas iniciativas estão os projetos Gene Ontology (HARRIS et al., 2004) e
Sequence Ontology (EILBECK et al., 2005). Um outro projeto que pertence ao consórcio
OBO é o eVOC (KELSO et al., 2003), um vocabulário controlado para a integração dos
dados de expressão gênica, que provê um conjunto detalhado de termos para descrever
a origem das amostras. As ontologias no eVOC são desenvolvidas em quatro domı́nios
mutuamente exclusivos: Sistema Anatômico, Tipo Celular, Estágio de Desenvolvimento
e Patologia.
Gene Ontology
O Gene Ontology consortium, ou simplesmente GO (HARRIS et al., 2004), é uma
iniciativa para produzir vocabulários estruturados e controlados, e classificações que compreendem muitos domı́nios da Biologia Molecular e Celular e que podem ser utilizados
para a anotação de genes, produtos gênicos e seqüências. O objetivo do GO inclui ainda
prover um repositório de acesso público para as ontologias, os conjuntos de dados de
anotação e as ferramentas desenvolvidas que utilizam os dados do GO.
O GO provê ontologias para descrever atributos de produtos gênicos em 3 domı́nios
da Biologia Molecular que não se sobrepõem:
Função Molecular (Molecular Function), o qual descreve uma atividade gênica no
nı́vel molecular;
Processo Biológico (Biological Process), o qual descreve uma meta biológica alcan-
çada pela realização de um ou mais funções moleculares ordenadas;
Componente Celular (Cellular Component), o qual descreve as localizações, no nı́vel
de estruturas subcelulares e complexos de macromoléculas.
As anotações do GO indicam o tipo de evidência que suporta a associação entre um produto gênico e um termo do GO. Um conjunto padrão de códigos de evidência qualifica as
anotações com respeito aos diferentes tipos de determinações experimentais, que pode ser
um ensaio experimental direto para determinar a função do gene, a qual é mais confiável
do que o resultado de uma predição computacional. Os termos do GO estão relacionados
entre si como uma estrutura de um grafo acı́clico direcionado, esses relacionamentos podem ser de dois tipos (“is-a” e “part-of ”). Como essas associações e relacionamentos são
dinâmicas, o GO possui curadores que realizam uma revisão constante.
47
Para prover anotações de alta qualidade de produtos gênicos utilizando os termos do
GO, o EBI desenvolveu o banco de dados Gene Ontology Annotation (GOA) (CAMON
et al., 2004), o qual é um repositório central para outros grandes repositórios de dados
para múltiplas espécies tais como o do NCBI e do Ensembl. O processo geral de anotação
envolve uma anotação eletrônica e uma anotação manual de alta qualidade feita por grupos
de anotação especializados. Esse esforço assegura que o banco de dados GOA se mantenha
como uma referência chave para anotações do GO.
1.4.3
Vias metabólicas
A quantidade de informações genômicas adquiridas ao longo dos anos permite a compreensão de um organismo como um complexo sistema de interações moleculares. Essas
interações moleculares promovem uma série de reações quı́micas onde uma reação fornece
o substrato da reação seguinte sendo a reação seguinte dependente da anterior. Essa série
de reações inter-relacionadas para a transformação (metabolismo) de substâncias quı́micas
é nomeado via metabólica. As diversas vias metabólicas relacionam-se entre si de forma
complexa, de forma a permitir uma regulação adequada para que o organismo mantenha
a sua homeostase. Enquanto os projetos de seqüenciamento de genomas determinam os
genes para um grande número de organismo, as anotações funcionais desses genes ainda
permanecem incompletas. As principais iniciativas para catalogar as vias metabólicas
relacionando-as às moléculas e genes envolvidos no processo metabólico, são o KEGG
(KANEHISA; GOTO, 2000), o qual está disponı́vel para diversas espécies, e o BioCarta3 ,
disponı́vel apenas para Homo sapiens e Mus musculus. O KEGG (KANEHISA; GOTO,
2000) é uma iniciativa do Japão para relacionar as informações dos projetos genomas com
informações funcionais de ordem superior, pela informatização do conhecimento atual dos
processos celulares e padronizando a anotação gênica. O KEGG engloba 4 bancos de
dados integrados:
PATHWAY - representação das funções gênicas de ordem superior por meio de uma
rede de interações de moléculas;
GENES - catálogo dos genes para todos os genomas completos e alguns incompletos;
LIGAND - coleção dos componentes quı́micos na célula, enzimas e reações enzimá-
ticas (GOTO; NISHIOKA; KANEHISA, 2000);
3 http://www.biocarta.com/genes/index.asp
48
BRITE - coleção de ontologias representando hierarquias funcionais de diversos as-
pectos dos sistemas biológicos, incorporando ao KEGG PATHWAY tipos diferentes
de relacionamentos (KANEHISA et al., 2008).
O KEGG PATHWAY em sua versão 50.0+/04-07, de Abril de 2009, possui 94.339 vias
metabólicas geradas a partir de 326 vias metabólicas de referência. O BioCarta é um
banco de dados curado de vias metabólicas com ênfase nos vias de sinalização celular. O
BioCarta é constituı́do por um esforço colaborativo da comunidade cientı́fica para integrar
informações de interações moleculares. O banco de dados contém um catálogo para cerca
de 120.000 genes. As vias são representadas por fluxogramas interativos.
1.4.4
Regulação da Expressão Gênica
A expressão dos genes podem ser reguladas de forma temporal e espacial por diversos
mecanismos distintos em todas as etapas no fluxo da informação genética. Apesar de existirem diversos mecanismos atuando no controle da expressão gênica no nı́vel de tradução
e pós-tradução, trabalhos reportados na literatura cientı́fica (MOORE, 2005; LEVINE;
TJIAN, 2003) indicam que o controle pós-transcricional da expressão gênica em organismos eucariotos é muito mais amplo e elaborado do que se estimava anteriormente, sendo
o mRNA o canal central no fluxo da informação genética. Portanto, o estudo desses mecanismos, que controlam a sı́ntese de RNA, seu processamento, dobramento, maturação,
transporte e degradação, é fundamental para a compreensão da regulação da expressão
gênica em determinada população de células.
A transcrição dos genes eucarióticos requer a interação entre elementos cis-atuantes
(e.g. motivos - motifs - na região promotora, reforçadores - enhancers) e elementos transatuantes (e.g. fatores de transcrição). Para oferecer suporte aos estudos de expressão
gênica também há bancos de dados de elementos reguladores, em especial:
TRANSFAC - catálogo de fatores de transcrição com seus sı́tios e perfis de ligação
(WINGENDER et al., 2000);
TRRD - coleção de informações sobre regiões regulatórias, suas propriedades e ar-
quitetura (KOLCHANOV et al., 1999);
COMPEL - compreende informações especı́ficas sobre elementos regulatórios com-
postos (KEL-MARGOULIS et al., 2000).
49
Além das regiões regulatórias e da ação de fatores de transcrição, há outros mecanismos
celulares que regulam a expressão gênica, entre eles estão os pequenos RNAs não codificadores [e.g., microRNAs (BARTEL, 2004)] e messenger ribonucleoproteins (mRNPs),
os quais são também elementos reguladores formados por um complexo constituı́do de
mRNA e proteı́nas complementares.
microRNAs
Os microRNAs (BARTEL, 2004) são pequenas moléculas de RNA endógeno não codificante (aproximadamente 22 nt), os quais exercem papéis importantes na regulação da
expressão gênica em animais (AMBROS, 2004) e plantas (REINHART et al., 2002), por
meio da clivagem ou repressão da tradução de mRNAs, com os quais possuem certa complementaridade (alvos dos miRNAs). A biogênese do miRNA, inicia-se com a transcrição
de seu gene pela RNA polimerase II, sintetizando o miRNA primário (pri-miRNA) que
contém Cap 5’ e cauda poli(A). O pri-miRNA apresenta uma estrutura de hairpin que é
clivada ainda no núcleo pela RNase III DROSHA (RNASEN) e seu co-fator DGCR8, gerando uma molécula precursora do miRNA maduro, denominada pré-miRNA. Em seguida,
o pré-miRNA é transportado ao citoplasma pela exportina-5 (XPO5). No citoplasma, o
pré-miRNA é processado pela RNase III DICER (DICER1), gerando um miRNA fita
dupla de aproximadamente 22 nucleotı́deos. Este produto é incorporado a um complexo
multimérico denominado RNA-induced silence complex (RISC). Apenas uma das fitas do
duplex de miRNA permanece no complexo RISC, podendo se ligar aos seus mRNAs alvos,
bloqueando a tradução ou direcionando a molécula à degradação.
Os microRNAs podem estar localizados em regiões intergênicas do genoma, e possuir
sua própria unidade de transcrição, ou podem ser encontrados em regiões de genes hospedeiros codificadores de proteı́nas ou não, neste caso podem ser localizados no intron, no
exon ou então nas junções exon/intron.
No caso dos microRNAs intrônicos, há estudos com evidências de que eles possuam
uma via metabólica alternativa distinta, independente da enzima DROSHA, tais estudos
os classificam em uma classe à parte de precursores de miRNAs e os chamam de mirtrons
(RUBY; JAN; BARTEL, 2007).
Devido à sua importância, foi estabelecido um sistema uniforme para a anotação e
caracterização de microRNAs (AMBROS et al., 2003). A principal base de dados de
microRNAs é o miRBase (GRIFFITHS-JONES, 2004; GRIFFITHS-JONES et al., 2006,
2008), onde que possui um repositório primário para seqüências publicadas de microRNAs,
50
com suas respectivas anotações e predições de alvos, além de ferramentas para a consulta,
anotação e análise dos dados. O miRBase foi estabelecido pelo Wellcome Trust Sanger
Institute4 . O miRBase em sua versão 13.0, de Março de 2009, possui 9539 registros de
seqüências, dos quais 706 são de humanos (Homo sapiens).
Uma outra fonte de dados para estudos de microRNAs animais é o miRGen (MEGRAW et al., 2007), que é um banco de dados integrado que provê informações de
relacionamentos posicionais entre os miRNAs e as anotações genômicas providas pelo
UCSC Genome Browser (KENT et al., 2002) e conjuntos de alvos de microRNAs preditos por diferentes programas computacionais ou suportados experimentalmente [TarBase
(SETHUPATHY; CORDA; HATZIGEORGIOU, 2006)]. O miRGen oferece também a
combinação entre os conjuntos, podendo obter a união ou a interseção dos dados.
1.4.5
Expressão Gênica
Dados de expressão gênica, obtidos de transcritos ou de proteı́nas, são considerados
fontes valiosas para a compreensão de sistemas biológicos complexos. O crescimento da
quantidade de dados ao longo dos anos incita a demanda por recursos computacionais
para armazená-los de forma a permitir a recuperação eficiente da informação e a análise
dos dados para a aquisição de conhecimento (data mining).
Gene Expression Omnibus
O projeto do Gene Expression Omnibus (GEO) (EDGAR; DOMRACHEV; LASH,
2002; BARRETT et al., 2005) é uma iniciativa do NCBI em resposta à demanda crescente de um repositório público para dados heterogêneos de expressão gênica e hibridação
genômica. O GEO possui um modelo de dados flexı́vel que atende as necessidades de
submissão, armazenamento e recuperação de informação para tipos distintos de dados,
tais como os gerados por experimentos de expressão gênica em larga-escala, hibridação
genômica, e microarrays de anticorpos. O objetivo do GEO é atuar como um repositório
central para o armazenamento e disponibilização de dados de abundância de moléculas
(e.g. mRNA, DNA genômico, e proteı́nas) em termos relativos ou absolutos. O GEO é
considerado um banco de dados primário para dados de expressão gênica assim como o
GenBank é para os dados de seqüências.
Os dados são armazenados em um banco de dados relacional, onde os dados não
4 http://www.sanger.ac.uk
51
estão completamente granulados, para garantir flexibilidade, ou seja, são armazenados
como objetos textuais. O GEO utiliza para o banco de dados três entidades principais de
dados:
Plataforma (platform) - define a configuração dos parâmetros que são utilizados
para a obtenção dos dados (e.g. tecnologia, espécie, sondas, etc.).
Amostra (sample) - define os dados obtidos sob uma determinada plataforma, a
qual deve ser previamente definida.
Série (series) - organiza as amostras em conjuntos de dados significativos que repre-
sentam o experimento de interesse.
Cada instância dessas três entidades é associada a um número de acesso único e estável,
cujo prefixo indica se o registro é uma Plataforma (GPL), Amostra (GSM) ou Série (GSE).
Os recursos do GEO estão em constante desenvolvimento para aperfeiçoar a indexação,
a ligação a busca e a visualização dos dados de forma a permitir a análise dos dados
(BARRETT et al., 2005). Atualmente no GEO há 309105 amostras, as quais foram
obtidas de 5891 plataformas distintas, e estão organizadas em 12232 séries.
Plataformas especı́ficas
Além do GEO, que disponibiliza dados de uma série de plataformas heterogêneas,
há outros bancos de dados públicos que disponibilizam dados de expressão gênica para
plataformas especı́ficas.
microarrays
Para dados de microarrays há um outro repositório principal, o ArrayExpress (BRAZMA
et al., 2003) do EBI, que armazena os dados e a anotação de acordo com o padrão Minimum Information About a Microarray Experiment (MIAME) (BRAZMA et al., 2001)
e o formato Microarray Gene Expression Markup Language (MAGE-ML) (SPELLMAN
et al., 2002) desenvolvidos pela sociedade Microarray Gene Expression Data (MGED)5 e
a Object Management Group (OMG)6 , para assegurar que seus dados sejam facilmente
interpretados e os resultados derivados de suas análises possam ser verificados. O ArrayExpress registra 239.182 ensaios e 8.146 experimentos.
5 http://www.mged.org
6 http://www.omg.org
52
EST Based Expression
Para dados de expressão baseados em seqüenciamento de EST além do UniGene
(SCHULER, 1997), há outros bancos de dados e sistemas de bancos de dados que permitem consulta e análise, muitos deles especı́ficos para determinadas espécies. A idéia é
basicamente a identificação do gene de origem de cada uma das ESTs, o agrupamento em
clusters e a contagem de seqüências observadas em cada cluster, que em teoria identificam um único gene. Dentre as diversas fontes de dados e informações de ESTs estão os
seguintes:
BodyMap (HISHIKI et al., 2000; SESE et al., 2001), um banco de dados baseado
em ESTs 3’, obtidas a partir de fragmentos de moléculas de cDNA após digestão
com a enzima MboI (GATC), isso permite um agrupamento inequı́voco de tags que
representam o mesmo transcrito e provê informação da abundância para cada transcrito em diferentes tecidos humanos e murinos. O BodyMap também possui dados
de introduced Amplified Fragment Length Polymorphism (iAFLP) (KAWAMOTO
et al., 1999).
BodyMap-Xs (OGASAWARA et al., 2006), um banco de dados para comparações
de expressão gênica inter-espécies, criado com as ESTs do DDBJ. As comparações
são baseadas em informações de genes ortólogos.
TIGR Gene Indices (QUACKENBUSH et al., 2001), uma coleção de bancos de
dados espécies-especı́ficas de ESTs, as quais são submetidas a um protocolo de
análise refinada para a identificação dos genes de origem.
Serial Analysis of Gene Expression
Os dois principais repositórios de dados públicos de SAGE além do GEO, são o SAGEmap (LASH et al., 2000) do NCBI, e o SAGE Genie (LIANG, 2002) do CGAP, ambos
provêm além dos dados brutos, as relações entre as tags e os genes (tag ⇔ UniGene).
Porém ainda há muitos outros repositórios especı́ficos de uma determinada espécie ou
tipo celular, como os seguintes:
Mouse SAGE Site (DIVINA; FOREJT, 2004) que contém dados de tecidos e linha-
gens celulares de camundongos distribuı́dos entre 94 bibliotecas;
TgSAGEDB (RADKE et al., 2005) que contém dados das diferentes etapas do ciclo
de vida do protozoário causador da toxoplasmose (Toxoplasma gondii ).
53
BovSAGEDB (GRAFF et al., 2006) que contém doze bibliotecas geradas a partir
de linfócitos bovinos.
GermSAGE (LEE et al., 2009) que contém três bibliotecas de células germinativas
murinas em diferentes estágios da espermatogênese.
Além desses ainda há outros repositórios, porém muitos deles não disponibilizam os dados
completos, e possuem poucos ou nenhum recurso funcional para consulta ou aquisição dos
dados, outros já depositaram os seus dados no GEO.
Massively Parallel Signature Sequencing
Os dados de MPSS podem também ser encontrados nos seguintes bancos de dados
públicos:
Plant MPSS (NAKANO et al., 2006), repositório de dados de MPSS, o qual ar-
mazena dados de diversas espécies de plantas e de um fungo patógeno de plantas
(Magnaporthe grisea). Nesse repositório há também dados de MPSS e SBS para
pequenos RNAs de Arabidopsis thaliana;
MPSS Stem Cell (WEI et al., 2005), repositório de dados de MPSS de células
tronco-embrionárias humanas e murinas do Genome Institute of Singapore (GIS);
LICR MPSS (JONGENEEL et al., 2005), arquivos de dados de MPSS do Ludwig
Institute for Cancer Research (LICR), o qual armazena dados de 32 tecidos humanos
normais.
1.4.6
Genoma
Após o seqüenciamento completo de um genoma, é necessário analisá-lo, e a primeira
etapa é associar as diversas informações existentes orientando-se pelas coordenadas da
seqüência obtida. O banco de dados do UCSC Genome Browser (KENT et al., 2002),
permite navegar visualizar qualquer porção de um genoma, em qualquer escala, juntamente com as informações mapeadas (tracks) através do alinhamento de seqüências. Entre as informações estão as seqüências dos contigs e os gaps da montagem, seqüências de
mRNAs e ESTs, múltiplas predições gênicas, homologia entre espécies, SNPs, repetições
transposons, microRNAs, entre outros.
54
2
Objetivos
O objetivo central deste trabalho é desenvolver uma plataforma online para análise
computacional de perfis de expressão gênica obtidos por meio de técnicas que permitem
a quantificação de transcritos gênicos em larga escala, tais como SAGE, MPSS e SBS.
Os objetivos especı́ficos estão discriminados a seguir:
1. Desenvolver um método para avaliação e depuração das bibliotecas de tags, com o
objetivo de excluir tags espúrias ou contaminantes. Esta atividade inclui:
Implementar um sistema para classificar a confiabilidade das tags utilizando
parâmetros pré-estabelecidos baseados no mapeamento em bancos de dados de
tags virtuais e nas freqüências observadas de cada tag nas bibliotecas;
Estabelecer os parâmetros adequados para a seleção das tags válidas;
Avaliar a capacidade de obter dados fidedignos;
Aplicar o método às bibliotecas de expressão gênica;
Disponibilizar os recursos desse sistema na internet por meio de uma interface
web;
2. Constituir um repositório de dados de expressão gênica e informações funcionais.
Além de desenvolver o sistema para gerenciar, disponibilizar, processar e consultar
os dados. Nesse caso, as atividades serão as seguintes:
Modelar e implementar uma base de dados relacional que possibilite incluir
dados de repositórios públicos e gerados por laboratórios associados;
Carregar os dados dos bancos de dados biológicos que serão utilizados;
Implementar os métodos de processamento dos dados e de avaliações estatı́sti-
cas;
Implementar os métodos de acesso e consulta aos dados;
2 Objetivos
55
Disponibilizar os recursos desse sistema na internet por meio de uma interface
web utilizando HTTP;
Disponibilizar métodos de consulta aos dados utilizando SOAP.
Carregar o resultado da análise de depuração;
56
3
Material e métodos
A seguir serão descritos os dados, as ferramentas e os métodos para o desenvolvimento
da plataforma para análise computacional de perfis de expressão gênica transcricionais. A
plataforma desenvolvida inclui dois sistemas principais. O primeiro sistema (Seção 3.2),
nomeado Hyper- and Hypo-expressed Genes (H2G), armazena os dados de experimentos,
obtidos de repositórios públicos e de laboratório associados, relaciona e integra informações
para estudos de genômica funcional e engloba ferramentas que permitem identificar genes
diferencialmente expressos. O segundo sistema (Seção 3.3), nomeado Score System for
Sequence Tags (S3T) (PINHEIRO et al., 2009), permite a classificação e a filtragem das
tags consideradas contaminantes nos experimentos baseados em seqüenciamento de tags.
Os dois sistemas estão integrados, o H2G utiliza o resultado da classificação do S3T, que
por sua vez, utiliza as informações sobre a freqüência de tags contidas no H2G como um
dos critérios para a classificação.
3.1
Plataforma de desenvolvimento dos sistemas
Os principais algoritmos foram implementados na linguagem de programação Practical Extraction and Report Language (Perl)1 (v5.8.7) com o auxı́lio de diversos módulos,
os quais são disponibilizados pelo Comprehensive Perl Archive Network (CPAN)2 . A
linguagem de programação R3 foi utilizada para cálculos estatı́sticos. Os paradigmas de
programação, orientado a objetos e estruturado, foram empregados, de acordo com a
necessidade e complexidade da estrutura de dados requerida.
Os sistemas foram desenvolvidos sob a arquitetura cliente-servidor, com comunicação
através da internet, onde o cliente que pode ser qualquer navegador para internet (e.g. Mozilla Firefox e Microsoft Internet Explorer), faz requisições a um servidor HTTP Apache
(v2.0.55). A interface com o usuário foi construı́da utilizando código HyperText Markup
1 http://www.perl.com
2 http://www.cpan.org
3 http://www.r-project.org
3.1 Plataforma de desenvolvimento dos sistemas
57
Figura 6: Diagrama de integração entre os sistemas H2G e S3T. O H2G utiliza o S3T para a classificação
das tags das bibliotecas contidas em sua base de dados. O S3T utiliza em seu processo de classificação
os dados de freqüência das tags que estão contidas na base de dados do H2G. O acesso aos dados do
H2G pode ser por meio da conexão direta utilizando os métodos de busca do H2G (1) ou utilizando os
métodos disponı́veis via SOAP (2). A atualização da classificação das tags no H2G é um procedimento
realizado periodicamente.
Language (HTML), JavaScript e Cascading Style Sheets (CSS). O conceito Asynchronous Javascript And XML (AJAX) (GARRETT, 2005) foi empregado em alguns casos
somente.
No geral, os programas que compõem os sistemas desenvolvidos são empregados nas
seguintes tarefas:
Extrair informações de arquivos, utilizando quando necessário e possı́vel os módulos
do projeto BioPerl4 (STAJICH et al., 2002) (e.g. para a extração de informações de
seqüências de nucleotı́deos);
Processar os dados;
Aplicar métodos estatı́sticos, por intermédio do módulo RSPerl5 , o qual permite
estabelecer uma conexão com o ambiente da linguagem R a partir de um programa
em Perl, possibilitando a execução de métodos próprios da linguagem R;
Interagir com o SGBD via módulo DBI, que é a implementação de uma Application
Programming Interface (API) para a conexão, manipulação e consulta de dados que
estão no SGBD;
4 http://www.bioperl.org
5 http://www.omegahat.org/RSPerl
3.1 Plataforma de desenvolvimento dos sistemas
58
Interagir com o servidor HTTP Apache via Common Gateway Interface (CGI),
utilizando o módulo CGI;
Gerar dinamicamente a interface web [Graphical User Interface (GUI)] com o au-
xı́lio do módulo BiT::Template, desenvolvido pelo nosso laboratório [Laboratório de
Genética Molecular e Bioinformática (LGMB)]. Essa biblioteca utiliza os módulos
CGI e HTML::Template, permitindo separar o código da aplicação do código para
a construção da interface, a qual contém os links e formulários para o acesso às
aplicações;
disponibilizar métodos de consulta aos dados via SOAP utilizando o módulo Perl
SOAP::Lite.
Os bancos de dados do H2G e do S3T foram constituı́dos utilizando o modelo de dados
relacional e o SGBD MySQL6 . As tabelas são do tipo MyISAM7 , o qual garante alto desempenho para leitura e escrita quando o acesso concorrente é baixo. A principal deficiência desse tipo de tabela é não suportar transações (DATE, 2003). A linguagem que interage
com o MySQL é a Structured Query Language (SQL), uma linguagem declarativa inspirada na álgebra relacional, para a definição, manipulação, controle e consulta de dados. A
modelagem do banco de dados foi feita com o Diagrama Entidade-Relacionamento (DER)
utilizando o programa DBDesigner48.
O H2G e o S3T foram desenvolvidos em ambiente Linux utilizando softwares livres9 .
O H2G atualmente está instalado em um computador servidor com 2 processadores Intel®Pentium®III CPU S @ 1.40 GHz com 1 Gb de memória RAM e sistema operacional
Linux Red Hat 810 . O S3T atualmente está instalado em um computador servidor com
2 processadores Intel®Xeon®CPU E5410 @ 2.33 GHz com 8 Gb de memória RAM e
sistema operacional Linux CentOS 411 . Os sistemas estão disponı́veis online pela internet
(Seção 4.1.3 e 4.2.2).
6 http://www.mysql.com
7 http://dev.mysql.com/doc/mysql/en/myisam-storage-engine.html
8 http://fabforce.net/dbdesigner4/
9 http://www.gnu.org/philosophy/free-sw.html
10 http://www.redhat.com
11
http://www.centos.org
3.2 H2G - Hyper- and Hypo-expressed Genes
3.2
59
H2G - Hyper- and Hypo-expressed Genes
O sistema H2G compreende uma base de dados e um conjunto de ferramentas que
podem ser acessı́veis por meio da interface gráfica via internet, e via prompt do Sistema
Operacional (SO) (Figura 7). As tecnologias suportadas pelo H2G são: SAGE (VELCULESCU et al., 1995) convencional e suas variações (SAHA et al., 2002), MPSS (BRENNER
et al., 2000a) e baseadas em SBS (HANRIOT et al., 2008). O banco de dados armazena e
integra os dados de expressão gênica e as informações funcionais relacionadas. O conjunto
de ferramentas disponı́veis via interface gráfica permitem a consulta, análise e manipulação dos dados de acordo com o privilégio definido por um sistema de autenticação, o
qual delimita a área do sistema que o usuário pode acessar, essa área pode ser pública ou
pertencer a um projeto privado que previamente deve ser cadastrado pelo administrador
do sistema. No caso da área pública o usuário pode se cadastrar livremente via internet
por meio de um formulário web, no caso de projetos privados o cadastro do usuário é feito
pelo administrador do sistema. Para a utilização dos recursos é necessário a autenticação
no sistema.
No H2G são encontrados os seguintes conceitos:
Plataforma (Platform) - base sob a qual experimentos de expressão gênica são con-
duzidos (e.g. a plataforma SAGE:10:NlaIII representa a tecnologia SAGE com tags
de 10-pb obtidas com a enzima âncora NlaIII );
Projeto (Project) - domı́nio dentro da aplicação baseado na definição de um projeto
(e.g. PUBLIC);
Experimento
obtidos de
(Experiment) - compreende
uma
mesma
os dados de expressão
amostra utilizando a
mesma
gênica
plataforma (e.g.
SAGE Bone marrow normal B D01 );
Análise (Analysis) - é uma análise de expressão gênica diferencial envolvendo dois
ou mais experimentos.
3.2.1
Repositório de Dados de Expressão Gênica
O repositório público de dados de expressão gênica foi constituı́do principalmente com
os dados disponı́veis publicamente no CGAP SAGE Genie12 (LIANG, 2002) no NCBI
12 http://cgap.nci.nih.gov/SAGE
60
Figura 7: Diagrama geral do fluxo da informação no sistema H2G. Nas nuvens que representam a
internet, estão os bancos de dados biológicos de onde são obtidos os dados armazenados no banco de dados
H2G e os serviços web disponı́veis (SOAP e CGI). Os dados externos são submetidos a algoritmos de
análise sintática (parsing) especı́ficos para cada formato, após esse processo os dados podem ser inseridos
no banco de dados H2G. Os processos de consultas e análises dos dados podem ser invocados por meio da
interface web CGI. Consultas aos dados também podem ser realizadas por meio de um servidor SOAP.
Os dados de expressão gênica (bibliotecas de SAGE, MPSS e SBS) são submetidos à análise do S3T e o
resultado dessa análise é armazenado no banco de dados H2G.
SAGEmap13 (LASH et al., 2000) e no GEO14 (BARRETT et al., 2005).
Os dados para a associação entre tag e gene, para tags de SAGE de 10-pb e 17-pb
foram obtidos do SAGE Genie para as espécies Homo sapiens e Mus musculus, para as
demais espécies os dados foram obtidos do SAGEmap. Esses dados incluem as associações
da melhor tag para determinado gene (best tag) e do melhor gene para determinada tag
(best gene). O gene nesse caso é representado por um número de acesso de um cluster do
UniGene. Os dados para a associação entre as tags de MPSS e os respectivos genes foram
obtidos dos arquivos do LICR15 (JONGENEEL et al., 2005).
Os dados das espécies foram obtidas do banco de dados de taxonomias do NCBI
(SAYERS et al., 2009). Os dados de cada cluster de transcritos (UniGene) foram obtidos
do repositório do UniGene. Os dados de produtos gênicos, incluindo o GO foram obtidos
do repositório Entrez Gene (MAGLOTT et al., 2007) no NCBI, o qual contém as anotações do banco de dados GOA (CAMON et al., 2004). As informações de vias metabólicas
13 http://www.ncbi.nlm.nih.gov/projects/SAGE/
14 http://www.ncbi.nlm.nih.gov/geo/
15
http://mpss.licr.org
61
foram obtidas do repositório do KEGG e do repositório do CGAP, o qual armazena os
dados providos pelo BioCarta. As informações de microRNAs e seus genes alvos foram
obtidas do repositório do miRGen (MEGRAW et al., 2007). As informações sobre o conteúdo armazenado no H2G e as suas fontes originais estão resumidamente relacionadas na
Tabela 1. Todas esses dados foram inseridos e relacionados no banco de dados relacional
do H2G 16 utilizando programas de importação, os quais utilizam a correspondência de padrões baseados em expressões regulares (WALL, 2000) que são elaboradas especificamente
para o formato do arquivo de cada fonte de dados, para reconhecer o conteúdo, analisar
e fazer a importação. Para a obtenção dos dados do GEO que estão no formato MINiML
17
foi desenvolvido um programa utilizando os métodos do módulo Perl XML::Parser.
Análise de Expressão Gênica Diferencial
A ferramenta para detecção de expressão gênica diferencial foi desenvolvida para comparar de forma pareada dois conjuntos (pools) de bibliotecas do mesmo tipo de tecnologia.
Os pools consistem de uma ou mais bibliotecas que são selecionadas e alocadas em cada
um dos pools (A e B). Neste momento os dados das bibliotecas podem ser filtrados de
acordo com a metodologia descrita no S3T (Seção 3.3). Os dados de configuração da análise são armazenados na área do usuário. As freqüências das tags são normalizadas por
um valor definido (tipicamente 300.000) ou pelo valor padrão que é o maior valor entre
os totais de tags dos dois pools. Para constituição das freqüências das tags em cada pool
é obtida a média das freqüências normalizadas das tags nas bibliotecas que pertencem ao
pool. O pool B é a referência e para facilitar a distinção os valores negativos representam
tags mais expressas no pool A em relação ao pool B, os valores positivos representam o
contrário.
Atualmente as medidas para avaliar a expressão gênica diferencial que estão implementadas são as seguintes:
Diferença - subtração entre os valores de cada pool ;
Razão (fold-change) - razão obtida da divisão entre os valores de cada pool ;
Razão (signal-to-noise) - medida de correlação proposta por Golub et al. (1999) que
mede a separação relativa entre as classes dos pools. Essa medida reflete a diferença
16 http://gdm.fmrp.usp.br/cgi-bin/h2g/index.pl/alone?project
id=1;platform id=1;template file=help
17 http://www.ncbi.nlm.nih.gov/projects/geo/info/MINiML.html
62
Tabela 1: Fontes originais dos dados contidos no H2G relacionadas por tipo de informação, dados que
são extraı́dos e para quais espécies os dados podem ser obtidos.
Informação
Dados
Espécies
Fonte
1
Taxonomia
Taxonomy ID; Descrição
*
NCBI
Expressão Gênica
(SAGE/SBS)
Tag; Freqüência; Dados da amostra
Hs; Mm
SAGE
GEO 3
Expressão Gênica Tag; Freqüência; Dados da amostra
(SAGE/MPSS/SBS)
*
SAGEmap4 ; GEO3
Associação
taggene (SAGE/SBS)
Hs; Mm
SAGE Genie
Rn; Bt
SAGEmap
Ame
STAMP (BRANDÃO, 2009)
Seqüência da tag; UniGene ID
Hs
LICR MPSS
cluster de transcritos
No de acesso (UniGene ID); Espécie;
Descrição; Localização cromossômica;
GeneID (Entrez Gene); Nos de acesso
GenBank
*
UniGene
Genes
GeneID; Sı́mbolo; Tipo; Taxonomy ID;
Descrição; Localização cromossômica;
*
Entrez Gene
6
GO e associação
GO-gene (GOA)
GeneID; GO ID; Tipo (Função, Processo, Componente); Código de evidência
*
Entrez Gene
6
KEGG e associação
KEGG-gene
GeneID; KEGG ID; Descrição
*
KEGG Pathway
BioCarta e associação BioCarta-gene
GeneID; BioCarta ID; Descrição
Hs; Mm
CGAP
microRNAs e associação microRNAgene alvo
GeneID; miRNA ID;
Hs
DIANA
Relação miRNA e
UniGene
miRNA ID; UniGene; localização relativa;
Hs
UCSC Genome
Associação
gene (MPSS)
tag-
Seqüência da tag; UniGene ID
2
Genie
;
2
5
7
8
9
10
Nota: Hs-Homo sapiens; Mm-Mus musculus; Rn-Rattus norvegicus; Ame-Apis mellifera; Bt-Bos taurus; *-Várias
espécies; 1-http://www.ncbi.nlm.nih.gov/taxonomy/; 2-http://cgap.nci.nih.gov/SAGE;
3-http://www.ncbi.nlm.nih.gov/geo/; 4-http://www.ncbi.nlm.nih.gov/projects/SAGE/;
5-http://www.ncbi.nlm.nih.gov/unigene; 6-http://www.ncbi.nlm.nih.gov/gene; 7-http://www.genome.jp/kegg/;
8-http://cgap.nci.nih.gov/Pathways/BioCarta Pathways 9-http://www.diana.pcbi.upenn.edu/miRGen/;
10-http://genome.ucsc.edu/.
63
entre as classes, relativa às medidas de desvio padrão dentro das classes. Valores
altos indicam maior correlação entre a expressão gênica e a distinção de classes;
P-value AC - valor de significância proposto por Audic e Claverie (1997);
P-value SG - valor de significância adaptado por Lash et al. (2000) de Chen et al.
(1998), implementado também no SAGE Genie e SAGEmap;
SAGEci - intervalo de credibilidade para o fold-change proposto por Vencio, Brentani
e Pereira (2003).
Os resultados dos cálculos são armazenado na base de dados para as consultas posteriores. Com o resultado dessa análise é possı́vel realizar uma análise de enriquecimento,
Gene Set Enrichment Analysis (GSEA), de categorias do GO ou vias metabólicas do
KEGG ou do BioCarta. Esse método computacional permite determinar um conjunto de
genes, definidos a priori, estão diferencialmente expressos entre os dois pools de bibliotecas. A análise de enriquecimento foi implementada com base no algoritmo descrito por
Keller, Backes e Lenhof (2007). A análise depende da ordenação dos genes baseada na
medida de avaliação selecionada.
3.2.2
Interfaces
O acesso aos recursos do H2G pode ser feito através da internet, na qual é disponibilizada uma interface user-friendly com diversos recursos que possibilitam criar e disparar
o processamento de uma análise para posteriormente explorar seus resultados por meio de
um sistema de consultas. Esse sistema permite pesquisar e relacionar informações contidas
na base de dados utilizando uma combinação de parâmetros, os quais são definidos pelo
usuário. As requisições de consulta dos usuários são traduzidas para a linguagem SQL e
enviadas ao banco de dados que a processa e retorna o resultado, o qual é formatado e
apresentado de forma coerente.
A interface web, que contêm os formulários de acesso às aplicações, é gerada dinamicamente com o auxı́lio de um módulo (BiT::Template) desenvolvido pelo LGMB. O módulo
Perl BiT::Template utiliza os módulos CGI e HTML::Template para separar o código da
aplicação do código para a interface.
Além desse acesso via interface web, alguns dos recursos podem ser acessados também via prompt do SO por meio de programas já implementados, ou implementar novos
programas utilizando os métodos contidos nos módulos do pacote. Esses métodos podem
3.3 S3T - Score System for Sequence Tags
64
ser acessados também utilizando o protocolo SOAP, por meio do servidor SOAP sobre
HTTP, implementado utilizando o módulo Perl SOAP::Lite18 . Os parâmetros de conexão, a lista de métodos disponı́veis e a documentação são encontradas nas páginas web de
ajuda do H2G19 .
3.3
S3T - Score System for Sequence Tags
A metodologia desenvolvida para a avaliação da qualidade de uma biblioteca de tags,
no geral, compreende as seguintes tarefas:
1. Coletar os dados experimentais e obter os conjuntos de tags virtuais e as informações
relacionadas, e armazená-las em um banco de dados relacional;
2. Determinar os parâmetros para a classificação;
3. Executar as buscas no banco de dados e aplicar as regras, que é uma correspondência
entre o dado experimental com uma das regras definidas;
4. Quantificar as tags únicas e suas freqüências para cada pontuação (score) para a
avaliação da qualidade.
O processo de classificação é executado em série, aplicando as regras em uma ordem
pré-definida para cada uma das tags na biblioteca (e.g. Tabela 3 - do topo à base). A
primeira classificação é sustentada se a regra é validada, caso contrário a próxima regra é
avaliada e o processo se repete até que a última tag receba a sua classificação (Figura 8).
O sistema que implementa essa metodologia, possibilita o processamento das classificações em paralelo (multithreading) em um sistema com múltiplos núcleos e/ou processadores. Uma interface web foi desenvolvida para prover acesso aos recursos, que também
podem ser acessados diretamente por meio do prompt do SO.
O programa principal recebe como parâmetros de entrada, o arquivo contendo as
seqüências das tags e as respectivas freqüências, a plataforma (SAGE, MPSS ou SBS), a
enzima âncora (NlaIII ou DpnII ), o tamanho das tags e o acrônimo da espécie (Hs ou
Mm). Estes parâmetros definem qual será o conjunto de regras a ser usado na análise. A
análise padrão tem distintos conjuntos de regras pré-configuradas.
18
http://www.soaplite.com
19 http://gdm.fmrp.usp.br/cgi-bin/h2g/index.pl/alone?project
id=1;platform id=1;template file=help
65
Figura 8: Diagrama geral do fluxo da informação no sistema S3T. No lado do cliente, estão representadas
a entrada de parâmetros e a obtenção dos resultados, procedimentos que podem ser realizados pela
interface disponı́vel via internet ou diretamente por meio do prompt do SO. No lado do servidor, estão
representados os processos dentro do sistema de classificação S3T e parte do sistema H2G, o qual fornece
as informações sobre as freqüências das tags no dados de amostras biológicas contidas em sua base de
dados principal.
3.3.1
Conjuntos de tags virtuais
Os conjuntos de tags virtuais foram obtidos de diferentes fontes para caracterizar os
dados experimentais e determinar sua confiabilidade, baseado nas caracterı́sticas relevantes de cada fonte. As bases de dados utilizadas estão discriminadas a seguir:
Vetor de clonagem - seqüência de nucleotı́deos do vetor de clonagem;
Genoma mitocondrial - seqüência de nucleotı́deos do genoma mitocondrial;
Adaptador - seqüência de nucleotı́deos do adaptador, usado na construção da
biblioteca de SAGE;
FL cDNAs - seqüências completas de nucleotı́deos (full-length) de cDNA;
Consenso - seqüências de nucleotı́deos consenso de clusters do UniGene;
Genoma nuclear - seqüências de nucleotı́deos de DNA nuclear.
66
Os procedimentos para a extração das tags são similares aos utilizados na metodologia
de mapeamento do SAGE Genie (BOON et al., 2002). Foram considerados os sı́tios de
restrição para as enzimas âncoras NlaIII (CATG), mais utilizada para gerar os dados de
SAGE/SBS e a enzima DpnII ou Sau3AI (GATC), mais utilizadas para gerar os dados
de MPSS. As tags virtuais são obtidas da extração das bases adjacentes aos sı́tios de
reconhecimento das enzimas consideradas. São obtidas tags virtuais de 10-pb, 17-pb,
13-pb e 16-pb, respectivamente para short SAGE/SBS, long SAGE, short MPSS e long
MPSS.
Os dados foram obtidos de duas espécies: Homo sapiens e Mus musculus. As informações
sobre os conjuntos de dados de tags virtuais armazenados no S3T, para Homo sapiens,
estão resumidamente relacionadas na Tabela 2.
Esses conjuntos de dados de tags virtuais, suas origens e atributos são armazenados
em um banco de dados relacional20 de onde são feitas as consultas pela identidade da tag.
Tabela 2: Conjuntos de dados de tags virtuais, suas origens, atributos, nomes e números de tags
Origem
Adaptadores long SAGE
Adaptadores short SAGE
Atributos
+1-pb variação
Eventos de EA
Genoma nuclear
Eventos de AI
No de tags
LSAGE linkers 10
129
+1-pb variação
LSAGE linkers 17
226
+1-pb variação
SAGE linkers 10
124
Vetor pZErO-1
Eventos de PA
Nome
pZErO-1 NlaIII 10
16
pZErO-1 NlaIII 17
16
EST = 1
APA1 Hs DpnII 13
94782
EST = 1
APA1 Hs DpnII 16
96054
EST = 1
APA1 Hs NlaIII 10
131036
EST = 1
APA1 Hs NlaIII 17
155292
EST > 1
APA2 Hs DpnII 13
80865
EST > 1
APA2 Hs DpnII 16
81850
EST > 1
APA2 Hs NlaIII 10
112729
EST > 1
APA2 Hs NlaIII 17
130618
EST = 1
AS1 Hs DpnII 13
EST = 1
AS1 Hs NlaIII 10
703
EST > 1
AS2 Hs DpnII 13
1986
EST > 1
AS2 Hs NlaIII 10
1415
650
HG18 Hs DpnII 13
7260646
HG18 Hs DpnII 16
9509317
HG18 Hs NlaIII 10
961337
HG18 Hs NlaIII 17
20427764
IP Hs DpnII 13
42075
IP Hs DpnII 16
42569
IP Hs NlaIII 10
60984
IP Hs NlaIII 17
66489
20 http://gdm.fmrp.usp.br/cgi-bin/s3t/index.pl/alone?template
file=help
Origem
67
Atributos
Tags internas
Nome
IT Hs DpnII 13
Genoma mitocondrial
mRNAs Full Length
No de tags
124589
IT Hs DpnII 16
127652
IT Hs NlaIII 10
137273
IT Hs NlaIII 17
165366
NC 001807.4 Hs DpnII 13
48
NC 001807.4 Hs DpnII 16
48
NC 001807.4 Hs NlaIII 10
96
NC 001807.4 Hs NlaIII 17
96
VT mRNA notail Hs DpnII 13
45322
VT mRNA notail Hs DpnII 16
46387
VT mRNA notail Hs NlaIII 10
47557
VT mRNA notail Hs NlaIII 17
52466
Sinal e cauda poli(A)
VT mRNA tail Hs DpnII 13
30413
VT mRNA tail Hs DpnII 16
31050
VT mRNA tail Hs NlaIII 10
30877
VT mRNA tail Hs NlaIII 17
33707
Consensos
VT trEST notail Hs DpnII 13
2134
VT trEST notail Hs DpnII 16
2156
VT trEST notail Hs NlaIII 10
2840
VT trEST notail Hs NlaIII 17
2893
VT trEST tail Hs DpnII 13
5653
VT trEST tail Hs DpnII 16
5713
VT trEST tail Hs NlaIII 10
7025
VT trEST tail Hs NlaIII 17
7280
Nota: O identificador do conjunto de dados é composto pela combinação dos identificadores para a fonte do dado, a espécie,
a enzima âncora e tamanho da tag, separados por um espaço sublinhado (underline). Espécie: Hs-Homo sapiens. Eventos:
PA-Poli(A) alternativa; EA-Encadeamento alternativo de exons; AI-Anelamento interno (internal priming).
Vetor plasmidial
Foram extraı́das as bases adjacentes ao sı́tio de restrição mais próximo da extremidade
3’ da seqüência de nucleotı́deos do vetor pZErO-1, utilizado na construção da biblioteca
de SAGE.
Genoma mitocondrial
Foram extraı́das as bases adjacentes ao sı́tio de restrição mais próximo da extremidade
3’, considerando separadamente os dois sı́tios de restrição para as enzimas âncoras, nas
seqüências genômicas das duas espécies consideradas ([GenBank:NC 001807.4] - Homo
sapiens e [GenBank:NC 005089.1] - Mus musculus).
68
Genoma nuclear
Foram extraı́das todas as bases adjacentes aos sı́tios de restrição para as enzimas
âncoras consideradas, nas seqüências genômicas obtidas do grupo de bioinformática da
Universidade da Califórnia [University of California Santa Cruz (UCSC)21 ] das espécies
consideradas (hg18 - Homo sapiens e mm8 - Mus musculus).
Adaptadores
Foram extraı́das as bases da extremidade 5’ dos adaptadores 1 B e 2 B e obtidas
suas seqüências vizinhas, ou seja, com 1-pb de variação (distância de edição (GUSFIELD,
1997) igual a 1).
mRNAs e Consensos
Os bancos de dados de seqüências de cDNA full-length [MGC (STRAUSBERG et al.,
1999), RefSeq (PRUITT; MAGLOTT, 2001) e “20K set” (BOON et al., 2002)] e os bancos
de dados de seqüências consensos de clusters do UniGene, trEST (PAGNI et al., 2001)
foram submetidos ao processamento pelo programa ESTscan (ISELI; JONGENEEL; BUCHER, 1999; LOTTAZ et al., 2003) (versão 3.0.2), que fornece a predição da localização
da ORF, a sua orientação. Essa informação provida pelo ESTscan sobre a orientação é
utilizada em associação com a identificação de sinal e cauda poli(A) no procedimento de
correção da orientação da seqüência, padronizando a orientação (5’-3’). Para a identificação do sinal e cauda poli(A), foram utilizados algoritmos de correspondência utilizando
expressões regulares. No caso da identificação de sinal de poli(A) foram consideradas
as suas diferentes variações (AAUAAA, AUUAAA, AAUUAA, AAUAAU, CAUAAA e
AGUAAA) (CARON et al., 2001) e a distância em relação à extremidade 3’, as muito
distantes não foram consideradas (maior que 100-pb) e no caso da cauda poli(A), o critério
para a sua caracterização foi possuir ao menos 5 adeninas na seqüência da extremidade
3’.
As seqüências que não possuı́am evidências suficientes da sua orientação foram excluı́das, ou seja, não possuı́am ao menos 1 evidência da orientação, predição com ESTscan,
sinal de poli(A) ou cauda de poli(A). As seqüências dos dois conjuntos de dados de mRNAs e dos consensos foram analisadas separadamente e subdivididas em seqüências com
evidência de sinal e cauda poli(A) e outro sem essas evidências.
21 http://genome.ucsc.edu/
69
A partir desses subgrupos foram extraı́das as bases adjacentes ao sı́tio de restrição
mais próximo da extremidade 3’. Do grupo de seqüências full-length com sinal e cauda
poli(A) foram também obtidas as 3 tags virtuais a montante da tag virtual mais próxima
da extremidade 3’ e alocadas em um subgrupo chamado de tags internas.
Eventos de anelamento interno
Foram considerados os eventos de anelamento interno do oligo-dT em uma região rica
em adeninas e não na cauda poli(A), durante a transcrição reversa e sı́ntese de cDNAs
(NAM et al., 2002). A ocorrência desse evento pode levar a presença de tags internas,
consideradas nesse caso artefatos da técnica.
Um conjunto de seqüências onde esse evento é provável foi obtido a partir das seqüências full-length e consensos que continham ao menos 8 adeninas em 10 bases, confirmados
com o alinhamento de ESTs do dbEST cujas extremidades estão nessa região, indicando
que houve o truncamento da molécula. Os alinhamentos foram obtidos com o programa
BLAST -Like Alignment Tool (BLAT) (KENT, 2002).
A partir da informação da posição onde há a possibilidade de ocorrência de anelamento
interno e sı́ntese de cDNA truncado, foram extraı́das tags virtuais à montante dessas
posições.
Eventos de processamentos alternativos
Foram considerados dois eventos de processamento alternativo de RNAs: encadeamento alternativo de exons, poliadenilação alternativa. Utilizando o resultado do alinhamento de ESTs do dbEST com o programa BLAT.
As tags virtuais de eventos de poli(A) alternativa foram extraı́das a montante das
posições com evidências de poliadenilação alternativa, que foram obtidas com a observação
do número de ESTs com sinal e cauda poli(A) que alinham na região dentro das seqüências
full-length e consensos dos transcritos. Essas tags foram divididas em dois grupos, com
ao menos 1 EST e com mais de 1 EST suportando a evidência.
As tags virtuais de eventos de encadeamento alternativo de exons foram extraı́das dos
transcritos onde o processamento alternativo gerou um sı́tio de restrição diferente para as
enzimas consideradas. Essas tags também foram divididas em dois grupos, com ao menos
1 EST e com mais de 1 EST suportando a evidência.
3.3.2
70
Regras de Classificação
Para a graduação das tags são adotadas regras de classificação que podem ser estabelecidas de acordo com as necessidades especı́ficas. Essas regras possuem parâmetros
relevantes baseados em 4 componentes principais, a freqüência da tag, a sua identidade
em um conjunto de tags virtuais com caracterı́sticas relevantes, a freqüência média em
outras bibliotecas e a abundância das tags vizinhas.
A identidade em um banco de dados de tags virtuais determina a possı́vel origem
da tag. O componente baseado na freqüência das tags, permite levar em consideração a
suposição de que a abundância e a representatividade no conjunto total de bibliotecas
pressupõem mais confiança para ela. A confiança na veracidade da tag ainda pode ser
ampliada caso ela tiver uma freqüência média razoável considerando outras bibliotecas.
Nesse caso o banco de dados públicos de expressão gênica H2G (Seção 3.2) é utilizado
como fonte para obter essa informação. O outro componente, baseado na vizinhança das
tags, considera a idéia de que erros durante a construção da biblioteca, no caso de tags
abundantes podem gerar artefatos (COLINGE; FEGER, 2001).
Configuração
Os esquemas de análise, ou seja, os conjuntos de regras definidas para cada combinação
de parâmetros da análise, são definidas em um arquivo de configuração (Apêndice C)
no formato padrão INI22 (nome = valor), onde estão contidas também as configurações
necessárias para o funcionamento do sistema, como os dados para a conexão com o banco
de dados, caminhos de diretórios no sistema de arquivos, etc.
Esse arquivo de configuração é organizado por blocos, os blocos que possuem a
identificação do esquema, referem-se à configuração das regras ([Plataforma Enzima âncora Tamanho da Tag Espécie SCORE]) e configuração da ordem de aplicação das regras
([Plataforma Enzima âncora Tamanho da Tag Espécie]). Os blocos SOURCES e ATTRIBUTES referem-se respectivamente às fontes dos dados e os atributos especiais. A ordem
de aplicação das regras pode ser alterada permutando os scores dispostos no parâmetro
score order. A configuração da regra possui uma sintaxe própria e há três variáveis que
podem ser utilizadas na composição da regra:
$f tag - valor de freqüência absoluta da tag;
22 http://en.wikipedia.org/wiki/INI
file
71
$m tag - valor médio de freqüência da tag considerando outras bibliotecas;
$mfno tag - ordem da tag vizinha mais freqüente, considerando a porcentagem das
tags mais freqüentes.
Os componentes das regras são isolados por ponto e vı́rgula (;), onde o primeiro
elemento refere-se à fonte e o segundo aos atributos, o terceiro é a condição que envolve
as variáveis mencionadas e onde a sintaxe é idêntica à de uma expressão Perl23 . As fontes
e os atributos são representados pelos respectivos códigos contidos nos blocos SOURCES
e ATTRIBUTES. Os operadores “&” e “|” representam respectivamente o “e” e o “ou” e
podem ser utilizados para combinar fontes ou atributos em uma única regra.
3.3.3
Interface
Há duas possibilidades de acesso à análise com o S3T, via prompt do SO e via formulário da internet. No caso do prompt de comando do SO, o arquivo contendo as tags com
as respectivas freqüências e os seguintes parâmetros são informados como argumentos na
linha de comando: plataforma, tamanho da tag, enzima âncora e espécie. O arquivo resultante é semelhante ao arquivo que representa a biblioteca, com uma coluna adicional, que
contém as respectivas classificações. Utilizando o argumento que ativa o modo verboso é
possı́vel acompanhar em detalhes o processo de classificação de cada uma das tags.
No caso da interface via internet, os mesmos parâmetros são informados em um formulário desenvolvido para tornar o acesso mais fácil e cômodo para o usuário. Os resultados
são representados por meio de gráficos e tabelas, que permitem a visualização e exploração, além de conter as associações das tags e genes, obtidas do H2G via chamada direta
dos métodos, ou via chamada de métodos disponı́veis via SOAP. A interface via internet
também permite a comparação com os dados já processados, os quais estão resumidos em
um box plot (WILLIAMSON; PARKER; KENDRICK, 1989). O box plot é um gráfico
que possibilita representar a distribuição de um conjunto de dados com base em alguns
de seus parâmetros descritivos, tais como a mediana e os quartis.
23 http://perldoc.perl.org/functions/eval.html
3.3.4
72
Análise com dados públicos de SAGE
Dados experimentais
Os dados experimentais selecionados para a avaliação foram extraı́dos do repositório
de dados de expressão gênica do H2G. Foram selecionadas 359 bibliotecas de SAGE em
grupos de 34 tecidos/órgãos da espécie humana. Esses grupos foram definidos de acordo
com o nome da biblioteca, o qual é padronizado no caso das bibliotecas do CGAP24 :
SAGE ÓRGÃO HISTOLOGIA PREPARAÇÃO IDENTIFICADOR ÚNICO.
O grupo histológico é definido pelos identificadores comuns da nomenclatura das bibliotecas: SAGE ÓRGÃO HISTOLOGIA PREPARAÇÃO.
Definição das Regras
Há distintos conjuntos de regras pré-configurados e definidos de acordo com a combinação dos parâmetros de configuração. O conjunto de regras utilizado como exemplo de
aplicação do método está contido na Tabela 3. Os parâmetros que o definem são: SAGE
(plataforma), 10-pb (tamanho da tag), NlaIII (enzima) e Hs (espécie).
A intenção deste conjunto de regras é a identificação de possı́veis artefatos para a posterior exclusão e obter também uma gradação de confiabilidade para as tags. A avaliação
inicia com as regras que permitem identificar as tags com provenientes de adaptadores de
SAGE (-4), tags com baixa freqüência ( f (x) = 1) que têm identidade com o conjunto de
tags com evidências de anelamento interno (-3), e as tags com baixa freqüência ( f (x) < 5)
similares às vizinhas mais abundantes (20% mais abundantes). As próximas regras (10,
9, 8, 7, 6, 5, 4, 3, 2, 1, 0) são usadas para identificar tags com identidade no conjunto
de tags virtuais de transcritos conhecidos, com diferentes gradações de confiabilidade;
a próxima regra (0) é a última chance de aceitação das tags, se sua média de freqüência considerando outras bibliotecas for maior que sua freqüência na biblioteca que está
sendo avaliada (m(x) > f (x)); a próxima regra retém as tags remanescentes observadas
uma única vez ( f (x) = 1), possivelmente errôneas; as regras subseqüentes (-5, -7, -6) são
usadas para verificar a identidade com os genomas mitocondrial e nuclear e com o vetor
de clonagem respectivamente; a última regra retém as tags remanescentes que não foram
classificadas em nenhuma das categorias anteriores.
24 http://cgap.nci.nih.gov/SAGE/SAGEHelp
73
Tabela 3: Conjunto de regras usadas no processo de classificação das bibliotecas de tags. O f (x)
representa a freqüência absoluta para a tag x, e m(x) a freqüência média da tag x, considerando todas
as bibliotecas no banco de dados experimentais de expressão gênica, N(x) representa o conjunto de tags
vizinhas da tag x, T representa o conjunto de tags com as freqüências mais altas na biblioteca (20%). A
ordem em que estão dispostas as linhas respectivas de cada score representa a ordem (do topo à base)
para a aplicação da regra respectiva.
Score
-4
-3
-2
10
9
8
7
6
5
4
3
2
1
0
-1
-5
-7
-6
-8
Fonte
Condição
Adaptadores (*)
mRNAs região interna rica em As
FL cDNAs, 3’, poli(A)
FL cDNAs, 3’, poli(A)
FL cDNAs, 3’
FL cDNAs, 3’
Consenso, 3’, poli(A)
Consenso, 3’, poli(A)
poli(A) alt./splicing, > 1 EST
Consenso, 3’
poli(A) alt./splicing, 1 EST
FL cDNAs, tags internas
f (x) = 1
f (x) < 5 e (N(x) ∩ T ) 6= 0/
f (x) ≥ 10
1 ≤ f (x) < 10
f (x) ≥ 5
1 ≤ f (x) < 5
f (x) ≥ 5
1 ≤ f (x) < 5
f (x) > 1
f (x) ≥ 1
f (x) ≥ 1
m(x) > f (x)
f (x) = 1
Genoma mitocondrial
Genoma nuclear
Vetor pZErO-1 (*)
Nota: * Aplicável somente para dados de SAGE.
Análise descritiva dos dados
Os resultados foram divididos em dois grupos, sendo que um corresponde às tags
classificadas com scores positivos e o outro às tags classificadas com scores negativos. A
estatı́stica descritiva para os resultados foi realizada utilizando o pacote R de métodos
estatı́sticos, obtendo a média de freqüência das tags, a redundância (total de tags únicas
/ somatório das freqüências) e as proporções de tags únicas e freqüências em cada grupo.
Análise de agrupamento hierárquico
Uma análise de agrupamento hierárquico (EISEN et al., 1998) foi realizada usando o
programa Cluster3 (HOON et al., 2004) nos mesmos tipos de tecido em amostras de condições biológicas distintas, tipicamente tecido normal versus tecido tumoral, e/ou prepa-
74
ração da amostra (e.g. microdissecção, linhagem celular). A análise utilizou as bibliotecas
completas, ou seja com todas as tags, sem nenhuma filtragem e após a filtragem.
Essas bibliotecas foram classificadas de acordo com o fenótipo (e.g. normal, tumoral,
gradação tumoral) e/ou preparação dentro de cada grupo definido para os 34 tecidos
distintos, usando as informações contidas nos nomes das bibliotecas (Apêndice B). Os
subgrupos contendo uma única biblioteca foram excluı́dos e os grupos com apenas 1
subgrupo também foram excluı́dos, restando apenas 14 grupos.
Os agrupamentos (clusters) foram gerados utilizando a distância euclidiana com os
4 métodos de agrupamento: Ligação completa (Pairwise complete-linkage); Ligação individual (Pairwise single-linkage); Ligação centróide (Pairwise centroid-linkage); Ligação
média (Pairwise average-linkage). O programa Simcluster também foi utilizado para gerar os agrupamentos hierárquicos usando os mesmos métodos de agrupamento, exceto o
de Ligação centróide, o qual não é implementado nesse programa.
A medida-F (RIJSBERGEN, 1979) foi utilizada para avaliar a qualidade geral do
agrupamento, que é um método que combina as idéias de precisão (precision) e revocação
(recall ). Os valores da media F estão no intervalo de [0-1], sendo que valores altos indicam
agrupamento de maior qualidade. Os agrupamentos formados antes e após a filtragem com
S3T foram comparados usando a medida-F geral. A expectativa é encontrar agrupamentos
mais adequados após a filtragem, ou seja, agrupando propriamente amostras de um mesmo
fenótipo celular mais próximos e mais distantes de outros de fenótipos distintos, como por
exemplo, tecidos normais e tumorais.
75
4
Resultados e Discussão
4.1
H2G - Hyper- and Hypo-expressed Genes
O sistema H2G foi desenvolvido para suprir a necessidade de um repositório de dados
de expressão gênica, tais como os gerados pelas tecnologias SAGE, MPSS e SBS, e de
mecanismos para a manipulação e consulta desses dados, das informações referentes a
cada experimento e também das informações funcionais relacionadas.
A última versão do repositório (Junho/2009) possui dados de cinco espécies e três
tecnologias baseadas no seqüenciamento de tags (Tabela 4), totalizando 1.174 bibliotecas
distribuı́das em 18 projetos, sendo um deles de acesso público.
Tabela 4: Conteúdo do repositório de dados do H2G.
Espécie
Homo sapiens
Mus musculus
Rattus norvegicus
Apis mellifera
Bos taurus
Total
Tamanho da tag
SAGE
SAGE
SAGE
MPSS
SBS
SBS
SAGE
SAGE
SAGE
SAGE
MPSS
SAGE
SAGE
Tecnologia Enzima Âncora Quantidade de Experimentos
10
10*
17
13
10*
17
10*
17
10
10
13
10
10
NlaIII
NlaIII
NlaIII
DpnII
NlaIII
NlaIII
NlaIII
NlaIII
NlaIII
NlaIII
DpnII
NlaIII
NlaIII
Públicos
Privados
320
69
80
32
35
35
212
217
72
28
0
0
0
1100
61
0
0
0
0
0
0
0
3
7
0
1
2
74
Nota: *-extraı́das de tags maiores.
O acesso aos dados e outros recursos é feito por intermédio de uma interface disponı́vel
na internet. Para o acesso aos dados públicos é exigido apenas um cadastro, no caso dos
dados de projetos privados o acesso é restrito apenas aos membros dos projetos incluı́dos no
sistema. O cadastro para acesso aos dados públicos pode ser realizado pelo próprio usuário
76
utilizando o formulário disponı́vel na página. O cadastro nos projetos privados é realizado
apenas pelo administrador do sistema mediante requisição e aprovação. A navegação pela
interface é simples e intuitiva. O menu lateral fornece os links para acessar as informações
do sistema, material suplementar, ajuda e Frequently Asked Questions (FAQ), download
de arquivos extras (bibliotecas processadas com S3T), além do link para o formulário
de cadastro. Nesse menu é possı́vel selecionar o projeto e a plataforma e realizar a
autenticação do usuário, que é necessária para habilitar o menu principal para acessar os
recursos disponı́veis. Há a opção de esconder o menu lateral para aumentar a área de
exibição dos recursos.
4.1.1
Recursos disponı́veis
O sistema H2G é subdividido em quatro subunidades direcionadas a serviços: Repositório de dados (Data repository), Experimentos (Experiments), Análises (Analyses) e
Pesquisa (Search).
Repositório de dados
O repositório de dados contém a listagem dos experimentos disponı́veis organizados
por espécie e tipo de tecido das amostras, além de indicar o identificador do experimento,
o nome, a quantidade de tags distintas e o somatório total de tags. A lista possui links
para as informações detalhadas de cada biblioteca. Esse serviço está disponı́vel sem a
necessidade de autenticação.
Experimentos
Nessa área estão os serviços dirigidos à visualização e manipulação de experimentos,
tais como:
Listagem dos dados contidos no experimento com a respectiva anotação ordenados
pela freqüência. Essa interface possibilita a navegação, filtragem por palavras chaves
e download dos dados nos formatos texto e Microsoft Excel Spreadsheet (XLS);
Deleção de experimento, o que necessita de permissão;
Visualização de informações a respeito da amostra (tecido, tipo celular) e da prepa-
ração do experimento, além das classificações dos dados em categorias referentes à
77
anotação e segundo os critérios do S3T. Cada categoria apresenta um link para a
listagem dos dados contidos em si;
Inclusão de uma novo experimento por meio de um formulário próprio que inclui os
dados de obtenção e preparação da amostra e da tecnologia aplicada;
Atualização dos dados do experimento;
Importação de novos experimentos do GEO por meio do acesso GSM;
Controle de permissões referentes ao experimento, que permitem a deleção ou a
atualização dos dados;
Visualização dos resultados da análise do experimento com o S3T;
Submissão dos dados por meio da transferência de arquivos de dados brutos ou
processados. O download dos dados submetidos também é possı́vel por meio dessa
ferramenta;
Checagem das leituras do seqüenciador com o uso do programa phred (EWING et
al., 1998), quando houver arquivos cromatogramas disponı́veis no diretório interno
especı́fico para cada experimento;
Análises
Nessa área estão os serviços dirigidos à visualização e manipulação de análises comparativas entre experimentos, tais como:
Visualização de informações referentes à descrição da análise;
Deleção de uma análise;
Criação de uma nova análise. Essa interface permite projetar uma análise e requisi-
tar seu processamento automático. As análises de cada usuário ficam armazenadas
e podem ser consultadas futuramente, até que o usuário decida removê-las;
Consulta aos resultados do processamento da análise utilizando o sistema de buscas
no banco de dados, o qual permite uma combinação de parâmetros para a identificação dos genes diferencialmente expressos. Nessa ferramenta é possı́vel realizar uma
análise GSEA para a identificação dos grupos gênicos diferencialmente expressos, os
quais podem ser definidos pelos termos do GO ou vias metabólicas do KEGG ou do
BioCarta;
78
Consulta aos resultados do processamento da análise utilizando os links contidos em
um gráfico de dispersão. Cada ponto no gráfico corresponde a uma ou várias tag com
valores idênticos em ambos os pools. O ponto é colorido de acordo com o intervalo
estabelecido com os valores da medida de avaliação selecionada previamente;
Consulta aos resultados do processamento da análise utilizando a ferramenta para a
obtenção dos conjuntos de tags presentes em ambos os pools ou exclusivos de cada
pool (A ou B);
Pesquisa
Nessa área estão os serviço de buscas que permitem as consultas por experimentos
ou informações de genes em experimentos e análises. Portanto, há duas possibilidades de
buscas:
Buscas por experimentos utilizando palavras chaves dentre as informações relacio-
nadas com os experimentos, tais como as seguintes: nome da espécie, nome de um
experimento especı́fico, identificador numérico do experimento, tecido, acesso GeneId (Entrez Gene) (OSTELL, 2003) ou acesso UniGene. A resposta é a listagem
dos experimentos no mesmo formato da listagem de experimentos do repositório;
Buscas por informações de genes ou expressão de genes em experimentos e análises
utilizando uma palavra chave que será pesquisada dentre as informações relacionadas, tais como as seguintes: Seqüência da tag e enzima âncora, acesso GenBank,
acesso UniGene ou sı́mbolo do gene. O resultado exibe as informações descritivas
do gene, como os termos do GO e vias metabólicas relacionadas, além disso exibe
também uma lista com os valores relativos ao gene nas análises comparativas do
usuário, onde esse gene está presente. Há também uma ferramenta que permite
gerar uma imagem contendo as bibliotecas e as tags referentes ao gene encontrado
e os nı́veis de expressão representados por tonalidades de cinza (tonalidades mais
escuras representam maior expressão) além dos valores em modo texto (Figura 9).
Para a atribuição da respectiva tonalidade de cor, inicialmente os valores são normalizados para 300.000, o valor que varia de 0 a 255 é atribuı́do de acordo com a
seguinte fórmula: 255 − log( 255√300000) x, onde x é o valor da freqüência normalizada
da tag;
79
Figura 9: Imagem da representação dos nı́veis de expressão das tags no sistema de pesquisa do H2G. O
gene pesquisado é o NFKB2 e as bibliotecas de SAGE selecionadas são as de medula óssea.
4.1.2
Aplicações do H2G
Para demonstrar as aplicações do H2G foi criada uma nova análise por meio da
interface web. Foram selecionadas 2 bibliotecas de SAGE para análise comparativa,
obtidas do trabalho de Panepucci et al. (2007). Essas bibliotecas foram geradas separadamente a partir de amostras de células CD34+ isoladas de sangue de cordão
umbilical (SCU) (CTC UmbilicalCord Normal CD34 SCU New1 ) e de medula óssea
(MO) (CTC UmbilicalCord Normal CD34 MO New2 ). A célula CD34+ é uma células
progenitora hematopoiética, que apresentam apresentam diferenças biológicas intrı́nsecas
(PANEPUCCI et al., 2007).
A ferramenta para obtenção de conjuntos de tags identificou em um total de 39.512
tags, 15.238 tags exclusivas de SCU, 17.418 tags exclusivas de MO e 6.856 que estão
presentes em ambas as bibliotecas. As listas de tags de cada conjunto, contêm informações
detalhadas tais como a anotação gênica, os as freqüências das tags e os valores das medidas
de avaliação.
O gráfico de dispersão (Figura 10) exibe a relação entre as tags nas duas bibliotecas.
Nesse gráfico é possı́vel observar as tags diferencialmente expressas de acordo com a
medida selecionada, a qual neste caso foi a fold change (fc). Os pontos contêm referências
às informações detalhadas de cada tag.
A consulta aos resultados pode ser feita utilizando uma combinação de parâmetros
por meio da ferramenta de consulta. É possı́vel selecionar, por exemplo, valores de razão
no intervalo de 40 a 1000 vezes mais expressos em SCU e um valor de significância p-value
< 0,001 (AUDIC; CLAVERIE, 1997). Essa consulta retorna duas tags, que representam
1 http://gdm.fmrp.usp.br/h2g/library/569
2 http://gdm.fmrp.usp.br/h2g/library/570
80
Figura 10: Gráfico de dispersão de uma análise comparando uma biblioteca obtida de amostra de células
CD34+ de sangue de cordão umbilical (SCU) (Pool B) e uma biblioteca obtida de amostra de células
CD34+ de medula óssea (MO). Os pontos representam uma ou várias tags com valores de expressão
semelhantes em ambas as bibliotecas. A cor de cada ponto representa o nı́vel da razão de expressão,
ou fc, de acordo com a legenda. Os genes identificados no gráfico fazem parte da coleção de genes do
trabalho de Panepucci et al. (2007), em destaque os genes relacionados aos complexos NF-κ B que estão
mais expressos na biblioteca de SCU e que foram selecionados para validação por qPCR, os demais genes
foram identificados no gráfico por estarem entre os mais expressos.
os genes HBG2 (ATGCAGAGCT; fc = 152,38) e CCL4 (GATAACACAT - fc = 49,45).
O gene CCL4 participa da via metabólica Toll-like receptor signaling (KEGG:hsa04620).
Nessa mesma interface é possı́vel combinar outros parâmetros de consulta, como por
exemplo, as tags relacionadas aos genes dessa via metabólica e valores de fc no intervalo
de 5 a 1000 vezes mais expressos em SCU, com um p-value < 0,001. Essa consulta retorna
as tags referentes aos genes CCL4, IL8 (TGGAAGCACT - fc = 7,62), NFKB1 (GTTACAATCA - fc = 5,55), IL1B (CAATTTGTGT - fc = 16,15) e NFKB2 (GGAAGGGGAG
- fc = 11,86).
O gene IL1B está anotado no GO como envolvido no processo biológico (GO:0051092)
de regulação positiva dos complexos de fatores de transcrição NF-κ B. Uma busca por tags
com essa anotação do GO combinada com um intervalo de fc de 2 a 1000 e com o mesmo
intervalo de diferença (d), foi possı́vel encontrar 8 tags referentes a 6 genes. Três desses
genes foram validados por Panepucci et al. (2007): o TNF (TAGCCCCCTG - fc = 3,03, d
= 29,77), o TGFB1 (GGGGCTGTAT - fc = 3,11, d = 29,77; ATCGTGCGCT - fc = 2,02,
81
d = 4,98) e o RELA (ATCGTGCGCT - fc = 2,02; d = 4,98). A diferença de expressão
do gene RELA não apresentou significância (p-value < 0,001; 0,208) embora tenha sido
validada.
Os genes ICAM1 e RELB, que são regulados pelo fator de transcrição NF-κ B, podem
ser localizados por meio da busca direta pelo sı́mbolo de cada gene, por uma palavra chave
contida na descrição do gene, pela seqüência da tag ou pelo UniGene.
No resultado de cada uma dessas consultas, as tags dos genes selecionados para a
validação foram armazenadas em um conjunto de dados definido, que neste caso foi nomeado de “tese” para consultas futuras (Figura 11). As tags armazenadas nesse conjunto
de dados também podem ser utilizadas nas buscas em outras análises.
Figura 11: Resultado obtido por meio da consulta usando o conjunto “tese”, o qual foi definido para
armazenar as tags selecionadas a partir dos resultados das consultas realizadas. Essas tags representam
os nove genes selecionados para a validação no trabalho de Panepucci et al. (2007).
Além desses tipos de consultas, a ferramenta ainda permite encontrar tags referentes
a alvos preditos de miRNAs especı́ficos e tags que mapeiam dentro de genes, ou próximas
a genes, que hospedam miRNAs.
Por exemplo, uma busca pelo hsa-miR-545 retorna uma tag (ACTTTTTCAA) anotada como clone de cDNA (UniGene Hs.349570). Essa tag possui um número considerável
de cópias em ambas as bibliotecas, 347,46 em MO e 464,24 em SCU, tendo portanto um
fold change de ∼1,34. Esse miRNA já foi reportado na literatura como hiper-expresso em
células CD34+ de SCU em relação às células CD34+ de MO (MERKEROVA et al., 2009).
Outro recurso que está embutido na ferramenta de consulta é a GSEA, que no caso
da análise anterior, indica os grupos funcionais com os maiores scores de enriquecimento,
considerando a medida fold change. Eles são:
Vias metabólicas (BioCarta): MAPKinase, HIV-I e Caspase;
82
Vias metabólicas (KEGG): Ribosome, Pathways in cancer e Cytokine-cytokine re-
ceptor interaction;
Funções (GO): protein binding, zinc ion binding e RNA binding;
Processos (GO): signal transduction, immune response e RNA splicing;
Componentes (GO): nucleus, cytoplasm e cytosol.
4.1.3
Disponibilidade e requisitos do sistema H2G
A disponibilidade e os requisitos essenciais para a instalação básica do H2G estão
discriminadas a seguir. A instalação básica permite a utilização dos métodos contidos
nas suas bibliotecas e alguns scripts para análise, manipulação e consulta dos dados via
linha de comando. Os requisitos especı́ficos podem ser encontrados através do Uniform
Resource Identifier (URI) informado.
Nome: H2G - Hyper- and Hypo-expressed Genes;
URI: http://gdm.fmrp.usp.br/h2g;
Requisitos: Sistema operacional do tipo UNIX (e.g. Linux, FreeBSD, Solaris),
Linguagem de Programação Perl versão maior ou igual a 5.8.0, Linguagem de Programação R versão maior ou igual a 2.1.1, SGBD MySQL maior ou igual a 4.1.13;
Licença: GNU is Not Unix (GNU) General Public License (GPL).
4.2
S3T - Score System for Sequence Tags
O sistema S3T está disponı́vel em seu próprio sı́tio na internet. Os serviços providos
pelo sistema via internet incluem a classificação de uma lista de tags, a comparação com
os resultados de outras bibliotecas previamente analisadas, a seleção de tags de acordo
com o score atribuı́do, a visualização e o download dos resultados das análises prévias das
359 bibliotecas SAGE públicas.
Para a análise de uma biblioteca são necessários os dados da biblioteca, ou seja, as
tags e as respectivas freqüências, que podem ser formatados em um arquivo, e também
os parâmetros para a configuração da análise: a plataforma (SAGE, MPSS ou SBS), a
enzima âncora (NlaIII ou DpnII ), o tamanho das tags e o acrônimo da espécie (Hs ou
83
Mm). O tempo médio para a análise de uma biblioteca de 80.000 tags distintas é de
aproximadamente 5 minutos. A ferramenta oferece a opção de inclusão de um endereço
de email para receber o resultado da análise, ou alternativamente é possı́vel aguardar o
processamento.
O resultado é apresentado em forma de gráficos de barras, que representam a quantidade de tags únicas e total de tags, em escala semi-logarı́tmica ou em porcentagens,
para cada classificação. Uma tabela com os valores numéricos também é apresentada, e
de onde é possı́vel consultar o significado e a lista de tags de cada classe (score). A lista
apresenta a anotação gênica de cada tag, ou seja, o acesso UniGene, o sı́mbolo do gene
e a descrição, além de links para o sı́tio do CGAP SAGE Genie. Nessa mesma interface
é possı́vel visualizar os gráficos contendo os histogramas dos dados de cada score, representando a contagem de tags distintas em relação às freqüências das tags. Também estão
nessa interface os box plots que representam as distribuições dos dados dentro de cada
score e os pontos que representam os dados obtidos na análise dessa biblioteca que foi
submetida para análise. Os dados para compor os histogramas e box plots foram obtidos
dos resultados das análise dos dados públicos de SAGE (Seção 4.2.1). A interface ainda
permite o download da biblioteca com a classificação das tags.
Para cada resultado é gerada uma chave que pode ser usada para consultas futuras
durante um tempo determinado por meio da interface de visualização que também permite
como entrada além dessa chave, o arquivo que contém as tags, suas respectivas freqüências
e scores (GCAAGAAAGT<tab>100<tab>10).
O código fonte e o banco de dados relacional MySQL estão disponı́veis na página
de downloads juntamente com os arquivos formatados contendo todos os conjuntos de
tags virtuais utilizados atualmente. Na página de material suplementar estão as análises
com os resultados das análises das bibliotecas SAGE públicas, incluindo os arquivos já
filtrados, também ferramentas extras para a visualização dos resultados.
A página de ajuda e FAQ contém informações úteis, tais como o conjunto de regras
para cada configuração de análise, ou seja o significado de cada score, e também informações operacionais sobre como usar a ferramenta.
4.2.1
Análise com dados públicos de SAGE
De acordo com a análise inicial usando as 359 bibliotecas SAGE é possı́vel observar
a grande diversidade entre as proporções de tags pelos scores estabelecidos (Figura 12).
84
A alta porcentagem de tags com score -2 é evidente; elas podem ter surgido de erros em
tags abundantes cujas seqüências são similares. Isso indica que erros de seqüenciamento
são os mais prevalentes.
As correlações entre o total de tags seqüenciadas em uma biblioteca e o número de tags
únicas em determinado score (Tabela 5) indicam que dentre os scores negativos, o que
apresenta uma correlação mais forte é o -2 (0,91), ou seja, o número de tags únicas com
score -2 aumenta de acordo com o número de tags seqüenciadas. Estes resultados podem
revelar a qualidade geral dessas bibliotecas. Aquelas bibliotecas com uma alta porcentagem de tags classificadas com scores negativos não podem ser consideradas confiáveis
para as análises subseqüentes que utilizam perfis de expressão gênica.
Box plots (WILLIAMSON; PARKER; KENDRICK, 1989) foram usados para visualmente resumir e comparar os grupos de dados (Figura 12) nele estão contidas as distribuições de tags únicas ao longo das classes propostas. É importante observar particularmente
os scores positivos que representam a contribuição efetiva para a informação biológica,
os outros, possivelmente representam contaminações ou erros inerentes à técnica. Entretanto, as tags com scores negativos que possuem identidades nas seqüências genômicas ou
que não possuem identidade alguma, podem também ser oriundas de transcritos desconhecidos até o momento (KEIME et al., 2007). Porém, é importante enfatizar que esses
transcritos poderão ser caracterizados mediante a constante atualização dos bancos de
dados atuais de transcritos, especialmente com a utilização das tecnologias de seqüenciamento em larga escala, os quais possuem alta sensibilidade para a detecção de transcritos
raros.
As análises de agrupamento hierárquico usando os 14 grupos histológicos de bibliotecas SAGE (Tabela 6) foram realizadas, comparando o agrupamento utilizando os
dados completos e após a filtragem desses mesmos dados. A avaliação de qualidade
do agrupamento foi realizada utilizando o valor da medida-F. A intenção é encontrar
um valor maior no agrupamento realizado após a filtragem com S3T, como o observado no caso do grupo de bibliotecas de cólon (Figura 13). Nesse caso das bibliotecas de cólon, no agrupamento hierárquico utilizando os dados brutos antes de qualquer filtragem (Figura 13a.) (Medida-F 0,94), há uma biblioteca de amostras obtidas de tecido de adenocarcinoma de cólon (SAGE Colon adenocarcinoma B Tu102) em
um agrupamento onde predominam bibliotecas de cólon extraı́das de amostras de tecidos normais (SAGE Colon normal B NC1 e SAGE Colon normal B NC2), em contrapartida, no agrupamento hierárquico utilizando os dados após a filtragem das tags
85
Tabela 5: Correlação de Pearson entre o total de tags seqüenciados e o total de tags distintas dentro de
cada score.
Score
Correlação de Pearson
10
9
8
7
6
5
4
3
2
1
0
-1
-2
-3
-4
-5
-6
-7
-8
0,98
0,54
0,97
0,59
0,92
0,48
0,86
0,54
0,63
0,64
0,52
0,43
0,91
0,82
0,14
0,58
N/D
0,89
0,40
Nota: N/D-Não Disponı́vel.
classificadas com scores negativos (Figura 13b.)
(Medida-F 1,00), as duas bibliote-
cas de amostras obtidas de tecido de adenocarcinoma de cólon agrupam próximas
(SAGE Colon adenocarcinoma B Tu102 e SAGE Colon adenocarcinoma B Tu98) e as
demais bibliotecas agrupam próximas de acordo com as classes previamente definidas.
O resultado da análise utilizando a medida-F dos 14 grupos (Tabela6) revelou que os
agrupamentos de amostras com informações histológicas e patológicas conhecidas, de um
modo geral, foram em muitos casos (32,65%) foram mais concordantes com suas classes
pré-definidas (Seção 3.3.4) após a filtragem , em outros casos (58,16%), a filtragem não
afetou a qualidade geral do agrupamento e em poucos casos (9,18%), os agrupamentos
após a filtragem foram menos concordantes com suas classes previamente definidas.
O grupo com amostras de cérebro é um desses grupos que foram menos concordantes
após a filtragem. O grupo de cérebro é composto por muitas amostras heterogêneas em
subgrupos, o que torna difı́cil distingui-las dentro desse grupo, além disso essa classificação
é dependente da correta e precisa classificação das amostras, porém essa classificação
minuciosa não foi possı́vel devido ao acesso restrito das informações do material de origem.
86
Figura 12: Distribuições das porcentagens de tags únicas para cada grupo de tags classificadas com
determinado score.
O resultado da análise das 359 bibliotecas apontam que as tags com scores -2 são
as mais abundantes dentre aquelas classificadas com scores negativos (Figura 15). Isso
foi observado para quase todas as bibliotecas, considerando a contagem de tags únicas
(distintas) e o total de tags (somatório das freqüências) (95,26% e 99,16%, respectivamente) (Figura 14), o que obviamente afeta as diferenças entre os dados completos e os
dados após a filtragem, e pode indicar quais bibliotecas não têm tags informativas com
qualidade suficiente. O critério para essa consideração depende da estringência da análise
e dos requisitos necessários.
Como demonstração de que a classificação por meio das regras não é aleatória e
87
Figura 13: Bibliotecas SAGE de cólon agrupadas com o método de ligação completa usando a distância
euclidiana, com os dados antes (a) e depois (b) da filtragem de tags com scores negativos classificadas
com o S3T.
sim direcionada e a filtragem proposta é útil para a obtenção de agrupamentos mais
coerentes, realizamos uma avaliação com a medida-F antes e após a filtragem das tags
com scores negativos, os quais foram atribuı́dos de forma aleatória para as 359 bibliotecas.
O processo foi repetido 100 vezes e cada resultado reamostrado 100 vezes, considerando
aleatoriamente em cada reamostragem, 40% do total de casos de agrupamentos (98).
Cada caso corresponde a uma avaliação do valor da medida-F antes e após a filtragem.
As distribuições dos dados de porcentagem de casos onde o valor da medida-F aumentou,
permaneceu igual ou diminuiu, estão representadas na Figura 16. Os valores médios
dessas três distribuições foram comparados com as médias obtidas das reamostragens dos
resultados da análise original com S3T e de uma análise alternativa, na qual são filtradas
as tags com uma única cópia na biblioteca (Tabela 7 e Tabela 8). As diferenças são
88
Tabela 6: Grupos histológicos de bibliotecas SAGE usadas na análise de agrupamento hierárquico
executada antes e depois (*) da filtragem de tags com scores negativos classificadas com o S3T, Os pares de
células da tabela com valores em negrito representam os casos onde houve uma melhoria na qualidade geral
do agrupamento [Medida-F aumentou (21,43% casos - cluster3; 47,62% casos - simcluster)] ou a qualidade
se manteve (69,64% casos - cluster3; 42,86% casos - simcluster), nos pares de células remanescentes a
qualidade diminuiu [Medida-F diminui (8,93% - cluster3; 9,52% - simcluster)], ou seja, os resultados não
estão concordantes com as classes pré-definidas.
Id
Grupos
Tags únicas
Medida-F global
(Amostras)
*
cluster3 (HOON et al., 2004) / simcluster (VENCIO et al., 2007)
(%)
M
A
*
S
*
C
*
*
1
9(56)
29,21
0,65
0,70
0,69
0,72
0,62
0,65
0,57
0,64
0,55
0,49
0,54
0,58
0,52
0,52
2
2(7)
29,11
0,84
0,79
1,00
0,86
0,90
0,79
0,90
0,79
0,90
0,79
0,90
0,79
0,90
0,90
3
2(24)
30,88
0,88
0,88
0,88
0,94
0,88
0,87
0,88
0,88
0,88
0,83
0,90
0,87
0,88
0,88
4
4(12)
33,35
0,94
1,00
1,00
1,00
0,94
0,94
1,00
1,00
0,94
0,90
0,94
0,89
0,94
0,94
5
2(4)
28,80
0,83
0,83
0,83
0,83
0,83
0,83
0,83
0,83
0,83
0,83
0,83
0,83
0,83
0,83
6
2(4)
42,70
1,00
0,83
1,00
0,83
1,00
0,83
1,00
0,83
1,00
0,83
1,00
0,83
1,00
1,00
7
14(45)
34,72
0,72
0,67
0,74
0,77
0,69
0,63
0,64
0,69
0,64
0,57
0,64
0,61
0,61
0,61
8
2(5)
27,57
0,88
1,00
1,00
0,88
0,88
1,00
1,00
0,88
0,88
0,87
1,00
0,88
0,88
0,88
9
2(5)
41,48
0,88
0,88
0,88
0,88
0,88
0,85
0,88
0,88
0,75
0,85
0,75
0,85
0,75
0,75
10
4(8)
45,00
0,83
0,92
0,83
0,92
0,83
0,92
0,83
0,92
0,83
0,83
0,83
0,92
0,83
0,83
11
3(11)
40,70
0,90
0,80
0,90
0,86
0,90
0,90
0,90
0,90
0,90
0,86
0,90
0,86
0,90
0,90
12
2(5)
28,30
0,77
0,77
0,80
0,88
0,77
0,72
0,77
0,88
0,77
0,72
0,77
0,85
0,77
0,77
13
2(6)
37,71
0,90
0,80
1,00
0,80
0,90
0,80
0,90
0,80
0,90
0,80
0,90
0,80
0,90
0,90
14
5(12)
33,63
0,83
0,73
0,83
0,78
0,83
0,76
0,83
0,79
0,83
0,71
0,83
0,73
0,76
0,76
Nota: Métodos de agrupamento: M-Ligação completa (Pairwise complete-linkage); S-Ligação individual (Pairwise singlelinkage); C-Ligação centróide (Pairwise centroid-linkage); A-Ligação média (Pairwise average-linkage). Grupos histológicos: 1-cérebro; 2-cartilagem; 3-cerebelo; 4-cólon; 5-fı́gado; 6-pulmão; 7-glândula mamária; 8-outros; 9-ovário; 10-pâncreas;
11-próstata; 12-retina; 13-estômago; 14-células brancas do sangue. Filtragem: *-Dados filtrados.
significativas considerando um valor de significância (p-value) menor que 0,005, o que
indica que a aplicação das regras e filtragem é direcionada a obter uma maior quantidade
de casos onde a medida-F aumenta comparada com a filtragem baseada na classificação
89
Figura 14: Representatividade dos scores mais abundantes considerando tags únicas (distintas) e o total
de tags nos resultados da classificação com o S3T.
Figura 15: Gráfico na escala semi-logarı́tmica com as tags únicas e a freqüência de tags para 359
bibliotecas SAGE humanas analisadas com S3T.
aleatória ou na abordagem alternativa.
Análises de dados de outras espécies ou plataformas
Para demonstrar a possibilidade de análise de dados de outras espécies, foram realizadas análises com dados de SAGE da espécie Mus musculus e com dados de bibliotecas
humanas das plataformas LongSAGE e SBS de 17-pb e MPSS. Os resultados estão dis-
90
Tabela 7: Valores médios (x̄) e desvios padrões (s) obtidos dos resultados das avaliações com a medida-F
antes e após a filtragem das tags com scores negativos, considerando as reamostragens de 40% dos casos
de agrupamentos na reamostragem para cada resultado.
Filtragem
Medida-F maior
x̄
score (original) < 0
f (tag) = 1
score (aleatório) < 0
32,33
28,46
11,23
s
Medida-F igual
x̄
6,98 57,74
7,71 63,67
6,03 32,27
s
Medida-F menor
x̄
7,41 8,56
7,96 10,38
8,94 56,50
s
4,36
4,36
9,35
Tabela 8: Valores de diferença e de significância estatı́stica comparando as médias das porcentagens dos
casos de agrupamentos, considerando as diferentes estratégias de filtragem.
Comparação
Diferença
x̄OA − x̄NA
x̄OB − x̄NB
x̄OC − x̄NC
x̄OA − x̄UA
x̄OB − x̄UB
x̄OC − x̄UC
x̄UA − x̄NA
x̄UB − x̄NB
x̄UC − x̄NC
p-value
21,10 4.189434e-52
25,48 1.405614e-57
-47,94 7.168772e-112
3,87 2.568801e-04
-5,92 1.524146e-07
-1,82 3.558173e-03
17,23 1.317266e-40
31,40 4.037871e-63
-46,12 4.724241e-110
A-casos onde o valor da medida-F é maior após a filtagem; B-casos onde o valor da medida-F é igual após a filtagem;
C-casos onde o valor da medida-F é menor após a filtagem; O-análise utilizando a filtragem baseada na classificação
original com S3T; N-análise utilizando a filtragem baseada na classificação aleatória; U-análise utilizando a filtragem
alternativa ( f (tag) = 1);
ponı́veis na página de material suplementar do S3T3 .
4.2.2
Disponibilidade e requisitos do sistema S3T
A disponibilidade e os requisitos essenciais para a instalação básica do S3T estão
discriminadas a seguir. A instalação básica permite a utilização dos métodos contidos
nas suas bibliotecas e alguns scripts para análise via linha de comando. Os requisitos
especı́ficos podem ser encontrados através do URI informado.
Nome: S3T - Score System for Sequence Tags;
URI: http://gdm.fmrp.usp.br/s3t;
Requisitos: Sistema operacional do tipo UNIX (e.g. Linux, FreeBSD, Solaris),
Linguagem de Programação Perl versão maior ou igual a 5.8.0, SGBD MySQL maior
3
http://gdm.fmrp.usp.br/cgi-bin/s3t/index.pl/alone?template file=supplements
91
Figura 16: Histograma dos resultados dos agrupamentos hierárquicos avaliados com a medida-F antes
e após a filtragem das tags com scores negativos. As classificações foram realizadas atribuindo aleatoriamente os mesmos scores disponı́veis (10,...,-7). Esse processo foi repetido 100 vezes, sendo cada uma
reamostrada 100 vezes. A figura mostra 3 histogramas representando os resultados onde após a filtragem:
(a.) as medidas-F são maiores, (b.) as medidas-F permanecem iguais e (c.) as medidas-F são menores.
As linhas vermelhas representam a Função Densidade de Probabilidade (FDP) dos resultados obtidos a
partir das classificações aleatórias. A linha verde na vertical representa a média da reamostragem aleatória (100 vezes) dos resultados obtidos a partir da análise original com S3T. A linha amarela vertical
representa a média da reamostragem aleatória (100 vezes) dos resultados obtidos a partir da filtragem
das tags que aparecem uma única vez na biblioteca ( f (tag) = 1).
ou igual a 4.1.13;
Licença: GNU GPL.
92
5
Conclusões
As informações obtidas com o desenvolvimento deste trabalho possibilita apresentar
as seguintes conclusões:
Desenvolvemos uma plataforma para a análise dos perfis de expressão gênica associ-
ados a informações funcionais. Essa plataforma compreende dois sistemas: o H2G,
para análise de expressão gênica diferencial e o S3T, para auxiliar na filtragem dos
dados e minimizar a presença de ruı́dos. Ambos os sistemas contribuem para a
identificação de marcadores moleculares.
Os recursos dos sistemas desenvolvidos estão disponı́veis livremente à comunidade
cientı́fica e podem ser acessados via página web, a qual permite a visualização formatada do conteúdo. Para não ficar restrito às funcionalidades já implementadas,
os recursos também estão disponı́veis por meio das bibliotecas de desenvolvimento,
que permitem ao usuário estender ou implementar novas funcionalidades. Alguns
dos métodos desenvolvidos também estão disponı́veis via SOAP para que possam
acessar o conteúdo do servidor principal de dados constituı́do no LGMB;
A metodologia para depuração das bibliotecas de tags foi desenvolvida, implemen-
tada e testada. O resultado da análise das bibliotecas públicas de SAGE e as comparações dos agrupamento hierárquicos forneceram evidências de que as bibliotecas
de SAGE possuem em si uma série de artefatos ou outras tags que podem ser descartadas sem prejudicar o perfil global de expressão;
A análise de agrupamento fornece evidências de que o método com o conjunto de
regras selecionado para demonstração pode eliminar ruı́dos nos dados. Porém há
desafios que devem ser superados para uma avaliação mais criteriosa, como por
exemplo:
– identificação de amostras com baixa heterogeneidade para um determinado
tipo celular (e.g. amostras obtidas por microdissecção);
5 Conclusões
93
– identificação de bibliotecas com informações mais precisas a respeito da amostra, como por exemplo o estadiamento do tumor. As classificações das bibliotecas utilizando ontologias poderiam ser uma solução;
– utilização de critérios mais rigorosos para a inclusão da biblioteca na análise
(e.g. análise de qualidade da biblioteca);
– utilização de um número maior de bibliotecas para cada classe;
As análises do S3T com dados de bibliotecas de SAGE de camundongos (Mus muscu-
lus) e dados de MPSS, LongSAGE e SBS, demonstram que o método de classificação
e a ferramenta podem ser utilizados também com dados de outras espécies e outras
plataformas e tecnologias que seguem o mesmo princı́pio de SAGE.
O H2G tem sido utilizado como suporte a vários projetos (ZANETTE, 2003; PA-
NEPUCCI et al., 2004; SANTOS, 2006; SOUZA et al., 2006; PANEPUCCI et al.,
2007; PROTO-SIQUEIRA et al., 2008; MENDIBURU et al., 2008; SILVEIRA et
al., 2008; ALVES et al., 2008) e laboratórios, tais como:
– Laboratórios do Centro de Terapia Celular1 ;
– Rede de laboratórios do Projeto Genoma Clı́nico2 ;
– Instituto do Coração do Hospital das Clı́nicas;
– Instituto Ludwig de Pesquisas sobre o Câncer;
– Laboratórios de Investigações Médicas da FM-USP;
– Laboratório de Bioinformática do Hospital A.C.Camargo;
– Laboratório de Genética Molecular do Câncer da FM-USP;
– Laboratório de Polimorfismos de DNA;
– Laboratório de Endocrinologia da FMRP-USP;
– Laboratório de Genética da UNESP de São José do Rio Preto;
– Laboratório de Neuro Psico Farmacologia da FMRP-USP;
Além de atuar como um repositório de dados, o H2G tem sido utilizado para sele-
cionar genes candidatos à validação experimental. No caso da análise comparativa
entre tecido neoplásico e sua contraparte normal, é possı́vel selecionar genes diferencialmente expressos que potencialmente estão envolvidos com o desenvolvimento
do tumor;
1 http://ctc.fmrp.usp.br/
2 http://www.compbio.ludwig.org.br/clinicalgenomics/index.html
94
6
Perspectivas
Entre as perspectivas e desafios para futuras implementações que podem surgir como
conseqüências deste trabalho estão as seguintes:
As adaptações necessárias no sistema H2G deverão ser realizadas para permitir a
comparação de dados de expressão gênica em três ou mais amostras de distintos
tipos, condições ou situações biológicas de interesse, por exemplo, amostras nos
vários estágios de transformação e progressão tumoral;
A utilização de ontologias no sistema H2G serão necessárias para promover ainda
mais a integração dos dados e a organização da informação biológica;
Outras medidas para a avaliação das diferenças de expressão gênica podem ser adici-
onadas para complementar os resultados. Além da incorporação de outros métodos
de data mining, como por exemplo o algoritmos para extração de regras de associação, agrupamentos hierárquicos, agrupamentos k-means, entre outros que podem
auxiliar no processo de aquisição de conhecimento a partir desses dados;
Meta-análises podem ser incorporadas para tornar possı́vel a comparação dos dados
entre plataformas distintas;
Outras ferramentas de visualização também podem ser implementadas para tornar
a representação dos resultados mais informativas, como por exemplo a visualização
das regiões expressas dos cromossomos;
Utilizar o padrão MIAME para a organização e estruturação dos dados biológicos;
Incluir dados das tecnologias de microarrays;
Adaptações necessárias no S3T deverão ser feitas para a classificação dos dados
de expressão gênica de outras espécies, aumentando dessa forma, a abrangência da
aplicação;
6 Perspectivas
95
Considerar nas regras também os possı́veis polimorfismos que poderiam ocasionar
a ocorrência de tags alternativas verdadeiras, provavelmente contribuiria para uma
classificação mais precisa;
Estabelecer regras de classificação considerando outros conhecimentos a respeito
da natureza do dado biológico, como os encontrados em tipos celulares especı́ficos,
também poderia levar a uma classificação mais precisa;
A Incorporação de um valor de significância ou probabilidade para a classificação,
auxiliaria ainda mais a de avaliação da confiabilidade atribuı́da a uma determinada
tag. A obtenção desse valor poderia levar em conta as intersecções existentes entre
os conjuntos de tags virtuais;
Uma investigação minuciosa da origem das tags que não são compatı́veis com ne-
nhuma das regras estabelecidas pode agregar novos conhecimentos e melhorias ao
processo de classificação e também auxiliar no desenvolvimento e aperfeiçoamento
das tecnologias consideradas;
A incorporação de uma metodologia para a correção de potenciais erros de seqüenci-
amento e ajuste do valor de freqüência das tags, como as abordagens propostas por
Blades (2003), Akmaev e Wang (2004) e Beissbarth et al. (2004), podem contribuir
para a obtenção de perfis de expressão gênica ainda mais fidedignos;
A implementação de uma ferramenta “user-friendly” pode ser incorporada ao sistema
web para a configuração de um conjunto de regras personalizado. Essa melhoria
poderá auxiliar o pesquisador a estabelecer um conjunto de regras mais adequado
às suas necessidades;
Considerar outras montagens de genomas ou genomas de indivı́duos, se disponı́veis,
como no caso do genoma humano (LEVY et al., 2007; WHEELER et al., 2008).
Isso poderia auxiliar na detecção de possı́veis tags alternativas válidas;
Considerar um grupo de tags virtuais definidas a partir de predições gênicas. A
identidade de tags obtidas de experimentos reais com tags desse grupo poderiam ser
evidências de transcrição dessa região.
96
ADAMS, M. D. et al. Complementary dna sequencing: expressed sequence tags and human genome project. Science, Section of Receptor Biochemistry and Molecular Biology, National Institute of Neurological Disorders and Stroke, National Institutes of
Health, Bethesda, MD., v. 252, n. 5013, p. 1651–1656, Jun 1991.
AITCHISON, J. Simplicial inference. In: VIANA, M. A. G.; RICHARDS, D. S. P. (Ed.).
Algebraic methods in statistics and probability (Notre Dame, IN, 2000). Providence,
RI: Amer. Math. Soc., 2001. (Contemp. Math., v. 287), p. 1–22.
AKMAEV, V. R.; WANG, C. J. Correction of sequence-based artifacts in serial analysis
of gene expression. Bioinformatics, Genzyme Corporation, Framingham, MA 017019322, USA. [email protected], v. 20, n. 8, p. 1254–1263, May 2004.
ALVES, V. A. et al. Annexin a1 subcellular expression in laryngeal squamous cell carcinoma. Histopathology, Department of Pathology, School of Medicine, USP, Sao
Paulo, Brazil., v. 53, n. 6, p. 715–727, Dec 2008.
AMBROS, V. The functions of animal micrornas. Nature, Dartmouth Medical
School, Department of Genetics, Hanover, New Hampshire 03755, USA (e-mail:
[email protected]), v. 431, n. 7006, p. 350–355, Sep 2004.
AMBROS, V. et al. A uniform system for microrna annotation. RNA, Dartmouth Medical School Department of Genetics, Hanover, New Hampshire 03755, USA. [email protected], v. 9, n. 3, p. 277–279, Mar 2003.
ANGELASTRO, J. M.; KLIMASCHEWSKI, L. P.; VITOLO, O. V. Improved nlaiii digestion of page-purified 102 bp ditags by addition of a single purification step in
both the sage and microsage protocols. Nucleic Acids Res, Department of Pathology and Taub Center for Alzheimer’s Disease Research and Center for Neurobiology
and Behavior, College of Physicians and Surgeons, Columbia University, New York,
NY 10032, USA. [email protected], v. 28, n. 12, p. E62, Jun 2000.
APWEILER, R. et al. Uniprot: the universal protein knowledgebase. Nucleic Acids Res,
The EMBL Outstation–European Bioinformatics Institute, Wellcome Trust Genome
Campus, Hinxton, Cambridge CB10 1SD, UK. [email protected], v. 32, n. Database issue, p. D115–D119, Jan 2004.
AUDIC, S.; CLAVERIE, J. M. The significance of digital gene expression profiles. Genome Res, Laboratory of Structural and Genetic Information, Centre National de
la Recherche Scientifique-E.P.91, Marseille 13402, France., v. 7, n. 10, p. 986–995,
Oct 1997.
97
BALA, P. et al. Tagmapper: a web-based tool for mapping sage tags. Gene, Institute
of Bioinformatics, International Tech Park, Whitefield Road, Bangalore 560 066,
India., v. 364, p. 123–129, Dec 2005.
BARRETT, T. et al. Ncbi geo: mining millions of expression profiles–database and tools.
Nucleic Acids Res, National Center for Biotechnology Information, National Library
of Medicine, National Institutes of Health, 45 Center Drive, Bethesda, MD, USA.,
v. 33, n. Database issue, p. D562–D566, Jan 2005.
BARTEL, D. P. Micrornas: genomics, biogenesis, mechanism, and function. Cell, Whitehead Institute for Biomedical Research, 9 Cambridge Center, Cambridge, MA
02142, USA. [email protected], v. 116, n. 2, p. 281–297, Jan 2004.
BEISSBARTH, T. et al. Statistical modeling of sequencing errors in sage libraries. Bioinformatics, Walter and Eliza Hall Institute of Medical Research, Genetics and
Bioinformatics, Parkville, Vic, Australia. [email protected], v. 20 Suppl 1, p.
i31–i39, Aug 2004.
BENNETT, S. T. et al. Toward the 1,000 dollars human genome. Pharmacogenomics, Solexa Limited, Chesterford Research Park,Little Chesterford,Essex CB10 1XL, UK.,
v. 6, n. 4, p. 373–382, Jun 2005.
BENSON, D. A. et al. Genbank. Nucleic Acids Res, National Center for Biotechnology
Information, National Library of Medicine, National Institutes of Health, Bethesda,
MD, USA., v. 37, n. Database issue, p. D26–D31, Jan 2009.
BENTLEY, D. R. et al. Accurate whole human genome sequencing using reversible terminator chemistry. Nature, Illumina Cambridge Ltd. (Formerly Solexa Ltd), Chesterford Research Park, Little Chesterford, Nr Saffron Walden, Essex CB10 1XL, UK.
[email protected], v. 456, n. 7218, p. 53–59, Nov 2008.
BESSON, J. et al. Constraint-based concept mining and its application to microarray
data analysis. Intell. Data Anal., IOS Press, Amsterdam, The Netherlands, The
Netherlands, v. 9, n. 1, p. 59–82, 2005. ISSN 1088-467X.
BLADES, N. J. Statistical methods for serial analysis of gene expression. Tese (Doutorado)
— The Johns Hopkins University, 2003.
BOGUSKI, M. S.; LOWE, T. M.; TOLSTOSHEV, C. M. dbest–database for ’expressed
sequence tags’. Nat Genet, v. 4, n. 4, p. 332–333, Aug 1993.
BOGUSKI, M. S.; TOLSTOSHEV, C. M.; DE, J. r. B. Gene discovery in dbest. Science,
v. 265, n. 5181, p. 1993–1994, Sep 1994.
BOON, K. et al. An anatomy of normal and malignant gene expression. Proc Natl Acad
Sci U S A, Duke University Medical Center, Durham, NC 27710, USA., v. 99, n. 17,
p. 11287–11292, Aug 2002.
BRANDÃO, R. M. Abordagem computacional aplicada ao desenvolvimento de um SAGEmap de Apis mellifera. Dissertação (Mestrado) — Faculdade de Medicina de
Ribeirão Preto – Universidade de São Paulo, 2009.
98
BRAZMA, A. et al. Minimum information about a microarray experiment (miame)toward standards for microarray data. Nat Genet, European Bioinformatics Institute, EMBL outstation, Wellcome Trust Genome Campus, Hinxton, Cambridge
CB10 1SD, UK. [email protected], v. 29, n. 4, p. 365–371, Dec 2001.
BRAZMA, A. et al. Arrayexpress–a public repository for microarray gene expression data
at the ebi. Nucleic Acids Res, European Bioinformatics Institute, EMBL-EBI, Wellcome Trust Genome Campus, Hinxton CB10 1SD, UK. [email protected], v. 31,
n. 1, p. 68–71, Jan 2003.
BRAZMA, A.; VILO, J. Gene expression data analysis. FEBS Lett, European Molecular Biology Laboratory, Outstation Hinxton-The European Bioinformatics Institute,
Cambridge, UK. [email protected], v. 480, n. 1, p. 17–24, Aug 2000.
BRENNER, S. et al. Gene expression analysis by massively parallel signature sequencing (mpss) on microbead arrays. Nat Biotechnol, Lynx Therapeutics, Inc., 25861
Industrial Blvd., Hayward, California 94545, USA., v. 18, n. 6, p. 630–634, Jun 2000.
BRENNER, S. et al. In vitro cloning of complex mixtures of dna on microbeads: physical
separation of differentially expressed cdnas. Proc Natl Acad Sci U S A, Lynx Therapeutics, Inc., 25861 Industrial Boulevard, Hayward, CA 94545, USA., v. 97, n. 4,
p. 1665–1670, Feb 2000.
BURGE, C. B.; KARLIN, S. Finding the genes in genomic dna. Curr Opin Struct Biol,
Center for Cancer Research, Massachusetts Institute of Technology, Cambridge
02139, USA. [email protected], v. 8, n. 3, p. 346–354, Jun 1998.
BUTTE, A. The use and analysis of microarray data. Nat Rev Drug Discov,
Children’s Hospital Informatics Program and Division of Endocrinology, Children’s Hospital, 300 Longwood Avenue, Boston, Massachusetts 02115, USA.
atul [email protected], v. 1, n. 12, p. 951–960, Dec 2002.
CA, . r. d. H. Dna sequencing: bench to bedside and beyond. Nucleic Acids Res, J.
Craig Venter Institute, 9704 Medical Center Drive, Rockville, MD 20850, USA.
[email protected], v. 35, n. 18, p. 6227–6237, 2007.
CAI, L. et al. Clustering analysis of sage data using a poisson approach. Genome Biol,
Department of Biostatistics, Harvard School of Public Health, 66 Huntington Avenue, Boston, MA 02115, USA. [email protected], v. 5, n. 7, p. R51,
2004.
CAMON, E. et al. The gene ontology annotation (goa) database: sharing knowledge
in uniprot with gene ontology. Nucleic Acids Res, European Bioinformatics Institute (EBI), Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, UK.
[email protected], v. 32, n. Database issue, p. D262–D266, Jan 2004.
CARON, H. et al. The human transcriptome map: clustering of highly expressed genes in
chromosomal domains. Science, Department of Human Genetics, Department of Pediatric Oncology, Emma Children’s Hospital, Academic Medical Center, University
of Amsterdam, Post Office Box 22700, 1100 DE Amsterdam, Netherlands., v. 291,
n. 5507, p. 1289–1292, Feb 2001.
99
CHEN, H. et al. Characterization of gene expression in resting and activated mast cells.
J Exp Med, Arthritis and Rheumatism Branch, National Institute of Arthritis and
Musculoskeletal and Skin Diseases, National Institutes of Health, Bethesda, MD
20892, USA. [email protected], v. 188, n. 9, p. 1657–1668, Nov 1998.
CHEN, J. et al. High-throughput glgi procedure for converting a large number of serial
analysis of gene expression tag sequences into 3’ complementary dnas. Genes Chromosomes Cancer, Department of Medicine, University of Chicago, Chicago, IL
60637, USA., v. 33, n. 3, p. 252–261, Mar 2002.
CHEN, J.; RATTRAY, M. Analysis of tag-position bias in mpss technology. BMC Genomics, School of Computer Science, University of Manchester, Manchester, UK.
[email protected], v. 7, p. 77, 2006.
CHEN, J. et al. Identifying novel transcripts and novel genes in the human genome by
using novel sage tags. Proc Natl Acad Sci U S A, Department of Medicine, University
of Chicago, 5841 South Maryland, MC2115, Chicago, IL 60637, USA., v. 99, n. 19,
p. 12257–12262, Sep 2002.
CHUAQUI, R. F. et al. Post-analysis follow-up and validation of microarray experiments.
Nat Genet, Pathogenetics Unit, Laboratory of Pathology and Urologic Oncology
Branch, Center for Cancer Research, National Cancer Institute, Bethesda, Maryland
20892, USA., v. 32 Suppl, p. 509–514, Dec 2002.
CLAVERIE, J. M. Computational methods for the identification of differential and coordinated gene expression. Hum Mol Genet, Structural and Genetic Information
Laboratory, Chemin Joseph Aiguier, Marseille, France. [email protected], v. 8,
n. 10, p. 1821–1832, 1999.
COCHRANE, G. et al. Petabyte-scale innovations at the european nucleotide archive.
Nucleic Acids Res, EMBL-European Bioinformatics Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, UK. [email protected], v. 37, n.
Database issue, p. D19–D25, Jan 2009.
COLINGE, J.; FEGER, G. Detecting the impact of sequencing errors on sage data. Bioinformatics, Serono Pharmaceutical Research Institute, Ch. des Aulx 14, CH-1228
Plan-les-Ouates, Switzerland., v. 17, n. 9, p. 840–842, Sep 2001.
CUMMINS, J. M. et al. The colorectal micrornaome. Proc Natl Acad Sci U S A, The Sidney Kimmel Comprehensive Cancer Center and Howard Hughes Medical Institute,
Johns Hopkins University Medical Institutions, Baltimore, MD 21231, USA., v. 103,
n. 10, p. 3687–3692, Mar 2006.
DATE, C. J. An Introduction to Database Systems. Boston, MA, USA: Addison-Wesley
Longman Publishing Co., Inc., 2003. ISBN 0321197844.
DATSON, N. A. et al. Microsage: a modified procedure for serial analysis of gene expression in limited amounts of tissue. Nucleic Acids Res, Division of Medical Pharmacology, Leiden/Amsterdam Center for Drug Research, Leiden University, PO Box
9503, 2300 RA Leiden, The Netherlands. datson [email protected], v. 27, n. 5,
p. 1300–1307, Mar 1999.
100
DIVINA, P.; FOREJT, J. The mouse sage site: database of public mouse sage libraries.
Nucleic Acids Res, Centre for Integrated Genomics, Institute of Molecular Genetics,
Academy of Sciences of the Czech Republic, Videnska 1083, CZ-142 20, Prague 4,
Czech Republic., v. 32, n. Database issue, p. D482–D483, Jan 2004.
EDGAR, R.; DOMRACHEV, M.; LASH, A. E. Gene expression omnibus: Ncbi gene expression and hybridization array data repository. Nucleic Acids Res, National Center
for Biotechnology Information, National Library of Medicine, National Institutes of
Health, Lister Hill Center, 8600 Rockville Pike, Bethesda, MD 20894, USA., v. 30,
n. 1, p. 207–210, Jan 2002.
EILBECK, K. et al. The sequence ontology: a tool for the unification of genome annotations. Genome Biol, Department of Molecular and Cellular Biology, Life Sciences Addition, University of California, Berkeley, CA 94729-3200, USA. [email protected], v. 6, n. 5, p. R44, 2005.
EISEN, M. B. et al. Cluster analysis and display of genome-wide expression patterns.
Proc Natl Acad Sci U S A, Department of Genetics, Stanford University School of
Medicine, 300 Pasteur Avenue, Stanford, CA 94305, USA., v. 95, n. 25, p. 14863–
14868, Dec 1998.
ELMASRI, R.; NAVATHE, S. B. Fundamentals of Database Systems (5th
Edition). Addison Wesley, 2006. Hardcover. ISBN 0321369572. Disponı́vel
em:
<http://www.amazon.ca/exec/obidos/redirect?tag=citeulike0920&path=ASIN/0321369572>.
EMMERT-BUCK, M. R. et al. Molecular profiling of clinical tissue specimens: feasibility and applications. Am J Pathol, Pathogenetics Unit, Laboratory of Pathology,
National Cancer Institute, Bethesda, Maryland 20892, USA. [email protected],
v. 156, n. 4, p. 1109–1115, Apr 2000.
EWING, B. et al. Base-calling of automated sequencer traces using phred. i. accuracy
assessment. Genome Res, Department of Molecular Biotechnology, University of
Washington, Seattle, Washington 98195-7730, USA., v. 8, n. 3, p. 175–185, Mar
1998.
FISHER, R. A. On the interpretation of χ 2 from contingency tables and the calculation
of p. Journal of the Royal Statistical Society, v. 85, p. 87–94, 1922.
FITCH, W. M. Distinguishing homologous from analogous proteins. Syst Zool, v. 19, n. 2,
p. 99–113, Jun 1970.
FREEMAN, W. M.; ROBERTSON, D. J.; VRANA, K. E. Fundamentals of dna hybridization arrays for gene expression analysis. Biotechniques, Wake Forest University
School of Medicine, Winston-Salem, NC, USA., v. 29, n. 5, p. 1042–6, 1048–55, Nov
2000.
GALANTE, P. A. et al. Automatic correspondence of tags and genes (actg): a tool for
the analysis of sage, mpss and sbs data. Bioinformatics, Departamento de Bioquimica, Instituto de Quimica, Universidade de Sao Paulo, Sao Paulo, Brazil. [email protected], v. 23, n. 7, p. 903–905, Apr 2007.
101
GARRETT, J. J. Ajax: A New Approach to Web Applications. 2005. Disponı́vel
em: <http://www.adaptivepath.com/ideas/essays/archives/000385.php>. Acesso
em: 16 mai. 2009.
GE, X. et al. A large quantity of novel human antisense transcripts detected by longsage.
Bioinformatics, Center for Functional Genomics, Division of Medical Genetics, Department of Medicine, ENH Research Institute, Northwestern University Feinberg
School of Medicine 1001 University Place, Evanston, IL 60201 USA., v. 22, n. 20, p.
2475–2479, Oct 2006.
GENTLEMAN, R. C. et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biol, Department of Biostatistical Science, Dana-Farber Cancer Institute, 44 Binney St, Boston, MA 02115, USA. [email protected], v. 5, n. 10, p. R80, 2004.
GOLUB, T. R. et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, Whitehead Institute/Massachusetts
Institute of Technology Center for Genome Research, Cambridge, MA 02139, USA.
[email protected], v. 286, n. 5439, p. 531–537, Oct 1999.
GOTO, S.; NISHIOKA, T.; KANEHISA, M. Ligand: chemical database of enzyme reactions. Nucleic Acids Res, Institute for Chemical Research, Kyoto University, Uji,
Kyoto 611-0011, Japan. [email protected], v. 28, n. 1, p. 380–382, Jan 2000.
GOWDA, M. et al. Robust-longsage (rl-sage): a substantially improved longsage method
for gene discovery and transcriptome analysis. Plant Physiol, Department of Plant
Pathology, Ohio State University, Columbus, Ohio 43210, USA., v. 134, n. 3, p.
890–897, Mar 2004.
GRAFF, J. C. et al. A comprehensive sage database for the analysis of gammadelta t cells.
Int Immunol, Veterinary Molecular Biology, Montana State University, Bozeman,
MT 59717, USA., v. 18, n. 4, p. 613–626, Apr 2006.
GRELLER, L. D.; TOBIN, F. L. Detecting selective expression of genes and proteins.
Genome Res, Bioinformatics-Mathematical Biology, SmithKline Beecham Pharmaceuticals Research & Development, King of Prussia, Pennsylvania 19406
USA.Larry [email protected], v. 9, n. 3, p. 282–296, Mar 1999.
GRIFFITHS-JONES, S. The microrna registry. Nucleic Acids Res, The Wellcome Trust
Sanger Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 9SA,
UK. [email protected], v. 32, n. Database issue, p. D109–D111, Jan 2004.
GRIFFITHS-JONES, S. et al. mirbase: microrna sequences, targets and gene nomenclature. Nucleic Acids Res, The Wellcome Trust Sanger Institute, Wellcome Trust
Genome Campus, Hinxton, Cambridge CB10 1SA, UK. [email protected], v. 34, n.
GRIFFITHS-JONES, S. et al. mirbase: tools for microrna genomics. Nucleic Acids Res,
Faculty of Life Sciences, University of Manchester, Michael Smith Building, Oxford
Road, Manchester, UK. [email protected], v. 36, n. Database
issue, p. D154–D158, Jan 2008.
102
GRUBER, T. R. A translation approach to portable ontology specifications. Knowl. Acquis., Academic Press Ltd., London, UK, UK, v. 5, n. 2, p. 199–220, 1993. ISSN
1042-8143.
GUSFIELD, D. Algorithms on String, Trees, and Sequences. Cambridge: Cambridge University Press, 1997.
HANRIOT, L. et al. A combination of longsage with solexa sequencing is well suited to
explore the depth and the complexity of transcriptome. BMC Genomics, UMR5534
CNRS Universite Claude Bernard Lyon1, Universite de Lyon, Institut Federatif des
Neurosciences de Lyon, Lyon cedex, France. [email protected], v. 9, p. 418,
2008.
HARBERS, M.; CARNINCI, P. Tag-based approaches for transcriptome research
and genome annotation. Nat Methods, K.K. Dnaform, Tsukuba Branch, 31 Chuo 8-chome, Ami Machi, Inashiki Gun, Ibaraki, 300-0332, Japan.
[email protected], v. 2, n. 7, p. 495–502, Jul 2005.
HARRIS, M. A. et al. The gene ontology (go) database and informatics resource. Nucleic
Acids Res, GO-EBI, Hinxton, UK., v. 32, n. Database issue, p. D258–D261, Jan
2004.
HARTE, N. et al. Public web-based services from the european bioinformatics institute. Nucleic Acids Res, European Bioinformatics Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge, CB10 1SD, UK., v. 32, n. Web Server issue, p.
W3–W9, Jul 2004.
HASHIMOTO, S. et al. 5’-end sage for the analysis of transcriptional start sites. Nat
Biotechnol, v. 22, n. 9, p. 1146–1149, Sep 2004.
HAVERTY, P. M. et al. Limited agreement among three global gene expression methods
highlights the requirement for non-global validation. Bioinformatics, Bioinformatics
Program, Brigham and Women’s Hospital, Harvard Medical School, Boston, MA,
USA., v. 20, n. 18, p. 3431–3441, Dec 2004.
HIETER, P.; BOGUSKI, M. Functional genomics: it’s all how you read it. Science,
Center for Molecular Medicine and Therapeutics, Department of Medical Genetics,
University of British Columbia, Vancouver, BC, V6T124 Canada., v. 278, n. 5338,
p. 601–602, Oct 1997.
HISHIKI, T. et al. Bodymap: a human and mouse gene expression database. Nucleic Acids
Res, Institute for Molecular and Cellular Biology, Osaka University, 1-3 Yamadaoka,
Suita, Osaka 565-0871, Japan., v. 28, n. 1, p. 136–138, Jan 2000.
HOON, M. J. de et al. Open source clustering software. Bioinformatics, Human Genome Center, Institute of Medical Science, University of Tokyo, 4-6-1 Shirokanedai, Minato-ku, Tokyo, 108-8639 Japan. [email protected], v. 20, n. 9, p.
1453–1454, Jun 2004.
ISELI, C.; JONGENEEL, C. V.; BUCHER, P. Estscan: a program for detecting, evaluating, and reconstructing potential coding regions in est sequences. Proc Int Conf
103
Intell Syst Mol Biol, Swiss Institute of Bioinformatics, Epalinges, Switzerland.
[email protected], p. 138–148, 1999.
JONGENEEL, C. V. et al. An atlas of human gene expression from massively parallel
signature sequencing (mpss). Genome Res, Office of Information Technology, Ludwig
Institute for Cancer Research, and Swiss Institute of Bioinformatics, 1015 Lausanne,
Switzerland. [email protected], v. 15, n. 7, p. 1007–1014, Jul 2005.
KAL, A. J. et al. Dynamics of gene expression revealed by comparison of serial analysis of
gene expression transcript profiles from yeast grown on two different carbon sources.
Mol Biol Cell, Department of Biochemistry, University of Amsterdam, Academic
Medical Center, 1105 AZ Amsterdam, The Netherlands., v. 10, n. 6, p. 1859–1872,
Jun 1999.
KAMPEN, A. H. van et al. Usage: a web-based approach towards the analysis of sage
data. serial analysis of gene expression. Bioinformatics, Bioinformatics Laboratory,
Academic Medical Center, Meibergdreef 9, 1000 AZ Amsterdam, The Netherlands.
KANEHISA, M. et al. Kegg for linking genomes to life and the environment. Nucleic Acids
Res, Bioinformatics Center, Institute for Chemical Research, Kyoto University, Uji,
Kyoto, Japan., v. 36, n. Database issue, p. D480–D484, Jan 2008.
KANEHISA, M.; GOTO, S. Kegg: kyoto encyclopedia of genes and genomes. Nucleic
Acids Res, Institute for Chemical Research, Kyoto University, Uji, Kyoto 611-0011,
Japan. [email protected], v. 28, n. 1, p. 27–30, Jan 2000.
KAWAMOTO, S. et al. Expression profiling by iaflp: A pcr-based method for genomewide gene expression profiling. Genome Res, Institute for Molecular and Cellular
Biology, Osaka University, 1-3, Yamada-oka, Suita, Osaka 565 Japan., v. 9, n. 12,
p. 1305–1312, Dec 1999.
KEIME, C. et al. Identitag, a relational database for sage tag identification and interspecies comparison of sage libraries. BMC Bioinformatics, Equipe Signalisation et identites cellulaires, Centre de Genetique Moleculaire et Cellulaire CNRS UMR 5534,
Universite Claude Bernard Lyon 1, batiment Gregor Mendel, 16 rue Raphael Dubois
69622 Villeurbanne cedex France. [email protected], v. 5, p. 143, Oct 2004.
KEIME, C. et al. Unexpected observations after mapping longsage tags to the
human genome. BMC Bioinformatics, Universite de Lyon, Lyon, France.
KEL-MARGOULIS, O. V. et al. Compel: a database on composite regulatory elements providing combinatorial transcriptional regulation. Nucleic Acids Res, Institute of Cytology, SB RAN, 10 Lavrentyev pr., 630090, Novosibirsk, Russia.
[email protected], v. 28, n. 1, p. 311–315, Jan 2000.
KELLER, A.; BACKES, C.; LENHOF, H. P. Computation of significance scores of
unweighted gene set enrichment analyses. BMC Bioinformatics, Center for Bioinformatics, Saarland University, Building E1 1, 66804 Saarbrucken, Germany.
104
KELSO, J. et al. evoc: a controlled vocabulary for unifying gene expression data. Genome
Res, South African National Bioinformatics Institute, University of the Western
Cape, Bellville, South Africa., v. 13, n. 6A, p. 1222–1230, Jun 2003.
KENT, W. J. Blat–the blast-like alignment tool. Genome Res, Department of Biology and
Center for Molecular Biology of RNA, University of California-Santa Cruz, Santa
Cruz, CA 95064, USA. [email protected], v. 12, n. 4, p. 656–664, Apr 2002.
KENT, W. J. et al. The human genome browser at ucsc. Genome Res, Department of Molecular, Cellular, and Developmental Biology, University of California, Santa Cruz,
CA 95064, USA. [email protected], v. 12, n. 6, p. 996–1006, Jun 2002.
KENZELMANN, M.; MUHLEMANN, K. Substantially enhanced cloning efficiency of
sage (serial analysis of gene expression) by adding a heating step to the original
protocol. Nucleic Acids Res, Institute of Medical Microbiology, University of Bern,
Friedbuhlstrasse 51, 3010 Bern, Switzerland., v. 27, n. 3, p. 917–918, Feb 1999.
KEOHAVONG, P.; THILLY, W. G. Fidelity of dna polymerases in dna amplification. Proc
Natl Acad Sci U S A, Center for Environmental Health Sciences, Whitaker College
of Health Sciences and Technology, Cambridge, MA., v. 86, n. 23, p. 9253–9257, Dec
1989.
KIDD, J. M. et al. Mapping and sequencing of structural variation from eight human
genomes. Nature, Department of Genome Sciences and Howard Hughes Medical Institute, University of Washington, Seattle, Washington 98195, USA., v. 453, n. 7191,
p. 56–64, May 2008.
KOLCHANOV, N. A. et al. Integrated databases and computer systems for studying
eukaryotic gene expression. Bioinformatics, Institute of Cytology & Genetics,
Siberian Branch of the Russian Academy of Sciences, Prosp. Lavrentieva 10, Novosibirsk 630090, Russia. [email protected], v. 15, n. 7-8, p. 669–686, Jul 1999.
KORBEL, J. O. et al. Paired-end mapping reveals extensive structural variation in the
human genome. Science, Molecular Biophysics and Biochemistry Department, Yale
University, New Haven, CT 06520, USA., v. 318, n. 5849, p. 420–426, Oct 2007.
KUO, B. Y. et al. Sage2splice: unmapped sage tags reveal novel splice junctions. PLoS
Comput Biol, Genetics Graduate Program, University of British Columbia, Vancouver, British Columbia, Canada., v. 2, n. 4, p. e34, Apr 2006.
KUO, W. P. et al. A sequence-oriented comparison of gene expression measurements across
different hybridization-based technologies. Nat Biotechnol, Department of Developmental Biology, Harvard School of Dental Medicine, 188 Longwood Ave., Boston,
Massachusetts 02115, USA. [email protected], v. 24, n. 7, p. 832–840,
Jul 2006.
LAL, A. et al. A public database for gene expression in human cancers. Cancer Res,
Department of Pathology, Duke University Medical Center, Durham, North Carolina
27710, USA., v. 59, n. 21, p. 5403–5407, Nov 1999.
105
LANDER, E. S. et al. Initial sequencing and analysis of the human genome. Nature, Whitehead Institute for Biomedical Research, Center for Genome Research, Cambridge,
Massachusetts 02142, USA. [email protected], v. 409, n. 6822, p. 860–921,
Feb 2001.
LASH, A. E. et al. Sagemap: a public gene expression resource. Genome Res, National
Center for Biotechnology Information, National Institutes of Health, Bethesda, MD
20894 USA. [email protected], v. 10, n. 7, p. 1051–1060, Jul 2000.
LEE, S. et al. Correct identification of genes from serial analysis of gene expression tag
sequences. Genomics, Department of Medicine, University of Chicago, 5841 S. Maryland, MC2115, Chicago, Illinois 60637, USA., v. 79, n. 4, p. 598–602, Apr 2002.
LEE, T. L. et al. Germsage: a comprehensive sage database for transcript discovery on
male germ cell development. Nucleic Acids Res, Section on Developmental Genomics, Laboratory of Clinical Genomics, Eunice Kennedy Shriver National Institute
of Child Health and Human Development, National Institutes of Health, Bethesda,
MD 20892, USA., v. 37, n. Database issue, p. D891–D897, Jan 2009.
LEVINE, M.; TJIAN, R. Transcription regulation and animal diversity. Nature, Department of Molecular and Cell Biology, Division of Genetics and Development, Center for Integrative Genomics, University of California, Berkeley, 401 Barker Hall,
Berkeley, California 94720, USA. [email protected], v. 424, n. 6945, p.
147–151, Jul 2003.
LEVY, S. et al. The diploid genome sequence of an individual human. PLoS Biol, J. Craig
Venter Institute, Rockville, Maryland, USA. [email protected], v. 5, n. 10, p. e254, Sep
2007.
LEYRITZ, J. et al. Squat: A web tool to mine human, murine and avian sage data.
BMC Bioinformatics, Equipe Bases Moleculaires de l’Autorenouvellement et de
ses Alterations, Universite de Lyon, F-69622, Universite Lyon 1, Villeurbanne,
CNRS, UMR5534, Centre de Genetique Moleculaire et Cellualire, Lyon, France.
LIANG, P. Sage genie: a suite with panoramic view of gene expression. Proc Natl Acad
Sci U S A, Department of Cancer Biology, 658 MRB II, Vanderbilt-Ingram Cancer Center, Nashville, TN 37232, USA. [email protected], v. 99, n. 18, p.
11547–11548, Sep 2002.
LIU, F. et al. Comparison of hybridization-based and sequencing-based gene expression
technologies on biological replicates. BMC Genomics, Department of Tumor Biology, Rikshopitalet-Radiumhospitalet Medical Center, Montebello, Oslo, Norway.
LOCKHART, D. J. et al. Expression monitoring by hybridization to high-density oligonucleotide arrays. Nat Biotechnol, Affymetrix, Santa Clara, CA 95051, USA. david [email protected], v. 14, n. 13, p. 1675–1680, Dec 1996.
LOTTAZ, C. et al. Modeling sequencing errors by combining hidden markov
models. Bioinformatics, Swiss Institute of Bioinformatics, Switzerland. [email protected], v. 19 Suppl 2, p. ii103–ii112, Oct 2003.
106
LöNNSTEDT, I.; SPEED, T. Replicated microarray data. Statistica Sinica, v. 12, p.
31–46, 2001.
MAGLOTT, D. et al. Entrez gene: gene-centered information at ncbi. Nucleic Acids
Res, National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD 20892-6510, USA. [email protected], v. 35, n. Database issue, p. D26–D31, Jan 2007.
MALIG, R. et al. Accurate and unambiguous tag-to-gene mapping in serial analysis of gene expression. BMC Bioinformatics, Departamento de Genetica Molecular y Microbiologia, Facultad de Ciencias Biologicas, Pontificia Universidad Catolica de Chile, Alameda 340, Santiago, Chile. [email protected]
<[email protected]>, v. 7, p. 487, 2006.
MAN, M. Z.; WANG, X.; WANG, Y. Power sage: comparing statistical tests for sage experiments. Bioinformatics, Biostatisties, PGRD, 2800 Plymouth Road, Ann Arbor,
MI 48105, USA. [email protected], v. 16, n. 11, p. 953–959, Nov 2000.
MARDIS, E. R. The impact of next-generation sequencing technology on genetics. Trends
Genet, Genome Sequencing Center, Washington University School of Medicine, St.
Louis, MO 63108, USA. [email protected], v. 24, n. 3, p. 133–141, Mar
2008.
MARDIS, E. R. Next-generation dna sequencing methods. Annu Rev Genomics Hum
Genet, Department of Genetics and Molecular Microbiology and Genome Sequencing Center, Washington University School of Medicine, St. Louis MO 63108, USA.
[email protected], v. 9, p. 387–402, 2008.
MARGULIES, E. H.; INNIS, J. W. esage: managing and analysing data generated with
serial analysis of gene expression (sage). Bioinformatics, Departments of Human
Genetics Pediatrics & Communicable Diseases, University of Michigan Medical
School Ann Arbor, Michigan 48109-0618, USA. [email protected], v. 16, n. 7, p.
650–651, Jul 2000.
MARGULIES, E. H.; KARDIA, S. L.; INNIS, J. W. Identification and prevention of a gc
content bias in sage libraries. Nucleic Acids Res, Department of Human Genetics,
University of Michigan Medical School and Department of Epidemiology, University
of Michigan School of Public Health, Ann Arbor, MI 48109, USA., v. 29, n. 12, p.
E60–E60, Jun 2001.
MARGULIES, M. et al. Genome sequencing in microfabricated high-density picolitre reactors. Nature, 454 Life Sciences Corp., 20 Commercial Street, Branford, Connecticut
06405, USA., v. 437, n. 7057, p. 376–380, Sep 2005.
MATSUMURA, H. et al. Supersage: a modern platform for genome-wide quantitative
transcript profiling. Curr Pharm Biotechnol, Iwate Biotechnology Research Center,
Narita 22-174-4, Kitakami, Iwate, 024-0003, Japan. [email protected], v. 9, n. 5,
p. 368–374, Oct 2008.
MATSUMURA, H. et al. Gene expression analysis of plant host-pathogen interactions by
supersage. Proc Natl Acad Sci U S A, Iwate Biotechnology Research Center, Narita
107
22-174-4, Kitakami, Iwate, 024-0003, Japan., v. 100, n. 26, p. 15718–15723, Dec
2003.
MEGRAW, M. et al. mirgen: a database for the study of animal microrna genomic organization and function. Nucleic Acids Res, Center for Bioinformatics, University
of Pennsylvania, Philadelphia, PA, USA. [email protected], v. 35, n.
MENDIBURU, C. F. et al. Global gene expression profile in myelodysplastic syndromes
using sage. Genet Mol Res, Departamento de Biologia, Instituto de Biociencia Letras
e Ciencias Exatas, Universidade Estadual de Sao Paulo, Sao Jose do Rio Preto, SP,
Brasil. [email protected], v. 7, n. 4, p. 1245–1250, 2008.
MERKEROVA, M. et al. Microrna expression profiles in umbilical cord blood cell lineages.
Stem Cells Dev, May 2009. (ENG).
METZKER, M. L. Emerging technologies in dna sequencing. Genome Res, Human Genome Sequencing Center and Department of Molecular and Human Genetics, Baylor
College of Medicine, Houston, Texas 77030, USA. [email protected], v. 15,
n. 12, p. 1767–1776, Dec 2005.
MEYERS, B. C. et al. The use of mpss for whole-genome transcriptional analysis in
arabidopsis. Genome Res, Department of Plant and Soil Sciences, and Delaware
Biotechnology Institute, University of Delaware, Newark, Delaware 19714, USA.
[email protected], v. 14, n. 8, p. 1641–1653, Aug 2004.
MOORE, M. J. From birth to death: the complex lives of eukaryotic mrnas. Science,
Department of Biochemistry, Howard Hughes Medical Institute, Brandeis University,
415 South Street, Waltham, MA 02454. [email protected]., v. 309, n. 5740, p.
1514–1518, Sep 2005.
MOREL, N. M. et al. Primer on medical genomics. part xiv: Introduction to systems
biology–a new approach to understanding disease and treatment. Mayo Clin Proc,
Beyond Genomics, Inc, Waltham, Mass, USA., v. 79, n. 5, p. 651–658, May 2004.
MURRAY, D. et al. In silico gene expression analysis–an overview. Mol Cancer, General
Clinical Research Unit, UCD School of Medicine and Medical Sciences, Mater Misericordiae University Hospital, Dublin 7, Ireland. [email protected], v. 6, p. 50,
2007.
NAKANO, M. et al. Plant mpss databases: signature-based transcriptional resources for
analyses of mrna and small rna. Nucleic Acids Res, Department of Plant and Soil
Sciences, University of Delaware, Newark, DE 19714, USA., v. 34, n. Database issue,
p. D731–D735, Jan 2006.
NAM, D. K. et al. Oligo(dt) primer generates a high frequency of truncated cdnas through
internal poly(a) priming during reverse transcription. Proc Natl Acad Sci U S A,
Department of Medicine, Center for Functional Genomics, University of Chicago,
5841 South Maryland Avenue, MC2115, Chicago, IL 60637, USA., v. 99, n. 9, p.
6152–6156, Apr 2002.
108
NEILSON, L. et al. Molecular phenotype of the human oocyte by pcr-sage. Genomics,
Reprogen Inc., 163 Technology Drive W., Irvine, California 92618, USA., v. 63, n. 1,
p. 13–24, Jan 2000.
NETO, E. D. et al. Shotgun sequencing of the human transcriptome with orf expressed
sequence tags. Proc Natl Acad Sci U S A, Ludwig Institute for Cancer Research,
Sao Paulo 01509-010, Brazil., v. 97, n. 7, p. 3491–3496, Mar 2000.
NIELSEN, K. L.; HOGH, A. L.; EMMERSEN, J. Deepsage–digital transcriptomics with
high sensitivity, simple experimental protocol and multiplexing of samples. Nucleic
Acids Res, Department of Biotechnology, Chemistry and Environmental Engineering, Aalborg University DK-9000 Aalborg, Denmark., v. 34, n. 19, p. e133, 2006.
OGASAWARA, O. et al. Bodymap-xs: anatomical breakdown of 17 million animal ests
for cross-species comparison of gene expression. Nucleic Acids Res, Center for Information Biology and DNA Data Bank of Japan, National Institute of Genetics, 1111
Yata, Mishima, Shizuoka 411-8540, Japan., v. 34, n. Database issue, p. D628–D631,
Jan 2006.
OSTELL, J. The entrez search and retrieval system. In:
. The NCBI Handbook.
Bethesda, MD: National Center for Biotechnology Information, 2003. cap. 15.
PAGNI, M. et al. trest, trgen and hits: access to databases of predicted protein sequences.
Nucleic Acids Res, Swiss Institute of Bioinformatics, Ludwig Institute for Cancer Research, Chemin des Boveresses 155, CH-1066, Epalinges s/Lausanne, Switzerland.,
v. 29, n. 1, p. 148–151, Jan 2001.
PANEPUCCI, R. A. et al. Higher expression of transcription targets and components of
the nuclear factor-kappab pathway is a distinctive feature of umbilical cord blood
cd34+ precursors. Stem Cells, Center for Cell Therapy and Regional Blood Center,
Department of Clinical Medicine, Faculty of Medicine, University of Sao Paulo,
Ribeirao Preto, Brazil., v. 25, n. 1, p. 189–196, Jan 2007.
PANEPUCCI, R. A. et al. Comparison of gene expression of umbilical cord vein and
bone marrow-derived mesenchymal stem cells. Stem Cells, Center for Cell Therapy
and Regional Blood Center, Department of Clinical Medicine, Faculty of Medicine,
Ribeirao Preto, Brazil., v. 22, n. 7, p. 1263–1278, 2004.
PARMIGIANI, G. et al. A cross-study comparison of gene expression studies for the
molecular classification of lung cancer. Clin Cancer Res, Department of Oncology,
Johns Hopkins University, Baltimore, Maryland 21230, USA. [email protected], v. 10,
n. 9, p. 2922–2927, May 2004.
PETERS, D. G. et al. Comprehensive transcript analysis in small quantities of
mrna by sage-lite. Nucleic Acids Res, Department of Human Genetics, School
of Public Health, University of Pittsburgh, Pittsburgh, PA 15261, USA. [email protected], v. 27, n. 24, p. e39, Dec 1999.
PEVSNER, J. Bioinformatic approaches to ribonucleic acid rna. In: Bioinformatics and
Functional Genomics. [S.l.]: John Wiley & Sons, Inc., 2009.
109
PILLAI, S. et al. Soap-based services provided by the european bioinformatics institute.
Nucleic Acids Res, European Bioinformatics Institute Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, UK., v. 33, n. Web Server issue, p. W25–W28,
Jul 2005.
PINHEIRO, D. G. et al. Generic EST Annotation Pipeline. 2002. Disponı́vel em:
<http://gdm.fmrp.usp.br/geap/>. Acesso em: 29 mai. 2009.
PINHEIRO, D. G. et al. A score system for quality evaluation of rna sequence tags: an
improvement for gene expression profiling. BMC Bioinformatics, v. 10, n. 1, p. 170,
Jun 2009. (ENG).
PLEASANCE, E. D.; MARRA, M. A.; JONES, S. J. Assessment of sage in transcript identification. Genome Res, Canada’s Michael Smith Genome Sciences Centre, British
Columbia Cancer Agency, Vancouver V5Z 4E6, Canada., v. 13, n. 6A, p. 1203–1215,
Jun 2003.
POLYAK, K.; RIGGINS, G. J. Gene discovery using the serial analysis of gene expression
technique: implications for cancer research. J Clin Oncol, Department of Adult
Oncology, Dana-Farber Cancer Institute and Harvard Medical School, Boston, MA
02115, USA. kornelia [email protected], v. 19, n. 11, p. 2948–2958, Jun 2001.
POWELL, J. Enhanced concatemer cloning-a modification to the sage (serial analysis
of gene expression) technique. Nucleic Acids Res, The Richard Dimbleby Department of Cancer Research, I.C.R.F. Laboratory, Rayne Institute, 4th Floor Lambeth Wing, St Thomas’s Hospital, Lambeth Palace Road, London SE1 7EH, UK.
[email protected], v. 26, n. 14, p. 3445–3446, Jul 1998.
PROBER, J. M. et al. A system for rapid dna sequencing with fluorescent chainterminating dideoxynucleotides. Science, Engineering Physics Laboratory, E.I. du
Pont de Nemours & Company (Inc.), Wilmington, DE 19898., v. 238, n. 4825,
p. 336–341, Oct 1987.
PROTO-SIQUEIRA, R. et al. Sage analysis demonstrates increased expression of toso
contributing to fas-mediated resistance in cll. Blood, Hematology Division and Center
for Cell-Based Therapy, Faculty of Medicine of Ribeirao Preto, University of Sao
Paulo, Sao Paulo, Brazil., v. 112, n. 2, p. 394–397, Jul 2008.
PRUITT, K. D.; MAGLOTT, D. R. Refseq and locuslink: Ncbi gene-centered resources. Nucleic Acids Res, National Center for Biotechnology Information, National
Library of Medicine, National Institutes of Health, Building 38A Room 6N605, 8600
Rockville Pike, Bethesda, MD 20894 USA. [email protected], v. 29, n. 1, p.
137–140, Jan 2001.
PRUITT, K. D.; TATUSOVA, T.; MAGLOTT, D. R. Ncbi reference sequence (refseq):
a curated non-redundant sequence database of genomes, transcripts and proteins.
Nucleic Acids Res, National Center for Biotechnology Information, National Library
of Medicine, National Institutes of Health, Rm 6An.12J, 45 Center Drive, Bethesda,
MD 20892-6510, USA. [email protected], v. 33, n. Database issue, p. D501–
D504, Jan 2005.
110
PYLOUSTER, J.; SENAMAUD-BEAUFORT, C.; SAISON-BEHMOARAS, T. E. Websage: a web tool for visual analysis of differentially expressed human sage tags.
Nucleic Acids Res, Laboratoire de Biophysique, Museum National d’Histoire Naturelle, INSERM U565-CNRS UMR 5153 43, rue Cuvier 75231, Paris Cedex 05,
France. [email protected], v. 33, n. Web Server issue, p. W693–W695, Jul 2005.
QUACKENBUSH, J. Microarray data normalization and transformation. Nat Genet, The
Institute for Genomic Research, 9712 Medical Center Drive, Rockville, Maryland
20850, USA. [email protected], v. 32 Suppl, p. 496–501, Dec 2002.
QUACKENBUSH, J. et al. The tigr gene indices: analysis of gene transcript sequences
in highly sampled eukaryotic species. Nucleic Acids Res, The Institute for Genomic
Research, 9712 Medical Center Drive, Rockville, MD 20850, USA. [email protected],
v. 29, n. 1, p. 159–164, Jan 2001.
RADKE, J. R. et al. The transcriptome of toxoplasma gondii. BMC Biol, Department
of Veterinary Molecular Biology, Montana State University, Bozeman, MT 59717,
USA. [email protected], v. 3, p. 26, 2005.
REICH, M. et al. Genepattern 2.0. Nat Genet, v. 38, n. 5, p. 500–501, May 2006.
REINHART, B. J. et al. Micrornas in plants. Genes Dev, Whitehead Institute for Biomedical Research, and Department of Biology, Massachusetts Institute of Technology,
Cambridge, Massachusetts 02142, USA., v. 16, n. 13, p. 1616–1626, Jul 2002.
RHODES, D. R. et al. Large-scale meta-analysis of cancer microarray data identifies
common transcriptional profiles of neoplastic transformation and progression. Proc
Natl Acad Sci U S A, Department of Pathology, University of Michigan Medical
School, Ann Arbor, 48109, USA., v. 101, n. 25, p. 9309–9314, Jun 2004.
RIJSBERGEN, C. J. van. Information Retrieval. London: Butterworths, 1979.
ROBERTSON, N. et al. Discoveryspace: an interactive data analysis application. Genome
Biol, Canada’s Michael Smith Genome Sciences Centre, British Columbia Cancer
Research Centre, British Columbia Cancer Agency, Vancouver, BC, Canada. [email protected], v. 8, n. 1, p. R6, 2007.
ROMUALDI, C. et al. Ideg6: a web tool for detection of differentially expressed genes
in multiple tag sampling experiments. Physiol Genomics, Department of Biology,
University of Padua, 35131 Padua, Italy. [email protected], v. 12, n. 2, p. 159–
162, Jan 2003.
RUBY, J. G.; JAN, C. H.; BARTEL, D. P. Intronic microrna precursors that bypass
drosha processing. Nature, Whitehead Institute for Biomedical Research, 9 Cambridge Center, Cambridge, Massachusetts 02142, USA., v. 448, n. 7149, p. 83–86,
Jul 2007.
RUIJTER, J. M.; KAMPEN, A. H. V.; BAAS, F. Statistical evaluation of sage libraries:
consequences for experimental design. Physiol Genomics, Department of Anatomy
and Embryology, Academic Medical Center, University of Amsterdam, 1105 AZ,
Amsterdam, The Netherlands. [email protected], v. 11, n. 2, p. 37–44, Oct
2002.
111
RUSK, N.; KIERMER, V. Primer: Sequencing–the next generation. Nat Methods, v. 5,
n. 1, p. 15, Jan 2008.
RYO, A. et al. A modified serial analysis of gene expression that generates longer sequence tags by nonpalindromic cohesive linker ligation. Anal Biochem, Department
of Microbiology, Tokyo Medical and Dental University, 1-5-45 Yushima, Bunkyo-ku,
Tokyo, 113-8519, Japan., v. 277, n. 1, p. 160–162, Jan 2000.
SAHA, S. et al. Using the transcriptome to annotate the genome. Nat Biotechnol, Howard
Hughes Medical Institute and the Sidney Kimmel Comprehensive Cancer Center,
Baltimore, MD 21231, USA., v. 20, n. 5, p. 508–512, May 2002.
SANGER, F.; NICKLEN, S.; COULSON, A. R. Dna sequencing with chain-terminating
inhibitors. Proc Natl Acad Sci U S A, v. 74, n. 12, p. 5463–5467, Dec 1977.
SANTOS, M. L. dos. Análise de expressão gênica diferencial em linhagens celulares de
mama com diferentes perfis de expressão de erbB-2 na presença e ausência de docetaxel. Tese (Doutorado) — Fundação Antônio Prudente, 2006.
SAUER, U.; HEINEMANN, M.; ZAMBONI, N. Genetics. getting closer to the whole
picture. Science, Institute of Molecular Systems Biology, ETH Zurich, Switzerland.
[email protected], v. 316, n. 5824, p. 550–551, Apr 2007.
SAYERS, E. W. et al. Database resources of the national center for biotechnology information. Nucleic Acids Res, National Center for Biotechnology Information, National
Library of Medicine, National Institutes of Health, Building 38A, 8600 Rockville
Pike, Bethesda, MD 20894, USA. [email protected], v. 37, n. Database issue,
p. D5–15, Jan 2009.
SCHENA, M. et al. Quantitative monitoring of gene expression patterns with a complementary dna microarray. Science, Department of Biochemistry, Beckman Center,
Stanford University Medical Center, CA 94305, USA., v. 270, n. 5235, p. 467–470,
Oct 1995.
SCHEURLE, D. et al. Cancer gene discovery using digital differential display. Cancer Res,
Department of Biology, Florida Atlantic University, Boca Raton 33431, USA., v. 60,
n. 15, p. 4037–4043, Aug 2000.
SCHULER, G. D. Pieces of the puzzle: expressed sequence tags and the catalog of human
genes. J Mol Med, National Center for Biotechnology Information, National Library
of Medicine, National Institutes of Health, Bethesda, MD 20894, USA., v. 75, n. 10,
p. 694–698, Oct 1997.
SESE, J. et al. Bodymap incorporated pcr-based expression profiling data and a gene
ranking system. Nucleic Acids Res, Department of Complexity Science and Engineering, Graduate School of Frontier Science, University of Tokyo, 7-3-1 Hongo,
Bunkyo Word, Tokyo 113-0033, Japan., v. 29, n. 1, p. 156–158, Jan 2001.
SETHUPATHY, P.; CORDA, B.; HATZIGEORGIOU, A. G. Tarbase: A comprehensive
database of experimentally supported animal microrna targets. RNA, Center for
Bioinformatics, University of Pennsylvania, Philadelphia, Pennsylvania 19104, USA.
[email protected], v. 12, n. 2, p. 192–197, Feb 2006.
112
SHENDURE, J.; JI, H. Next-generation dna sequencing. Nat Biotechnol, Department of
Genome Sciences, University of Washington, Seattle, Washington 98195-5065, USA.
SHENDURE, J. et al. Accurate multiplex polony sequencing of an evolved bacterial genome. Science, Department of Genetics, Harvard Medical School, Boston, MA 02115,
USA. [email protected], v. 309, n. 5741, p. 1728–1732, Sep 2005.
SILVEIRA, N. J. et al. Searching for molecular markers in head and neck squamous cell
carcinomas (hnscc) by statistical and bioinformatic analysis of larynx-derived sage
libraries. BMC Med Genomics, Instituto de Matematica e Estatistica, USP, Sao
Paulo, SP, Brazil. [email protected]., v. 1, p. 56, 2008.
SMITH, B. et al. The obo foundry: coordinated evolution of ontologies to support biomedical data integration. Nat Biotechnol, Department of Philosophy and New York
State Center of Excellence in Bioinformatics and Life Sciences, University at Buffalo,
Buffalo, New York 14203, USA. [email protected], v. 25, n. 11, p. 1251–1255,
Nov 2007.
SMITH, L. M. et al. Fluorescence detection in automated dna sequence analysis. Nature,
v. 321, n. 6071, p. 674–679, Jun 1986.
SO, A. P.; TURNER, R. F.; HAYNES, C. A. Increasing the efficiency of sage adaptor
ligation by directed ligation chemistry. Nucleic Acids Res, Biotechnology Laboratory and Department of Chemical and Biological Engineering, University of British
Columbia, Vancouver, BC, Canada V6T 1Z3., v. 32, n. 12, p. e96, 2004.
SOREK, R.; SAFER, H. M. A novel algorithm for computational identification of contaminated est libraries. Nucleic Acids Res, Compugen Ltd, 72 Pinchas Rosen Street,
Tel Aviv 69512, Israel. [email protected], v. 31, n. 3, p. 1067–1074, Feb 2003.
SOUZA, G. A. de et al. Proteomic and sage profiling of murine melanoma progression indicates the reduction of proteins responsible for ros degradation. Proteomics, Centro
de Terapia Celular, Centro Regional de Hemoterapia de Ribeirao Preto, Centro de
Pesquisa, Inovacao e Difusao - FAPESP, Brasil., v. 6, n. 5, p. 1460–1470, Mar 2006.
SPELLMAN, P. T. et al. Design and implementation of microarray gene expression markup language (mage-ml). Genome Biol, Department of Cell and Molecular Biology, University of California at Berkeley, Berkeley, CA 94720-3206, USA. [email protected], v. 3, n. 9, p. RESEARCH0046, Aug 2002.
STAJICH, J. E. et al. The bioperl toolkit: Perl modules for the life sciences. Genome Res,
University Program in Genetics, Duke University, Durham, North Carolina 27710,
USA. [email protected], v. 12, n. 10, p. 1611–1618, Oct 2002.
STEIN, L. D. Integrating biological databases. Nat Rev Genet, Cold Spring Harbor
Laboratory, 1 Bungtown Road, Cold Spring Harbor, New York 11724, USA. [email protected], v. 4, n. 5, p. 337–345, May 2003.
STEINHOFF, C.; VINGRON, M. Normalization and quantification of differential expression in gene expression microarrays. Brief Bioinform, Max Planck Institute for
113
Molecular Genetics, Department of Computational Molecular Biology, Ihnestr 73,
D-14195 Berlin, Germany. [email protected], v. 7, n. 2, p. 166–177, Jun 2006.
STEKEL, D. J.; GIT, Y.; FALCIANI, F. The comparison of gene expression from multiple
cdna libraries. Genome Res, Oxford Gene Technology, Littlemore Park, Oxford OX4
4SS, UK. [email protected], v. 10, n. 12, p. 2055–2061, Dec 2000.
STOLLBERG, J. et al. A quantitative evaluation of sage. Genome Res, Pacific Biomedical
Research Center, University of Hawai’i at Manoa, Honolulu, Hawaii 96822, USA.
[email protected], v. 10, n. 8, p. 1241–1248, Aug 2000.
STRAUSBERG, R. L. et al. The mammalian gene collection. Science, National Cancer
Institute, National Human Genome Research Institute, National Institutes of Health, Bethesda, MD 20892, USA., v. 286, n. 5439, p. 455–457, Oct 1999.
SUN, M. et al. Sage is far more sensitive than est for detecting low-abundance transcripts.
BMC Genomics, Department of Medicine, University of Chicago, 5841 S, Maryland
Avenue, MC2115, Chicago, Illinois 60637, USA. [email protected],
v. 5, n. 1, p. 1, Jan 2004.
TATENO, Y. et al. Dna data bank of japan (ddbj) for genome scale research in life science.
Nucleic Acids Res, Center for Information Biology and DNA Data Bank of Japan,
National Institute of Genetics, Yata, Mishima 411-8540, Japan., v. 30, n. 1, p. 27–30,
Jan 2002.
THYGESEN, H. H.; ZWINDERMAN, A. H. Modeling sage data with a truncated gammapoisson model. BMC Bioinformatics, Clinical Epidemiology and Biostatistics, Academisch Medisch Centrum, University of Amsterdam, Meibergdreef 9, 1100 DD
Amsterdam, The Netherlands. [email protected], v. 7, p. 157, 2006.
VANGUILDER, H. D.; VRANA, K. E.; FREEMAN, W. M. Twenty-five years of quantitative pcr for gene expression analysis. Biotechniques, Department of Pharmacology,
Penn State College of Medicine, Hershey, PA, USA., v. 44, n. 5, p. 619–626, Apr
2008.
VELCULESCU, V. E. et al. Analysis of human transcriptomes. Nat Genet, v. 23, n. 4, p.
387–388, Dec 1999.
VELCULESCU, V. E. et al. Serial analysis of gene expression. Science, Oncology Center,
Johns Hopkins University, Baltimore, MD 21231, USA., v. 270, n. 5235, p. 484–487,
Oct 1995.
VENCIO, R. Z. et al. Bayesian model accounting for within-class biological variability
in serial analysis of gene expression (sage). BMC Bioinformatics, Statistics Department, Instituto de Matematica e Estatistica - Universidade de Sao Paulo, Rua do
Matao 1010, 05508-090 Sao Paulo, Brazil. [email protected], v. 5, p. 119,
Aug 2004.
VENCIO, R. Z.; BRENTANI, H.; PEREIRA, C. A. Using credibility intervals instead
of hypothesis tests in sage analysis. Bioinformatics, Departamento de Estatistica,
Instituto de Matematica e Estatistica da Universidade de Sao Paulo, Sao Paulo
114
04601-003, Brazil, Fundacao Antonio Prudente, Sao Paulo 01509-900, Brazil. [email protected], v. 19, n. 18, p. 2461–2464, Dec 2003.
VENCIO, R. Z. et al. Simcluster: clustering enumeration gene expression data on the
simplex space. BMC Bioinformatics, Institute for Systems Biology, 1441 North 34th
street, Seattle, WA 98103-8904, USA. [email protected], v. 8, p. 246, 2007.
VENTER, J. C. et al. The sequence of the human genome. Science, Celera Genomics, 45
West Gude Drive, Rockville, MD 20850, USA. [email protected], v. 291,
n. 5507, p. 1304–1351, Feb 2001.
VILAIN, C. et al. Small amplified rna-sage: an alternative approach to study transcriptome from limiting amount of mrna. Nucleic Acids Res, Institute of Interdisciplinary
Research (IRIBHM), Universite Libre de Bruxelles, 808 route de Lennik, B-1070
Bruxelles, Belgium. [email protected], v. 31, n. 6, p. e24, Mar 2003.
VIRLON, B. et al. Serial microanalysis of renal transcriptomes. Proc Natl Acad Sci U S
A, Departement de Biologie Cellulaire et Moleculaire, Service de Biologie Cellulaire,
Centre National de la Recherche Scientifique Unite de Recherche Associee 1859,
France., v. 96, n. 26, p. 15286–15291, Dec 1999.
WAHL, M. B.; HEINZMANN, U.; IMAI, K. Longsage analysis significantly improves
genome annotation: identifications of novel genes and alternative transcripts in the
mouse. Bioinformatics, Institute of Developmental Genetics, GSF-National Research
Center for Environment and Health, Ingolstadter Landstrasse 1, D-85764 Neuherberg, Germany., v. 21, n. 8, p. 1393–1400, Apr 2005.
WALL, L. Programming Perl. Sebastopol, CA, USA: O’Reilly & Associates, Inc., 2000.
ISBN 0596000278.
WANG, X.; GORLITSKY, R.; ALMEIDA, J. S. From xml to rdf: how semantic web
technologies will change the design of ’omic’ standards. Nat Biotechnol, Department
of Biostatistics, Bioinformatics and Epidemiology, Medical University of South Carolina, 135 Cannon St. Suite 303, Charleston, South Carolina 29403-5720, USA.,
v. 23, n. 9, p. 1099–1103, Sep 2005.
WEI, C. L. et al. Transcriptome profiling of human and murine escs identifies divergent
paths required to maintain the stem cell state. Stem Cells, Genome Institute of
Singapore, 60 Biopolis Street, Genome#02-01, Singapore 138672., v. 23, n. 2, p.
166–185, Feb 2005.
WEI, C. L. et al. 5’ long serial analysis of gene expression (longsage) and 3’ longsage
for transcriptome characterization and genome annotation. Proc Natl Acad Sci U
S A, Genome Institute of Singapore, 60 Biopolis Street, Genome 02-01, Singapore
138672., v. 101, n. 32, p. 11701–11706, Aug 2004.
WHEELER, D. A. et al. The complete genome of an individual by massively parallel dna
sequencing. Nature, Human Genome Sequencing Center, Baylor College of Medicine,
One Baylor Plaza, Houston, Texas 77030, USA., v. 452, n. 7189, p. 872–876, Apr
2008.
115
WILLIAMSON, D. F.; PARKER, R. A.; KENDRICK, J. S. The box plot: a simple visual
method to interpret data. Ann Intern Med, Centers for Disease Control, Atlanta,
Georgia., v. 110, n. 11, p. 916–921, Jun 1989.
WINGENDER, E. et al. Transfac: an integrated system for gene expression regulation.
Nucleic Acids Res, Gesellschaft fur Biotechnologische Forschung mbH, Mascheroder
Weg 1, D-38124 Braunschweig, Germany. [email protected], v. 28, n. 1, p. 316–319, Jan
2000.
WOLD, B.; MYERS, R. M. Sequence census methods for functional genomics. Nat
Methods, Division of Biology, California Institute of Technology, Pasadena, California 91125, USA. [email protected], v. 5, n. 1, p. 19–21, Jan 2008.
YE, S. Q. et al. minisage: gene expression profiling using serial analysis of gene expression
from 1 microg total rna. Anal Biochem, Lipid Research Atherosclerosis Division,
Department of Pediatrics, CMSC 604, Johns Hopkins University School of Medicine, 600 North Wolfe Street, Baltimore, Maryland 21287, USA. [email protected],
v. 287, n. 1, p. 144–152, Dec 2000.
YUEN, T. et al. Accuracy and calibration of commercial oligonucleotide and custom cdna
microarrays. Nucleic Acids Res, Department of Neurology, Mount Sinai School of
Medicine, New York, NY 10029, USA., v. 30, n. 10, p. e48, May 2002.
ZANETTE, D. L. Análise Global da Expressão Gênica de Leucemia Mielóide Aguda. Dissertação (Mestrado) — Faculdade de Medicina de Ribeirão Preto – Universidade de
São Paulo, 2003.
ZHANG, L. et al. Gene expression profiles in normal and cancer cells. Science, Howard
Hughes Medical Institute, The Johns Hopkins University School of Medicine, Baltimore, MD 21231, USA., v. 276, n. 5316, p. 1268–1272, May 1997.
ZUYDERDUYN, S. D. Statistical analysis and significance testing of serial analysis of
gene expression data using a poisson mixture model. BMC Bioinformatics, Victor
Ling Laboratory, Department of Cancer Genetics and Developmental Biology, BC
Cancer Research Centre, 675 West 10th Ave Vancouver, Canada. [email protected],
”
v. 8, p. 282, 2007.
116
APÊNDICE A -- Resumo do artigo que
descreve o S3T
117
APÊNDICE B -- Grupos histológicos para
a análise com S3T
Grupos Histológicos
Tecido/Órgão
Subgrupo
No de bibliotecas
Osso
SAGE Pelvis mixoid chondrosarcoma grade2 B
Medula óssea
SAGE B
1
SAGE Bone marrow normal AP
2
SAGE Bone marrow normal B
1
SAGE Brain Medulloblastoma CL
4
Cérebro
SAGE Brain astrocyte normal CL
SAGE Brain astrocytoma grade III B
1
1
11
SAGE Brain astrocytoma grade II B
8
SAGE Brain astrocytoma grade I B
1
SAGE Brain ependymoblastoma B
1
SAGE Brain ependymoma B
11
SAGE Brain fetal normal B
1
SAGE Brain glioblastoma B
10
SAGE Brain glioblastoma CL
6
SAGE Brain glioblastoma CS
1
SAGE Brain glioblastoma control CL
1
SAGE Brain glioblastoma hypoxia CL
1
SAGE Brain meningioma grade III B
1
SAGE Brain meningioma grade II B
2
SAGE Brain meningioma grade I B
2
SAGE Brain normal cortex B
1
SAGE Brain normal cortex B B
1
SAGE Brain normal leptomeninges B
1
SAGE Brain normal peds cortex B
1
SAGE Brain normal substantia nigra B
1
SAGE Brain normal thalamus B
1
SAGE Brain oligodendroglioma B
2
Epitélio brônquial
GEO
Cartilagem
SAGE Cartilage chondrosarcoma grade 1 CL
1
SAGE Cartilage chondrosarcoma grade 2 B
1
2
1
SAGE Cartilage dedifferentiated chondrosarcoma metastasis CL
Cerebelo
SAGE Brain medulloblastoma B
19
5
20
SAGE Brain medulloblastoma CL
4
SAGE Brain normal cerebellum B
1
Tecido/Órgão
Cólon
Subgrupo
118
No de bibliotecas
SAGE Brain normal cerebellum B B
1
SAGE Colon adenocarcinoma B
2
SAGE Colon adenocarcinoma CL
4
SAGE Colon carcinoma CL
4
SAGE Colon normal B
2
Olho
SAGE Eye lens B
1
Trato gastrointestinal
SAGE Stomach normal MD
1
Coração
SAGE Heart normal B
1
Rim
SAGE Kidney carcinoma B
1
SAGE Kidney embryonic CL
2
SAGE Kidney normal B
1
GEO
3
SAGE Liver cholangiocarcinoma B
2
SAGE Liver cholangiocarcinoma CL
2
Fı́gado
Pulmão
SAGE Liver normal B
1
SAGE Lung adenocarcinoma B
1
SAGE Lung adenocarcinoma MD
2
SAGE Lung normal B
1
SAGE Lung normal CL
2
SAGE Lung tumor associated chronic inflammation B
1
Parênquima pulmonar
GEO
2
Linfonodo
SAGE Lymph Node Lymphoma B
1
SAGE Lymph Node normal B
1
Glândula mamária
SAGE B
1
SAGE Breast carcinoma associated myoepithelium AP
1
SAGE Breast carcinoma B
8
SAGE Breast carcinoma B B
1
SAGE Breast carcinoma CL
6
SAGE Breast carcinoma CL MD
3
SAGE Breast carcinoma MD
2
SAGE Breast carcinoma associated myoepithelium AP
1
SAGE Breast carcinoma associated myofibroblast AP
3
SAGE Breast carcinoma associated stroma B
2
SAGE Breast carcinoma epithelium AP
7
SAGE Breast carcinoma epithelium CD24+ AP
3
SAGE Breast carcinoma epithelium CD44+ AP
2
SAGE Breast carcinoma epithelium PROCR+ AP
2
SAGE Breast carcinoma epithelium X MUC1+ AP
1
SAGE Breast carcinoma metastasis B
1
SAGE Breast carcinoma myoepithelium X ITGB6+ AP
1
SAGE Breast fibroadenoma MD
1
SAGE Breast metastatic carcinoma B
2
SAGE Breast normal B
1
SAGE Breast normal epithelium AP
1
SAGE Breast normal epithelium AP B
1
SAGE Breast normal epithelium CD24+ AP
2
SAGE Breast normal epithelium CD44+ AP
1
SAGE Breast normal myoepithelium AP
2
SAGE Breast normal myoepithelium CL
1
SAGE Breast normal organoid B
1
SAGE Breast normal stroma AP
1
SAGE Breast normal stroma B
1
Tecido/Órgão
Subgrupo
119
No de bibliotecas
SAGE Breast phyllodes tumor fibroblasts AP
1
Músculo
SAGE Muscle Rhabdomyosarcoma B
1
SAGE Muscle normal B
2
Outro
SAGE Esophagus Adenocarcinoma B
1
SAGE Esophagus Dysplasia B
2
Ovário
Pâncreas
Peritônio
Placenta
Próstata
Retina
Pele
SAGE Esophagus Normal B
1
SAGE GallBladder Adenocarcinoma B
3
SAGE GallBladder Normal B
1
SAGE Placenta hydatidiform mole B
1
SAGE Rheumatoid arthritis synovial fibroblast CS
1
SAGE Ovary adenocarcinoma B
3
SAGE Ovary carcinoma CL
2
SAGE Ovary cystadenoma CL
1
SAGE Ovary endometriosis CL
1
SAGE Ovary normal CL
1
SAGE Ovary normal CS
1
SAGE Pancreas adenocarcinoma B
2
SAGE Pancreas adenocarcinoma CL
2
SAGE Pancreas carcinoma CL
2
SAGE Pancreas normal B
1
SAGE Pancreas normal CS
2
SAGE Peritoneum mesothelioma B
1
SAGE Peritoneum normal B
1
SAGE Placenta first trimester normal B
1
SAGE Placenta normal B
1
SAGE Prostate adenocarcinoma CL
1
SAGE Prostate adenocarcinoma MD
1
SAGE Prostate carcinoma B
2
SAGE Prostate carcinoma CL
7
SAGE Prostate normal B
1
SAGE Prostate normal MD
1
SAGE Prostate normal epithelium CS
2
SAGE Retina Macula normal B
1
SAGE Retina Peripheral normal B
3
SAGE Retina Pigment epithelium normal B
1
SAGE Retina Retinoblastoma B
1
SAGE Retina macula normal B
1
SAGE Retina normal B
1
SAGE Retinal Pigment Epithelium normal B
2
GEO
4
SAGE Skin melanoma B
3
SAGE Skin normal B
1
Medula espinhal
SAGE Spinal cord normal B
1
Célula tronco
SAGE Embryonic stem cell BG01 normal p20 CL
1
SAGE Embryonic stem cell H13 normal p22 CL
1
1
1
1
1
2
SAGE Embryonic stem cell HES3 normal p16 CL
1
SAGE Embryonic stem cell HES4 normal p36 CL
1
Tecido/Órgão
Estômago
Subgrupo
120
No de bibliotecas
SAGE Embryonic stem cell HSF6 normal p50 CL
1
SAGE Stomach adenocarcinoma B
1
SAGE Stomach adenocarcinoma MD
3
SAGE Stomach carcinoma B
3
SAGE Stomach normal B
1
SAGE Stomach normal MD
1
SAGE Stomach normal epithelium B
1
Testı́culo
SAGE Testis Embyronal Carcinoma B
1
Tireóide
SAGE Thyroid follicular adenoma B
1
SAGE Thyroid follicular carcinoma B
1
SAGE Thyroid normal B
1
SAGE Fibroblasts CL
1
SAGE Universal reference human RNA CL
1
Não categorizado
Útero
SAGE Uterus endometrium normal CS
1
Vascular
SAGE Vascular endothelium breast carcinoma associated AP
1
SAGE Vascular endothelium hemangioma B
1
SAGE Vascular endothelium normal breast associated AP
1
SAGE Vascular endothelium normal liver associated AP
1
SAGE Vascular normal CS
Células brancas
GEO
2
12
SAGE Leukocytes normal B
1
SAGE White Blood Cells breast carcinoma associated AP
3
SAGE White Blood Cells lung macrophage normal AP
1
SAGE White Blood Cells monocyte depleted mononuclear cells normal AP
2
SAGE White Blood Cells monocyte normal AP
2
SAGE White Blood Cells monocytes normal AP
3
SAGE White Blood Cells normal breast associated AP
1
SAGE White Blood Cells plaque macrophage normal AP
2
Nota: O subgrupo histológico é definido pelos identificadores comuns (SAGE ORGÃO HISTOLOGIA PREPARAÇÃO)
do nome das bibliotecas do CGAP. As bibliotecas do GEO estão reunidas no subgrupo GEO.
121
APÊNDICE C -- Configuração do S3T
Trecho do arquivo de configuração do S3T.
# Fontes de dados para extração de tags virtuais contidas no banco de dados.
[SOURCES]
0 = mRNAs Full Length
1 = Contigs
2 = Mitochondrion
3 = Alternative Poly(A)
4 = Alternative Splicing
5 = Internal Priming
6 = Linker Tag
7 = Genomic
8 = Internal Tags
9 = Others
10 = Vector pZErO-1
# Atributos especiais de conjuntos de tags virtuais contidos no banco de dados.
[ATTRIBUTES]
0 = PolyA Signal
1 = PolyA Tail
2 = More than one EST
3 = Only one EST
4 = Extracted
# Ordem de aplicação das regras.
[SAGE NLAIII 10 HS]
score order = -6,-5,-4,-3,-2,10,9,8,7,6,5,4,3,2,1,0,-1,-7
# Conjunto de regras definidas para a combinação de parâmetros SAGE NLAIII 10 HS.
# $f tag (valor de freqüência absoluta da tag).
# $m tag (valor médio de freqüência da tag considerando outras bibliotecas).
# $mfno tag (ordem da tag vizinha mais freqüente, considerando a porcentagem das tags mais freqüentes).
[SAGE NLAIII 10 HS SCORE]
10 = 0;0&1;($f tag>=10)
9 = 0;0&1;((1<=$f tag)&&($f tag<10))
8 = 0;;($f tag>=5)
Apêndice C -- Configuração do S3T
7 = 0;;((1<=$f tag)&&($f tag<5))
6 = 1;0&1;($f tag>=5)
5 = 1;0&1;((1<=$f tag)&&($f tag<5))
4 = 3|4;2;($f tag>1)
3 = 1;;($f tag>=1)
2 = 3|4;3;($f tag>=1)
1 = 8;;
0 = ;;(($f tag==1)&&($m tag>1))
-1 = ;;($f tag==1)
-2 = ;;(($f tag<5)&&(defined $mfno tag)&&($mfno tag<20%))
-3 = 5;;($f tag==1)
-4 = 6;;
-5 = 2;;
-6 = 10;;
-7 = ;;
122
123
ANEXO A -- Seqüências dos Adaptadores
e Primers para SAGE
Adaptador 1 A
5’ TTT GGA TTT GCT GGT GCA GTA CAA CTA GGC TTA ATA GGG ACA TG 3’
Adaptador 1 B
5’ TCC CTA TTA AGC CTA GTT GTA CTG CAC CAG CAA ATC C[amino mod. C7] 3’
Adaptador 2 A
5’ TTT CTG CTC GAA TTC AAG CTT CTA ACG ATG TAC GGG GAC ATG 3’
Adaptador 2 B
5’ TCC CCG TAC ATC GTT AGA AGC TTG AAT TCG AGC AG[amino mod. C7] 3’
→ We now order primer 1 and primer 2 with the addition of 2 sequential biotins on the 5’ end
gel-purified from Integrated DNA Technologies.
Primer 1
5’ GGA TTT GCT GGT GCA GTA CA 3’
Primer 2
5’ CTG CTC GAA TTC AAG CTT CT 3’
Biotinylated oligo dT
5’ [biotin]T18
M13 Forward
5’ GTA AAA CGA CGG CCA GT 3’
M13 Reverse
5’ GGA AAC AGC TAT GAC CAT G 3’
124
ANEXO B -- Seqüências dos Adaptadores e
Primers para LongSAGE
Adaptador 1 A
5’ TTT GGA TTT GCT GGT GCA GTA CAA CTA GGC TTA ATA TCC GAC ATG 3’
Adaptador 1 B
5’ TCG GAT ATT AAG CCT AGT TGT ACT GCA CCA GCA AAT CC [amino mod. C7] 3’
Adaptador 2 A
5’ TTT CTG CTC GAA TTC AAG CTT CTA ACG ATG TAC GTC CGA CAT G 3’
Adaptador 2 B
5’ TCG GAC GTA CAT CGT TAG AAG CTT GAA TTC GAG CAG[amino mod. C7] 3’
Primer 1
5’ GGA TTT GCT GGT GCA GTA CA 3’
Primer 2
5’ CTG CTC GAA TTC AAG CTT CT 3’
→ The ditag molecules are amplified with Primer 1 and Primer 2 which are biotinylated with 2
sequential biotins on the 5’ ends.
Primer 1 Biotin
5’ GTG CTC GTG GGA TTT GCT GGT GCA GTA CA 3’
Primer 2 Biotin
5’ GAG CTC GTG CTG CTC GAA TTC AAG CTT CT 3’
125
ANEXO C -- Seqüências dos Adaptadores
para MPSS
Common strand:
5’ GACTGGCAGCTCGT
Encoded adaptors for detecting base 1 :
5’ NNNAACGAGCTGCCAGTCcatttaggcg
5’ NNNGACGAGCTGCCAGTCctgattaccg
5’ NNNCACGAGCTGCCAGTCaccaatacgg
5 NNNTACGAGCTGCCAGTCcgctttgtag
5’ NNANACGAGCTGCCAGTCggaacctgaa
5’ NNGNACGAGCTGCCAGTCtgtgcgtgat
5’ NNCNACGAGCTGCCAGTCaccgacattc
5’ NNTNACGAGCTGCCAGTCattcctcctc
5 NANNACGAGCTGCCAGTCcgaagaagtc
5’ NGNNACGAGCTGCCAGTCtggtctctct
5’ NCNNACGAGCTGGCAGTCtagcggactt
5’ NTNNACGAGCTGCCAGTCggcgataact
5’ ANNNACGAGCTGCCAGTCgcatccatct
5’ GNNNACGAGCTGCCAGTCcaactcgtca
5’ CNNNACGAGCTGCCAGTCcacagcaaca
5’ TNNNACGAGCTGCCAGTCgccagtgtta
→ Four-base overhangs in bold and decoder binding sites in lowercaser

Desenvolvimento de uma Plataforma Integrativa para - BIT

Transcrição

Documentos relacionados

Caso-de-estudo-TM-Grupo

738KB - Sage Portugal

Sage Enterprise Intelligence: uma escolha inteligente para a

Exame de Compressão e Codifica cão de Dados

Exame de Compressão e Codifica cão de Dados

Marketing de Busca

Gabarito do volume III

Congruência de triângulos I - MA13 - Unidade 2

Nome do exame: Ataxia de Friedreich

Neurologia, Psicologia Livro de Urantia

Otimização de sites para Mecanismos de Pesquisa (SEO)

Resolução e Anexos

Livro de Resumos - sifsc

Mulheres na Física - Grupo de Trabalho sobre Questões de Gênero

Classificação Automática de Modulação baseada em

24º CBGM

Detecção de streamers em redes BitTorrent

Tamanho A4

Outono de 2011 - Sociedade Portuguesa de Estatística