Sistema Genérico de Anotação de ESTs

Transcrição

Sistema Genérico de Anotação de ESTs
Sistema Genérico de Anotação de ESTs
Daniel G. Pinheiro, Marco A. V. Cunha, Israel T. Silva,
Marco A. Zago, Wilson A. Silva Jr.
Laboratório de Biologia Molecular e Bioinformática, Centro de Terapia Celular,
Faculdade de Medicina de Ribeirão Preto (FMRP),
Universidade de São Paulo (USP), Brasil
3) Identificação de vetor, primer, regiões repetitivas
Introdução
e de baixa complexidade;
4) Comparações com bancos de dados públicos.
Expressed Sequence Tags [1] (ESTs) são
amplamente geradas para a identificação de novos
genes e definição do transcriptoma de diferentes
tecidos. Atualmente, cerca de 12 milhões de ESTs
foram depositadas no dbEst[2] e aproximadamente
4 milhões são de humanos, contendo ESTs de
tecidos normais e cancerígenos. A análise
criteriosa dessa base de dados, pode revelar
informações importantes, sobre os mecanismos
envolvidos na evolução do câncer.
O objetivo do trabalho é desenvolver uma
nova ferramenta, para auxiliar no processo de
avaliação e anotação das ESTs. A ferramenta tem
como principais características, a portabilidade à
sistemas baseados na plataforma UNIX e a
flexibilidade, para adaptar-se facilmente a qualquer
projeto de anotação de ESTs.
Figura 1 - Processo seqüencial de anotação
Metodologia
A validação da entrada do sistema, ou seja,
do arquivo que contêm os cromatogramas
Este sistema de anotação esta sendo
compactados, é feita através da verificação da
desenvolvido
utilizando
a
linguagem
de
integridade destes após a transferência, assim
programação Perl[3], arquivos de configuração no
como a nomenclatura do arquivo que deve seguir
formato XML[4], servidor de banco de dados
rigidamente
um
padrão
estabelecido.
Os
MySQL[5], e programas para análise de
cromatogramas devem possuir o formato ABI[8], da
seqüências.
Applied Biosystems. Para a verificação desta
Os processos de criação de um projeto, de
especificação é utilizado o programa makeSCF
configuração e de submissão de ESTs, são feitos
integrante do pacote Staden[9]. Após validados, os
através de uma interface web. Para a criação da
arquivos são copiados e compactados para uma
interface foi utilizado o módulo Perl CGI (Commom
estrutura de diretórios definida. Para os processos
Gateway Interface) e para a interação com o banco
de compactação e descompactação, utilizamos o
de dados MySQL utilizamos o módulo Perl DBI
módulo Perl Archive::Zip .
(Data Base Interface).
O processo de análise de qualidade consiste
As
configurações
do
sistema
são
em utilizar as informações que o programa basearmazenadas em arquivos no formato XML, e para
calling Phred[10,11] fornece para excluir as regiões
a leitura destes, utilizamos uma implementação em
de baixa qualidade. O programa Phred lê os dados
Perl do projeto Xerces XML Parser [6].
de saída do seqüenciador, que possui um formato
A autenticação do usuário é baseada em
denominado ABI e converte em formato texto
senha, utilizando um módulo Perl que implementa
atribuindo um valor de qualidade a cada base de
o algoritmo de encriptação MD5[7], e o acesso às
acordo com a sua resolução, junto a isto ele
páginas é controlado utilizando cookies.
identifica a região de alta qualidade.
O processo de anotação é seqüencial e
Para a identificação de vetor e primer é
automatizado (Figura 1), englobando as etapas:
utilizado o programa Cross_match[12], para
1) Validação da entrada do sistema e backup dos
posterior exclusão, e uma possível identificação de
dados, se validados;
quimeras, caso a seqüência caracterizada como
2) Identificação de regiões de baixa qualidade;
primer encontra-se na região central da EST.
Posteriormente, é feito o mascaramento de regiões
repetitivas e de baixa complexidade usando o
programa RepeatMasker[13].
A próxima etapa consiste na caracterização
e classificação das ESTs, para isto, é utilizado o
programa BLAST[14], para realizar buscas por
similaridade com outras seqüências já agrupadas e
classificadas no GenBank1 . De acordo com seu
grau de similaridade, a EST é classificada em um
dos grupos determinados na configuração do
projeto, caso não exista similaridade, a mesma é
agrupada numa categoria à parte, para posterior
análise.
Para manter a consistência dos dados, as
informações sobre todas as etapas e seus
resultados são armazenadas em um banco de
dados relacional, distinto para cada projeto de
anotação.
Para gerenciar o fluxo de seqüências nas
etapas 2, 3 e 4, e manter a máquina sempre com
um nível aceitável de carga, controlamos o fluxo de
dados com um daemon que através de parâmetros
configuráveis, decide se deve enviar mais
seqüências para o sistema ou se deve aguardar o
final do processamento de algumas, antes de
alimentar o sistema novamente.
Por final, o sistema proporcionará a
visualização, consulta e download dos resultados
pela interface web.
Resultados
O sistema está parcialmente implementado,
sendo que a interface de cadastro está terminada.
As etapas 1, 2 e 3 foram submetidas a uma série
de testes com cromatogramas de seqüências já
processadas e anotadas, obtendo resultados
positivos. O módulo de controle também
demonstrou estabilidade.
Discussão e Conclusões
Este sistema poderá suprir a necessidade de
uma ferramenta genérica, amplamente configurável
e modular, que é capaz de adaptar-se aos
diferentes projetos de anotação, permitindo
facilmente a integração de novos componentes e
permanecendo estável, mantendo a integridade e
consistência dos dados durante o processamento
de análise.
Agradecimentos
1
Genbank - Banco de dados de seqüências genéticas do NIH (National
Institute of Health).
Gostaríamos de agradecer Adriano J.
Holanda pela colaboração e Rodrigo M. Brandão
pelo auxílio na construção da interface web.
Referências
[1] Adams, M.D., J.M. Kelley, J.D. Gocayne,
M.Dubnick, M.H. Polymeropoulos, H. Xiao,
C.R. Merril, A. Wu, B. Olde, R.F. Moreno, A.R.
Kerlavage, W.R. McConbie, J.C. Venter.
(1991), "Complementary DNA Sequencing:
Expressed Sequence Tags and Human
Genome Project", Science, v. 252, p. 16511656.
[2]
Expressed
Sequence
Tags
database,[http://www.ncbi.nlm.nih.gov/dbEST/i
ndex.htm].
[3] Perl, [http://www.perl.com].
[4]
Extensible
Markup
Language
XML,[http://www.w3.org/XML].
[5] MySQL Database ,[http://www.mysql.org].
[6] Apache Xerces XML Parser,
[http://xml.apache.org/xercesp/index.html].
[7] Rivest, R.L. "The MD5 Message-Digest
Algorithm",[http://www.faqs.org/rfcs/rfc1321.htm
l]. April 1992.
[8] Applied Biosystems
ABI,[http://home.appliedbiosystems.com].
[9]
Staden
Package,
[http://www.mrclmb.cam.ac.uk/pubseq].
[10] Ewing, B., Hillier, L., Wendl, M.C., and Green,
P. (1998), "Base-calling of automated
sequencer traces using phred. I. Accuracy
assessment", Genome Res., v. 8, p. 175-185.
[11] Ewing, B. and Green, P. (1998), "Base-calling
of automated sequencer traces using phred. II.
Error probabilities", Genome Res., v. 8, p. 186194.
[12] Cross_match, [http://www.phrap.org]
[13] Smit, A.F.A. (1999), "Interspersed repeats and
other mementos of transposable elements in
the mammalian genomes.", Curr. Opin. Genet.
Devel.,v. 9, p. 657-663.
[14] S.F. Altschul, G. Warren, M. Webb, W. M.
Eugene, and J.L. David. (1990), "Basic local
alignment search tool", J. Mol. Biol., v. 215,
p.195-202.
Contato
Daniel Guariz Pinheiro
Fundação Hemocentro de Ribeirão Preto
Rua Tenente Catão Roxo, 2501
Ribeirão Preto - São Paulo - CEP 14051-140
Fone: (16) 39639300, Ramal: 9603
E-mail: [email protected]

Documentos relacionados

ASKGene, um sistema para processamento - Reciis

ASKGene, um sistema para processamento - Reciis Expressed Sequence Tags (ESTs – etiquetas de seqüências de RNA mensageiro) e DNA Shotgun Reads (seqüencias de fragmentos de DNA produzidos ao acaso) são fontes fundamentais para estudos de genômica...

Leia mais

PDF - Instituto de Bioquímica Médica UFRJ

PDF - Instituto de Bioquímica Médica UFRJ culture and the main goal of this thesis is the tentative to question some of these dogmas and bring to the light of reason a consistent knowledge about some restrict aspects related to the base-ca...

Leia mais