Sistema Genérico de Anotação de ESTs
Transcrição
Sistema Genérico de Anotação de ESTs
Sistema Genérico de Anotação de ESTs Daniel G. Pinheiro, Marco A. V. Cunha, Israel T. Silva, Marco A. Zago, Wilson A. Silva Jr. Laboratório de Biologia Molecular e Bioinformática, Centro de Terapia Celular, Faculdade de Medicina de Ribeirão Preto (FMRP), Universidade de São Paulo (USP), Brasil 3) Identificação de vetor, primer, regiões repetitivas Introdução e de baixa complexidade; 4) Comparações com bancos de dados públicos. Expressed Sequence Tags [1] (ESTs) são amplamente geradas para a identificação de novos genes e definição do transcriptoma de diferentes tecidos. Atualmente, cerca de 12 milhões de ESTs foram depositadas no dbEst[2] e aproximadamente 4 milhões são de humanos, contendo ESTs de tecidos normais e cancerígenos. A análise criteriosa dessa base de dados, pode revelar informações importantes, sobre os mecanismos envolvidos na evolução do câncer. O objetivo do trabalho é desenvolver uma nova ferramenta, para auxiliar no processo de avaliação e anotação das ESTs. A ferramenta tem como principais características, a portabilidade à sistemas baseados na plataforma UNIX e a flexibilidade, para adaptar-se facilmente a qualquer projeto de anotação de ESTs. Figura 1 - Processo seqüencial de anotação Metodologia A validação da entrada do sistema, ou seja, do arquivo que contêm os cromatogramas Este sistema de anotação esta sendo compactados, é feita através da verificação da desenvolvido utilizando a linguagem de integridade destes após a transferência, assim programação Perl[3], arquivos de configuração no como a nomenclatura do arquivo que deve seguir formato XML[4], servidor de banco de dados rigidamente um padrão estabelecido. Os MySQL[5], e programas para análise de cromatogramas devem possuir o formato ABI[8], da seqüências. Applied Biosystems. Para a verificação desta Os processos de criação de um projeto, de especificação é utilizado o programa makeSCF configuração e de submissão de ESTs, são feitos integrante do pacote Staden[9]. Após validados, os através de uma interface web. Para a criação da arquivos são copiados e compactados para uma interface foi utilizado o módulo Perl CGI (Commom estrutura de diretórios definida. Para os processos Gateway Interface) e para a interação com o banco de compactação e descompactação, utilizamos o de dados MySQL utilizamos o módulo Perl DBI módulo Perl Archive::Zip . (Data Base Interface). O processo de análise de qualidade consiste As configurações do sistema são em utilizar as informações que o programa basearmazenadas em arquivos no formato XML, e para calling Phred[10,11] fornece para excluir as regiões a leitura destes, utilizamos uma implementação em de baixa qualidade. O programa Phred lê os dados Perl do projeto Xerces XML Parser [6]. de saída do seqüenciador, que possui um formato A autenticação do usuário é baseada em denominado ABI e converte em formato texto senha, utilizando um módulo Perl que implementa atribuindo um valor de qualidade a cada base de o algoritmo de encriptação MD5[7], e o acesso às acordo com a sua resolução, junto a isto ele páginas é controlado utilizando cookies. identifica a região de alta qualidade. O processo de anotação é seqüencial e Para a identificação de vetor e primer é automatizado (Figura 1), englobando as etapas: utilizado o programa Cross_match[12], para 1) Validação da entrada do sistema e backup dos posterior exclusão, e uma possível identificação de dados, se validados; quimeras, caso a seqüência caracterizada como 2) Identificação de regiões de baixa qualidade; primer encontra-se na região central da EST. Posteriormente, é feito o mascaramento de regiões repetitivas e de baixa complexidade usando o programa RepeatMasker[13]. A próxima etapa consiste na caracterização e classificação das ESTs, para isto, é utilizado o programa BLAST[14], para realizar buscas por similaridade com outras seqüências já agrupadas e classificadas no GenBank1 . De acordo com seu grau de similaridade, a EST é classificada em um dos grupos determinados na configuração do projeto, caso não exista similaridade, a mesma é agrupada numa categoria à parte, para posterior análise. Para manter a consistência dos dados, as informações sobre todas as etapas e seus resultados são armazenadas em um banco de dados relacional, distinto para cada projeto de anotação. Para gerenciar o fluxo de seqüências nas etapas 2, 3 e 4, e manter a máquina sempre com um nível aceitável de carga, controlamos o fluxo de dados com um daemon que através de parâmetros configuráveis, decide se deve enviar mais seqüências para o sistema ou se deve aguardar o final do processamento de algumas, antes de alimentar o sistema novamente. Por final, o sistema proporcionará a visualização, consulta e download dos resultados pela interface web. Resultados O sistema está parcialmente implementado, sendo que a interface de cadastro está terminada. As etapas 1, 2 e 3 foram submetidas a uma série de testes com cromatogramas de seqüências já processadas e anotadas, obtendo resultados positivos. O módulo de controle também demonstrou estabilidade. Discussão e Conclusões Este sistema poderá suprir a necessidade de uma ferramenta genérica, amplamente configurável e modular, que é capaz de adaptar-se aos diferentes projetos de anotação, permitindo facilmente a integração de novos componentes e permanecendo estável, mantendo a integridade e consistência dos dados durante o processamento de análise. Agradecimentos 1 Genbank - Banco de dados de seqüências genéticas do NIH (National Institute of Health). Gostaríamos de agradecer Adriano J. Holanda pela colaboração e Rodrigo M. Brandão pelo auxílio na construção da interface web. Referências [1] Adams, M.D., J.M. Kelley, J.D. Gocayne, M.Dubnick, M.H. Polymeropoulos, H. Xiao, C.R. Merril, A. Wu, B. Olde, R.F. Moreno, A.R. Kerlavage, W.R. McConbie, J.C. Venter. (1991), "Complementary DNA Sequencing: Expressed Sequence Tags and Human Genome Project", Science, v. 252, p. 16511656. [2] Expressed Sequence Tags database,[http://www.ncbi.nlm.nih.gov/dbEST/i ndex.htm]. [3] Perl, [http://www.perl.com]. [4] Extensible Markup Language XML,[http://www.w3.org/XML]. [5] MySQL Database ,[http://www.mysql.org]. [6] Apache Xerces XML Parser, [http://xml.apache.org/xercesp/index.html]. [7] Rivest, R.L. "The MD5 Message-Digest Algorithm",[http://www.faqs.org/rfcs/rfc1321.htm l]. April 1992. [8] Applied Biosystems ABI,[http://home.appliedbiosystems.com]. [9] Staden Package, [http://www.mrclmb.cam.ac.uk/pubseq]. [10] Ewing, B., Hillier, L., Wendl, M.C., and Green, P. (1998), "Base-calling of automated sequencer traces using phred. I. Accuracy assessment", Genome Res., v. 8, p. 175-185. [11] Ewing, B. and Green, P. (1998), "Base-calling of automated sequencer traces using phred. II. Error probabilities", Genome Res., v. 8, p. 186194. [12] Cross_match, [http://www.phrap.org] [13] Smit, A.F.A. (1999), "Interspersed repeats and other mementos of transposable elements in the mammalian genomes.", Curr. Opin. Genet. Devel.,v. 9, p. 657-663. [14] S.F. Altschul, G. Warren, M. Webb, W. M. Eugene, and J.L. David. (1990), "Basic local alignment search tool", J. Mol. Biol., v. 215, p.195-202. Contato Daniel Guariz Pinheiro Fundação Hemocentro de Ribeirão Preto Rua Tenente Catão Roxo, 2501 Ribeirão Preto - São Paulo - CEP 14051-140 Fone: (16) 39639300, Ramal: 9603 E-mail: [email protected]
Documentos relacionados
ASKGene, um sistema para processamento - Reciis
Expressed Sequence Tags (ESTs – etiquetas de seqüências de RNA mensageiro) e DNA Shotgun Reads (seqüencias de fragmentos de DNA produzidos ao acaso) são fontes fundamentais para estudos de genômica...
Leia maisPDF - Instituto de Bioquímica Médica UFRJ
culture and the main goal of this thesis is the tentative to question some of these dogmas and bring to the light of reason a consistent knowledge about some restrict aspects related to the base-ca...
Leia mais