Software para detecç˜ao de repetiç˜oes encadeadas
Transcrição
Software para detecç˜ao de repetiç˜oes encadeadas
Software para detecção de repetições encadeadas (SSR) em sequências de DNA Daniel Xavier de Sousa1 , Wellington Santos Martins1 , and David Bertioli2 2 1 Universidade Católica de Goiás, Goiânia, Brasil, Universidade Católica de Brası́lia e Cenagem/Embrapa Brası́lia, Brasil Resumo This work presents a computational tool to aid in the development of molecular markers by locating simple tandem repeats (microsatélites) in DNA sequences. The tool is based on the TROLL (http:// finder.sourcefoge.net/) program and allows for fast report of microsatélites and sequence quality control. Is has been integrated to the well know Staden Package which provides an easy and intuitive graphical interface. 1 Introdução A contribuição deste trabalho é o desenvolvimento de um módulo para o programa Pregap do pacote Staden. Tal módulo permite a localização rápida de microsatélites em seqüências genômicas e serve, assim, aos pesquisadores interessados em estudos envolvendo marcadores moleculares baseados em microsatélites. Como o módulo é integrado ao pacote Staden, permite aos usuários visualizar de forma fácil microsatélites encontrados nos arquivos cromatogramas. 2 Marcadores Moleculares, SSR’s Marcadores moleculares são definidos como regiões localizáveis nos cromossomos (ex. sı́tio de clivagem de enzimas de restrição, gene, minisatélite, microsatélite) cuja herança pode ser monitorada. Estas regiões podem corresponder a regiões expressas do DNA ou a algum segmento de DNA sem função codificadora conhecida, mas cujo padrão de herança pode ser estudado. Os marcadores moleculares são hoje foco de estudo nos programas de melhoramento animal e vegetal [6]. Marcadores moleculares são também utilizados, por exemplo, para construção de mapas genéticos, que representa uma base de conhecimento para auxiliar a transferência das caracterı́sticas de interesse para plantas de importância agronômica através de melhoramento tradicional. Marcadores moleculares do tipo microsatélites, também conhecidos como SSR (Simple Sequence Repeats) têm sido amplamente utilizados. Os SSR’s são simples palavras chaves, formadas por uma ou até seis bases repetidas encadeadas, por um número indefinido de vezes. Estas seqüências estão distribuı́das 2 ao acaso ao longo de todo o genoma e o polimorfismo de seu comprimento indica a variabilidade dentro da mesma espécie. Tais repetições são freqüentemente encontradas nos genomas e principalmente nos eucariotos. Em genomas de plantas, por exemplo, as mesmas são encontradas em ocorrência de 1 em 6 mil pares de base [4]. Em algumas bactérias, alterações no número de repetições de microsatélites provocam a produção de proteı́nas ligeiramente diferentes[8]. Nas plantas ou animais, os microsatélites contribuem para marcar genes que exerçam a mesma função. Sendo estes genes de indivı́duos diferentes, os quais podem pertencer à mesma espécie ou não. 3 Programas para encontrar SSR Basicamente existem dois métodos para encontrar SSR’s. Um deles é definir um modelo para a repetição e encontrar regiões que o satisfaçam, não sendo necessário 100% de exatidão, mas um alto grau de similaridade já é suficiente. Esta implementação é encontrada em programas como, Tandem Repeats Finder [3] e Sputnik [1]. No segundo método as repetições (motifs) são definidas antes (num dicionário) e chamadas para verificação de similaridade com a seqüência. Este método fornece uma rápida solução do problema e pode ser encontrado nos programas Repeat Masker [7] e Tandem Repeat Occurence Locator (TROLL)[5]. Este trabalho optou pelo programa TROLL, pois além de ser um projeto de código aberto à comunidade, apresentou o melhor desempenho comparado com vários outros programas disponı́veis, veja os dados comparativos em [5]. O programa é baseado no Algoritmo Aho Corasick (ACA) [2] e possui complexidade linear O(n). Seu funcionamento se inicia, basicamente, a partir da construção de uma árvore de palavras chaves utilizando a lista de repetições (motifs) indicada previamente. As seqüências de busca são comparadas a esta árvore e todas as repetições encontradas são armazenadas numa estrutura conhecida como Repeat Buffer. Para cada igualdade encontrada, é verificado se a mesma é o inı́cio ou a continuação de uma repetição. 4 O Pacote Staden O Pacote Staden é uma ferramenta que reune vários programas que, possibilita ao biólogo facilidade na análise de seqüências genômicas. O mesmo tem sido amplamente atualizado pela comunidade cientı́fica (http://staden.sourceforge.net/). Dentro do pacote existem vários programas, dentre eles o Pregap e o Gap. O Pregap é responsável pela preparação dos arquivos de cromatogramas para que sejam analisados por vários módulos de execução. O usuário, de forma gráfica escolhe quais desses módulos deverão agir nos arquivos cromatogramas, preparando-os para análise. O programa Gap mostra de forma gráfica os resultados do processamento dos módulos executados no Pregap. Embora o pacote Staden possibilite a procura por microsatélites, através do programa RepeatMasker, este não é mais distribuı́do gratuitamente. Para sanar 3 este problema, desenvolvemos um módulo apresentado neste trabalho, que é especı́fico para a localização rápida dos SSRs. 5 Implementação O módulo construı́do neste trabalho permite que, dado um conjunto de seqüências, a partir do programa Pregap, as mesmas sejam capturadas, filtradas (mascarando contaminantes e bases de má qualidade) e analisadas quanto à existência de microsatélites. O TROLL é executado somente uma vez para todas as seqüências, e para todos os SSR’s encontrados de cada seqüência, é gravado um respectivo arquivo Experiment File (a base de informações para análise das seqüências). Este arquivo é utilizado para construção do repositório de dados do programa GAP, que irá mostrar as caracterı́sticas da seqüência de forma gráfica, inclusive os microsatélites encontrados pelo módulo. Os módulos do Pregap são escritos na linguagem interpretada Tcl/Tk, seguindo um padrão do Pacote Staden de rotinas destinadas à interface com usuário e execução do módulo. Os módulos criados são salvos no diretório $STANDENROOT/lib/pregap4/modules e com nomes terminados com extensão .p4m. O módulo desenvolvido neste trabalho obedece ao seguinte fluxograma: Figura 1. Fluxo de execução do módulo 4 Seqüências: Nesta fase o módulo utiliza a variável global file do Pregap que contém o endereço de acesso ao arquivo Experiment File referente a cada seqüência, que contém o nome, os nucleotı́deos e as qualidades; Filtrar Contaminação: Aqui o módulo acessa os arquivos Experiment File a procura de campos que indiquem a posição na seqüência da existência de contaminantes, isto é, regiões de plasmı́dios utilizadas para duplicação da molécula de DNA. Caso encontre, os nucleotı́deos contaminados serão mascarados; Filtro de Qualidade: Nesta fase, de acordo com os parâmetros passados pelo usuário, o filtro irá aceitar um número máximo de bases consecutivas com qualidade inferior a um dado valor. Por exemplo, dada a seguinte seqüência com a qualidade expressa entre chaves: G{18}T{18}G{18}A{20}C{30}A{19}C{18}A{22}C{21} Para que a mesma possa ser filtrada, considerando que o usuário tenha definido como aceite o máximo de 2 bases consecutivas com qualidade menor que 20 para toda a seqüência, o filtro fornecerá o seguinte resultado: YYYACACAC. O caractere Y mascara os nucleotı́deos que não passam no filtro, pela baixa qualidade.O microsatélite encontrado neste caso é: ACACAC. Repare que a sexta e a sétima base possuem qualidade inferior à indicada pelo usuário, mas de forma encadeada não ultrapassam o aceite máximo do usuário de 2 bases, logo não foram mascaradas. Intercalar Seqüências: Todas as seqüências são concatenadas, acrescentando um sı́mbolo curinga no final de cada seqüência para que o programa TROLL não as interprete como uma única seqüência. Executar TROLL : O TROLL é executado somente uma vez, para o arquivo montado, independente do número de seqüências. A possibilidade de executar o TROLL uma única vez permite maior rapidez, evitando o custo de acesso a disco para várias seqüências. A complexidade do módulo é de O(n+m), sendo n o número de seqüências e m o número de microsatélites encontrados, mantendo portanto, a complexidade linear do programa TROLL. Analisar Resultado : Analisa o resultado reportado pelo TROLL e, para cada SSR encontrado, é identificado o arquivo Experiment File da seqüência. Esta identificação é feita comparando o tamanho de cada seqüência e o valor registrado do inı́cio do microsatélite. Gravar Tag: O programa Gap4 precisa identificar as regiões que deverão ser mascaradas com microsatélites. Para isso, a repetição é gravada com uma etiqueta (tag) no arquivo Experiement File, informando o nucleotı́deo inı́cio e fim do microsatélite. Também são gravadas informações como: número de nucleotı́deos restante para o final da seqüência, os nucleotı́deos que se repetem (motifs), o número de vezes que os motifs aparecem e o nome da seqüência. 5 Gerar Arquivos: Caso o usuário queira, o módulo pode gerar um arquivo com todas as seqüências que possuı́rem SSR’s (*.SSR.passed) e outro arquivo com todas as seqüências que não possuı́rem SSR’s (*.no SSR.passed). 6 Resultados O módulo implementado possui uma interface amigável ao usuário, seguindo o mesmo padrão do Pacote Staden, como mostra a Figura 2. Figura 2. Interface do módulo TROLL acrescentado ao Pacote Staden, para localizar microsatélites. Nela o usuário pode escolher o tamanho mı́nimo da motif: mono, di, tri, tetra ou penta; o número mı́nimo de repetições aceitas; a localização do arquivo motif.dat, exigido pelo TROLL. Ainda pode escolher entre gravar arquivos com seqüência que possuem ou não SSR; e o número máximo de nucleotı́deos aceitos com qualidade abaixo do valor indicado pelo próprio usuário. 6 Após fazer filtros e encontrar os microsatélites, o resultado é mostrado na tela Textual Output do Pregap, a qual funciona como registro de processamento, ver Figura 3. Figura 3. Após o módulo TROLL ser executado, o Pregap mostra o resultado para cada seqüência, informando se houve ou não microsatélite. Com os resultados encontrados e gravados nos arquivos Experiment File, os mesmos podem ser vistos de forma gráfica pelo aplicativo Gap. Desta forma, não só os microsatélites são facilmente reconhecidos, como também é possı́vel observar suas caracterı́sticas, ver Figura 4. O usuário pode, ainda, visualizar todas as seqüências com seus respectivos microsatélites, ver Figura 5. 7 Conclusão Neste trabalho desenvolvemos uma ferramenta computacional que de forma rápida, permite encontrar, visualizar e anotar repetições encadeadas (microsatélites) em seqüências de DNA. Neste sentido, integramos duas ferramentas de código 7 Figura 4. Os microsatélites e suas descrições podem ser vistos pelo programa Gap. Figura 5. Seqüências e os microsatélites (em pontos verdes) encontrados para cada sequência. aberto disponı́vel à comunidade cientı́fica (TROLL e Staden), alteramos os códigos fonte e disponibilizamos de forma gratuita. A ferramenta criada já vem sendo utilizada por vários laboratórios no desenvolvimento in silico de marcadores moleculares em larga escala. O software pode ser baixado a partir do site http:// wsmartins.net/bioinfoucg/, no link de serviços. São disponibilizadas versões, tanto para o sistema operacional Linux, quanto para o Windows. 8 Agradecimentos À Pró-Reitoria de Pós-graduação e Pesquisa (PROPE)/UCG - projeto de pesquisa 551 - e ao Conselho Nacional de Desenvolvimento Cientı́fico e Tecnológico (CNPq)processo N. 400617-03. Referências [1] Abajian, C. Sputnik.(1994) http://abajian.net/sputnik/ [2] Aho, A.V. and Corasick, M.J. Efficient string matching: an aid to bibliographic seach.(1975) Communication of the ACM, 18, 333-340, [3] Benson, G. Tandem repeats finder: a program to analyze dna sequences.(1999) Nucleic Acids Res., 27, 573-580. [4] Cardle, L., Ramsay, L., Milbourne, D., Macaulay, M., Marshall, D. and Wough, R. Computacional and experimental characterization of physically clustered simple sequence repeats in plants.(2000) Genetics, 156, 847-854. 8 [5] Castelo, T., Martins, S. and Gao, R.; Trandem Repeat Occurrence Locator. (2002) Bioinformatics. Oxford University Press, USA: , v.18, n.4, p.634 - 636 [6] Kumar, L. S. DNA markers in plant improvement: an overview.(1999) Biotechnology Advances, v.17, p. 143-182. [7] Smit, AFA and Green, P., Repeat Masker. (1997) http://ftp.genome.washington.edu/RM/RepeatMasker.html [8] Van Belkun, A. The role of short sequence repeats in epidemiologic typing.(1999) Current Opinion in Microbiology. 1999. Vol. 2:306-311
Documentos relacionados
Ancoragem de genomas incompletos em - FACOM
Um projeto genoma usual possui três etapas. A primeira, denominada seqüenciamento e montagem, consiste na determinação da seqüência exata de todos os seus cromossomos. A segunda, conhecida co...
Leia mais