Software para detecç˜ao de repetiç˜oes encadeadas

Transcrição

Software para detecç˜ao de repetiç˜oes encadeadas
Software para detecção de repetições encadeadas
(SSR) em sequências de DNA
Daniel Xavier de Sousa1 , Wellington Santos Martins1 , and David Bertioli2
2
1
Universidade Católica de Goiás, Goiânia, Brasil,
Universidade Católica de Brası́lia e Cenagem/Embrapa
Brası́lia, Brasil
Resumo This work presents a computational tool to aid in the development of molecular markers by locating simple tandem repeats (microsatélites) in DNA sequences. The tool is based on the TROLL (http://
finder.sourcefoge.net/) program and allows for fast report of microsatélites
and sequence quality control. Is has been integrated to the well know
Staden Package which provides an easy and intuitive graphical interface.
1
Introdução
A contribuição deste trabalho é o desenvolvimento de um módulo para o programa Pregap do pacote Staden. Tal módulo permite a localização rápida de microsatélites em seqüências genômicas e serve, assim, aos pesquisadores interessados em estudos envolvendo marcadores moleculares baseados em microsatélites.
Como o módulo é integrado ao pacote Staden, permite aos usuários visualizar
de forma fácil microsatélites encontrados nos arquivos cromatogramas.
2
Marcadores Moleculares, SSR’s
Marcadores moleculares são definidos como regiões localizáveis nos cromossomos
(ex. sı́tio de clivagem de enzimas de restrição, gene, minisatélite, microsatélite)
cuja herança pode ser monitorada. Estas regiões podem corresponder a regiões
expressas do DNA ou a algum segmento de DNA sem função codificadora conhecida, mas cujo padrão de herança pode ser estudado. Os marcadores moleculares são hoje foco de estudo nos programas de melhoramento animal e vegetal [6]. Marcadores moleculares são também utilizados, por exemplo, para construção de mapas genéticos, que representa uma base de conhecimento para auxiliar a transferência das caracterı́sticas de interesse para plantas de importância
agronômica através de melhoramento tradicional.
Marcadores moleculares do tipo microsatélites, também conhecidos como
SSR (Simple Sequence Repeats) têm sido amplamente utilizados. Os SSR’s
são simples palavras chaves, formadas por uma ou até seis bases repetidas encadeadas, por um número indefinido de vezes. Estas seqüências estão distribuı́das
2
ao acaso ao longo de todo o genoma e o polimorfismo de seu comprimento indica a variabilidade dentro da mesma espécie. Tais repetições são freqüentemente encontradas nos genomas e principalmente nos eucariotos. Em genomas
de plantas, por exemplo, as mesmas são encontradas em ocorrência de 1 em 6
mil pares de base [4]. Em algumas bactérias, alterações no número de repetições
de microsatélites provocam a produção de proteı́nas ligeiramente diferentes[8].
Nas plantas ou animais, os microsatélites contribuem para marcar genes que
exerçam a mesma função. Sendo estes genes de indivı́duos diferentes, os quais
podem pertencer à mesma espécie ou não.
3
Programas para encontrar SSR
Basicamente existem dois métodos para encontrar SSR’s. Um deles é definir
um modelo para a repetição e encontrar regiões que o satisfaçam, não sendo
necessário 100% de exatidão, mas um alto grau de similaridade já é suficiente.
Esta implementação é encontrada em programas como, Tandem Repeats Finder
[3] e Sputnik [1]. No segundo método as repetições (motifs) são definidas antes
(num dicionário) e chamadas para verificação de similaridade com a seqüência.
Este método fornece uma rápida solução do problema e pode ser encontrado nos
programas Repeat Masker [7] e Tandem Repeat Occurence Locator (TROLL)[5].
Este trabalho optou pelo programa TROLL, pois além de ser um projeto
de código aberto à comunidade, apresentou o melhor desempenho comparado
com vários outros programas disponı́veis, veja os dados comparativos em [5]. O
programa é baseado no Algoritmo Aho Corasick (ACA) [2] e possui complexidade
linear O(n). Seu funcionamento se inicia, basicamente, a partir da construção de
uma árvore de palavras chaves utilizando a lista de repetições (motifs) indicada
previamente. As seqüências de busca são comparadas a esta árvore e todas as
repetições encontradas são armazenadas numa estrutura conhecida como Repeat
Buffer. Para cada igualdade encontrada, é verificado se a mesma é o inı́cio ou a
continuação de uma repetição.
4
O Pacote Staden
O Pacote Staden é uma ferramenta que reune vários programas que, possibilita
ao biólogo facilidade na análise de seqüências genômicas. O mesmo tem sido amplamente atualizado pela comunidade cientı́fica (http://staden.sourceforge.net/).
Dentro do pacote existem vários programas, dentre eles o Pregap e o Gap.
O Pregap é responsável pela preparação dos arquivos de cromatogramas para
que sejam analisados por vários módulos de execução. O usuário, de forma
gráfica escolhe quais desses módulos deverão agir nos arquivos cromatogramas,
preparando-os para análise. O programa Gap mostra de forma gráfica os resultados do processamento dos módulos executados no Pregap.
Embora o pacote Staden possibilite a procura por microsatélites, através do
programa RepeatMasker, este não é mais distribuı́do gratuitamente. Para sanar
3
este problema, desenvolvemos um módulo apresentado neste trabalho, que é
especı́fico para a localização rápida dos SSRs.
5
Implementação
O módulo construı́do neste trabalho permite que, dado um conjunto de seqüências,
a partir do programa Pregap, as mesmas sejam capturadas, filtradas (mascarando contaminantes e bases de má qualidade) e analisadas quanto à existência de microsatélites. O TROLL é executado somente uma vez para todas
as seqüências, e para todos os SSR’s encontrados de cada seqüência, é gravado
um respectivo arquivo Experiment File (a base de informações para análise das
seqüências). Este arquivo é utilizado para construção do repositório de dados do
programa GAP, que irá mostrar as caracterı́sticas da seqüência de forma gráfica,
inclusive os microsatélites encontrados pelo módulo.
Os módulos do Pregap são escritos na linguagem interpretada Tcl/Tk, seguindo
um padrão do Pacote Staden de rotinas destinadas à interface com usuário e
execução do módulo. Os módulos criados são salvos no diretório $STANDENROOT/lib/pregap4/modules e com nomes terminados com extensão .p4m.
O módulo desenvolvido neste trabalho obedece ao seguinte fluxograma:
Figura 1. Fluxo de execução do módulo
4
Seqüências: Nesta fase o módulo utiliza a variável global file do Pregap
que contém o endereço de acesso ao arquivo Experiment File referente a cada
seqüência, que contém o nome, os nucleotı́deos e as qualidades;
Filtrar Contaminação: Aqui o módulo acessa os arquivos Experiment File a
procura de campos que indiquem a posição na seqüência da existência de contaminantes, isto é, regiões de plasmı́dios utilizadas para duplicação da molécula
de DNA. Caso encontre, os nucleotı́deos contaminados serão mascarados;
Filtro de Qualidade: Nesta fase, de acordo com os parâmetros passados pelo
usuário, o filtro irá aceitar um número máximo de bases consecutivas com qualidade inferior a um dado valor. Por exemplo, dada a seguinte seqüência com a
qualidade expressa entre chaves:
G{18}T{18}G{18}A{20}C{30}A{19}C{18}A{22}C{21}
Para que a mesma possa ser filtrada, considerando que o usuário tenha
definido como aceite o máximo de 2 bases consecutivas com qualidade menor
que 20 para toda a seqüência, o filtro fornecerá o seguinte resultado: YYYACACAC. O caractere Y mascara os nucleotı́deos que não passam no filtro, pela
baixa qualidade.O microsatélite encontrado neste caso é: ACACAC. Repare que
a sexta e a sétima base possuem qualidade inferior à indicada pelo usuário, mas
de forma encadeada não ultrapassam o aceite máximo do usuário de 2 bases,
logo não foram mascaradas.
Intercalar Seqüências: Todas as seqüências são concatenadas, acrescentando
um sı́mbolo curinga no final de cada seqüência para que o programa TROLL
não as interprete como uma única seqüência.
Executar TROLL : O TROLL é executado somente uma vez, para o arquivo
montado, independente do número de seqüências. A possibilidade de executar
o TROLL uma única vez permite maior rapidez, evitando o custo de acesso a
disco para várias seqüências. A complexidade do módulo é de O(n+m), sendo n
o número de seqüências e m o número de microsatélites encontrados, mantendo
portanto, a complexidade linear do programa TROLL.
Analisar Resultado : Analisa o resultado reportado pelo TROLL e, para
cada SSR encontrado, é identificado o arquivo Experiment File da seqüência.
Esta identificação é feita comparando o tamanho de cada seqüência e o valor
registrado do inı́cio do microsatélite.
Gravar Tag: O programa Gap4 precisa identificar as regiões que deverão ser
mascaradas com microsatélites. Para isso, a repetição é gravada com uma etiqueta (tag) no arquivo Experiement File, informando o nucleotı́deo inı́cio e fim do
microsatélite. Também são gravadas informações como: número de nucleotı́deos
restante para o final da seqüência, os nucleotı́deos que se repetem (motifs), o
número de vezes que os motifs aparecem e o nome da seqüência.
5
Gerar Arquivos: Caso o usuário queira, o módulo pode gerar um arquivo com
todas as seqüências que possuı́rem SSR’s (*.SSR.passed) e outro arquivo com
todas as seqüências que não possuı́rem SSR’s (*.no SSR.passed).
6
Resultados
O módulo implementado possui uma interface amigável ao usuário, seguindo o
mesmo padrão do Pacote Staden, como mostra a Figura 2.
Figura 2. Interface do módulo TROLL acrescentado ao Pacote Staden, para localizar
microsatélites. Nela o usuário pode escolher o tamanho mı́nimo da motif: mono, di, tri,
tetra ou penta; o número mı́nimo de repetições aceitas; a localização do arquivo motif.dat, exigido pelo TROLL. Ainda pode escolher entre gravar arquivos com seqüência
que possuem ou não SSR; e o número máximo de nucleotı́deos aceitos com qualidade
abaixo do valor indicado pelo próprio usuário.
6
Após fazer filtros e encontrar os microsatélites, o resultado é mostrado na
tela Textual Output do Pregap, a qual funciona como registro de processamento,
ver Figura 3.
Figura 3. Após o módulo TROLL ser executado, o Pregap mostra o resultado para
cada seqüência, informando se houve ou não microsatélite.
Com os resultados encontrados e gravados nos arquivos Experiment File, os
mesmos podem ser vistos de forma gráfica pelo aplicativo Gap. Desta forma,
não só os microsatélites são facilmente reconhecidos, como também é possı́vel
observar suas caracterı́sticas, ver Figura 4. O usuário pode, ainda, visualizar
todas as seqüências com seus respectivos microsatélites, ver Figura 5.
7
Conclusão
Neste trabalho desenvolvemos uma ferramenta computacional que de forma
rápida, permite encontrar, visualizar e anotar repetições encadeadas (microsatélites)
em seqüências de DNA. Neste sentido, integramos duas ferramentas de código
7
Figura 4. Os microsatélites e suas descrições podem ser vistos pelo programa Gap.
Figura 5. Seqüências e os microsatélites (em pontos verdes) encontrados para cada
sequência.
aberto disponı́vel à comunidade cientı́fica (TROLL e Staden), alteramos os códigos
fonte e disponibilizamos de forma gratuita. A ferramenta criada já vem sendo utilizada por vários laboratórios no desenvolvimento in silico de marcadores moleculares em larga escala. O software pode ser baixado a partir do site http:// wsmartins.net/bioinfoucg/, no link de serviços. São disponibilizadas versões, tanto
para o sistema operacional Linux, quanto para o Windows.
8
Agradecimentos
À Pró-Reitoria de Pós-graduação e Pesquisa (PROPE)/UCG - projeto de pesquisa
551 - e ao Conselho Nacional de Desenvolvimento Cientı́fico e Tecnológico (CNPq)processo N. 400617-03.
Referências
[1] Abajian, C. Sputnik.(1994) http://abajian.net/sputnik/
[2] Aho, A.V. and Corasick, M.J. Efficient string matching: an aid to bibliographic
seach.(1975) Communication of the ACM, 18, 333-340,
[3] Benson, G. Tandem repeats finder: a program to analyze dna sequences.(1999)
Nucleic Acids Res., 27, 573-580.
[4] Cardle, L., Ramsay, L., Milbourne, D., Macaulay, M., Marshall, D. and Wough,
R. Computacional and experimental characterization of physically clustered simple
sequence repeats in plants.(2000) Genetics, 156, 847-854.
8
[5] Castelo, T., Martins, S. and Gao, R.; Trandem Repeat Occurrence Locator. (2002)
Bioinformatics. Oxford University Press, USA: , v.18, n.4, p.634 - 636
[6] Kumar, L. S. DNA markers in plant improvement: an overview.(1999) Biotechnology Advances, v.17, p. 143-182.
[7] Smit,
AFA
and
Green,
P.,
Repeat
Masker.
(1997)
http://ftp.genome.washington.edu/RM/RepeatMasker.html
[8] Van Belkun, A. The role of short sequence repeats in epidemiologic typing.(1999)
Current Opinion in Microbiology. 1999. Vol. 2:306-311

Documentos relacionados

Ancoragem de genomas incompletos em - FACOM

Ancoragem de genomas incompletos em - FACOM Um projeto genoma usual possui três etapas. A primeira, denominada seqüenciamento e montagem, consiste na determinação da seqüência exata de todos os seus cromossomos. A segunda, conhecida co...

Leia mais