Software para detecç˜ao de repetiç˜oes encadeadas

Transcrição

Software para detecção de repetições encadeadas
(SSR) em sequências de DNA
Daniel Xavier de Sousa1 , Wellington Santos Martins1 , and David Bertioli2
2
1
Universidade Católica de Goiás, Goiânia, Brasil,
Universidade Católica de Brası́lia e Cenagem/Embrapa
Brası́lia, Brasil
Resumo This work presents a computational tool to aid in the development of molecular markers by locating simple tandem repeats (microsatélites) in DNA sequences. The tool is based on the TROLL (http://
finder.sourcefoge.net/) program and allows for fast report of microsatélites
and sequence quality control. Is has been integrated to the well know
Staden Package which provides an easy and intuitive graphical interface.
1
Introdução
A contribuição deste trabalho é o desenvolvimento de um módulo para o programa Pregap do pacote Staden. Tal módulo permite a localização rápida de microsatélites em seqüências genômicas e serve, assim, aos pesquisadores interessados em estudos envolvendo marcadores moleculares baseados em microsatélites.
Como o módulo é integrado ao pacote Staden, permite aos usuários visualizar
de forma fácil microsatélites encontrados nos arquivos cromatogramas.
2
Marcadores Moleculares, SSR’s
Marcadores moleculares são definidos como regiões localizáveis nos cromossomos
(ex. sı́tio de clivagem de enzimas de restrição, gene, minisatélite, microsatélite)
cuja herança pode ser monitorada. Estas regiões podem corresponder a regiões
expressas do DNA ou a algum segmento de DNA sem função codificadora conhecida, mas cujo padrão de herança pode ser estudado. Os marcadores moleculares são hoje foco de estudo nos programas de melhoramento animal e vegetal [6]. Marcadores moleculares são também utilizados, por exemplo, para construção de mapas genéticos, que representa uma base de conhecimento para auxiliar a transferência das caracterı́sticas de interesse para plantas de importância
agronômica através de melhoramento tradicional.
Marcadores moleculares do tipo microsatélites, também conhecidos como
SSR (Simple Sequence Repeats) têm sido amplamente utilizados. Os SSR’s
são simples palavras chaves, formadas por uma ou até seis bases repetidas encadeadas, por um número indefinido de vezes. Estas seqüências estão distribuı́das
2
ao acaso ao longo de todo o genoma e o polimorfismo de seu comprimento indica a variabilidade dentro da mesma espécie. Tais repetições são freqüentemente encontradas nos genomas e principalmente nos eucariotos. Em genomas
de plantas, por exemplo, as mesmas são encontradas em ocorrência de 1 em 6
mil pares de base [4]. Em algumas bactérias, alterações no número de repetições
de microsatélites provocam a produção de proteı́nas ligeiramente diferentes[8].
Nas plantas ou animais, os microsatélites contribuem para marcar genes que
exerçam a mesma função. Sendo estes genes de indivı́duos diferentes, os quais
podem pertencer à mesma espécie ou não.
3
Programas para encontrar SSR
Basicamente existem dois métodos para encontrar SSR’s. Um deles é definir
um modelo para a repetição e encontrar regiões que o satisfaçam, não sendo
necessário 100% de exatidão, mas um alto grau de similaridade já é suficiente.
Esta implementação é encontrada em programas como, Tandem Repeats Finder
[3] e Sputnik [1]. No segundo método as repetições (motifs) são definidas antes
(num dicionário) e chamadas para verificação de similaridade com a seqüência.
Este método fornece uma rápida solução do problema e pode ser encontrado nos
programas Repeat Masker [7] e Tandem Repeat Occurence Locator (TROLL)[5].
Este trabalho optou pelo programa TROLL, pois além de ser um projeto
de código aberto à comunidade, apresentou o melhor desempenho comparado
com vários outros programas disponı́veis, veja os dados comparativos em [5]. O
programa é baseado no Algoritmo Aho Corasick (ACA) [2] e possui complexidade
linear O(n). Seu funcionamento se inicia, basicamente, a partir da construção de
uma árvore de palavras chaves utilizando a lista de repetições (motifs) indicada
previamente. As seqüências de busca são comparadas a esta árvore e todas as
repetições encontradas são armazenadas numa estrutura conhecida como Repeat
Buffer. Para cada igualdade encontrada, é verificado se a mesma é o inı́cio ou a
continuação de uma repetição.
4
O Pacote Staden
O Pacote Staden é uma ferramenta que reune vários programas que, possibilita
ao biólogo facilidade na análise de seqüências genômicas. O mesmo tem sido amplamente atualizado pela comunidade cientı́fica (http://staden.sourceforge.net/).
Dentro do pacote existem vários programas, dentre eles o Pregap e o Gap.
O Pregap é responsável pela preparação dos arquivos de cromatogramas para
que sejam analisados por vários módulos de execução. O usuário, de forma
gráfica escolhe quais desses módulos deverão agir nos arquivos cromatogramas,
preparando-os para análise. O programa Gap mostra de forma gráfica os resultados do processamento dos módulos executados no Pregap.
Embora o pacote Staden possibilite a procura por microsatélites, através do
programa RepeatMasker, este não é mais distribuı́do gratuitamente. Para sanar
3
este problema, desenvolvemos um módulo apresentado neste trabalho, que é
especı́fico para a localização rápida dos SSRs.
5
Implementação
O módulo construı́do neste trabalho permite que, dado um conjunto de seqüências,
a partir do programa Pregap, as mesmas sejam capturadas, filtradas (mascarando contaminantes e bases de má qualidade) e analisadas quanto à existência de microsatélites. O TROLL é executado somente uma vez para todas
as seqüências, e para todos os SSR’s encontrados de cada seqüência, é gravado
um respectivo arquivo Experiment File (a base de informações para análise das
seqüências). Este arquivo é utilizado para construção do repositório de dados do
programa GAP, que irá mostrar as caracterı́sticas da seqüência de forma gráfica,
inclusive os microsatélites encontrados pelo módulo.
Os módulos do Pregap são escritos na linguagem interpretada Tcl/Tk, seguindo
um padrão do Pacote Staden de rotinas destinadas à interface com usuário e
execução do módulo. Os módulos criados são salvos no diretório $STANDENROOT/lib/pregap4/modules e com nomes terminados com extensão .p4m.
O módulo desenvolvido neste trabalho obedece ao seguinte fluxograma:
Figura 1. Fluxo de execução do módulo
4
Seqüências: Nesta fase o módulo utiliza a variável global file do Pregap
que contém o endereço de acesso ao arquivo Experiment File referente a cada
seqüência, que contém o nome, os nucleotı́deos e as qualidades;
Filtrar Contaminação: Aqui o módulo acessa os arquivos Experiment File a
procura de campos que indiquem a posição na seqüência da existência de contaminantes, isto é, regiões de plasmı́dios utilizadas para duplicação da molécula
de DNA. Caso encontre, os nucleotı́deos contaminados serão mascarados;
Filtro de Qualidade: Nesta fase, de acordo com os parâmetros passados pelo
usuário, o filtro irá aceitar um número máximo de bases consecutivas com qualidade inferior a um dado valor. Por exemplo, dada a seguinte seqüência com a
qualidade expressa entre chaves:
G{18}T{18}G{18}A{20}C{30}A{19}C{18}A{22}C{21}
Para que a mesma possa ser filtrada, considerando que o usuário tenha
definido como aceite o máximo de 2 bases consecutivas com qualidade menor
que 20 para toda a seqüência, o filtro fornecerá o seguinte resultado: YYYACACAC. O caractere Y mascara os nucleotı́deos que não passam no filtro, pela
baixa qualidade.O microsatélite encontrado neste caso é: ACACAC. Repare que
a sexta e a sétima base possuem qualidade inferior à indicada pelo usuário, mas
de forma encadeada não ultrapassam o aceite máximo do usuário de 2 bases,
logo não foram mascaradas.
Intercalar Seqüências: Todas as seqüências são concatenadas, acrescentando
um sı́mbolo curinga no final de cada seqüência para que o programa TROLL
não as interprete como uma única seqüência.
Executar TROLL : O TROLL é executado somente uma vez, para o arquivo
montado, independente do número de seqüências. A possibilidade de executar
o TROLL uma única vez permite maior rapidez, evitando o custo de acesso a
disco para várias seqüências. A complexidade do módulo é de O(n+m), sendo n
o número de seqüências e m o número de microsatélites encontrados, mantendo
portanto, a complexidade linear do programa TROLL.
Analisar Resultado : Analisa o resultado reportado pelo TROLL e, para
cada SSR encontrado, é identificado o arquivo Experiment File da seqüência.
Esta identificação é feita comparando o tamanho de cada seqüência e o valor
registrado do inı́cio do microsatélite.
Gravar Tag: O programa Gap4 precisa identificar as regiões que deverão ser
mascaradas com microsatélites. Para isso, a repetição é gravada com uma etiqueta (tag) no arquivo Experiement File, informando o nucleotı́deo inı́cio e fim do
microsatélite. Também são gravadas informações como: número de nucleotı́deos
restante para o final da seqüência, os nucleotı́deos que se repetem (motifs), o
número de vezes que os motifs aparecem e o nome da seqüência.
5
Gerar Arquivos: Caso o usuário queira, o módulo pode gerar um arquivo com
todas as seqüências que possuı́rem SSR’s (*.SSR.passed) e outro arquivo com
todas as seqüências que não possuı́rem SSR’s (*.no SSR.passed).
6
Resultados
O módulo implementado possui uma interface amigável ao usuário, seguindo o
mesmo padrão do Pacote Staden, como mostra a Figura 2.
Figura 2. Interface do módulo TROLL acrescentado ao Pacote Staden, para localizar
microsatélites. Nela o usuário pode escolher o tamanho mı́nimo da motif: mono, di, tri,
tetra ou penta; o número mı́nimo de repetições aceitas; a localização do arquivo motif.dat, exigido pelo TROLL. Ainda pode escolher entre gravar arquivos com seqüência
que possuem ou não SSR; e o número máximo de nucleotı́deos aceitos com qualidade
abaixo do valor indicado pelo próprio usuário.
6
Após fazer filtros e encontrar os microsatélites, o resultado é mostrado na
tela Textual Output do Pregap, a qual funciona como registro de processamento,
ver Figura 3.
Figura 3. Após o módulo TROLL ser executado, o Pregap mostra o resultado para
cada seqüência, informando se houve ou não microsatélite.
Com os resultados encontrados e gravados nos arquivos Experiment File, os
mesmos podem ser vistos de forma gráfica pelo aplicativo Gap. Desta forma,
não só os microsatélites são facilmente reconhecidos, como também é possı́vel
observar suas caracterı́sticas, ver Figura 4. O usuário pode, ainda, visualizar
todas as seqüências com seus respectivos microsatélites, ver Figura 5.
7
Conclusão
Neste trabalho desenvolvemos uma ferramenta computacional que de forma
rápida, permite encontrar, visualizar e anotar repetições encadeadas (microsatélites)
em seqüências de DNA. Neste sentido, integramos duas ferramentas de código
7
Figura 4. Os microsatélites e suas descrições podem ser vistos pelo programa Gap.
Figura 5. Seqüências e os microsatélites (em pontos verdes) encontrados para cada
sequência.
aberto disponı́vel à comunidade cientı́fica (TROLL e Staden), alteramos os códigos
fonte e disponibilizamos de forma gratuita. A ferramenta criada já vem sendo utilizada por vários laboratórios no desenvolvimento in silico de marcadores moleculares em larga escala. O software pode ser baixado a partir do site http:// wsmartins.net/bioinfoucg/, no link de serviços. São disponibilizadas versões, tanto
para o sistema operacional Linux, quanto para o Windows.
8
Agradecimentos
À Pró-Reitoria de Pós-graduação e Pesquisa (PROPE)/UCG - projeto de pesquisa
551 - e ao Conselho Nacional de Desenvolvimento Cientı́fico e Tecnológico (CNPq)processo N. 400617-03.
Referências
[1] Abajian, C. Sputnik.(1994) http://abajian.net/sputnik/
[2] Aho, A.V. and Corasick, M.J. Efficient string matching: an aid to bibliographic
seach.(1975) Communication of the ACM, 18, 333-340,
[3] Benson, G. Tandem repeats finder: a program to analyze dna sequences.(1999)
Nucleic Acids Res., 27, 573-580.
[4] Cardle, L., Ramsay, L., Milbourne, D., Macaulay, M., Marshall, D. and Wough,
R. Computacional and experimental characterization of physically clustered simple
sequence repeats in plants.(2000) Genetics, 156, 847-854.
8
[5] Castelo, T., Martins, S. and Gao, R.; Trandem Repeat Occurrence Locator. (2002)
Bioinformatics. Oxford University Press, USA: , v.18, n.4, p.634 - 636
[6] Kumar, L. S. DNA markers in plant improvement: an overview.(1999) Biotechnology Advances, v.17, p. 143-182.
[7] Smit,
AFA
and
Green,
P.,
Repeat
Masker.
(1997)
http://ftp.genome.washington.edu/RM/RepeatMasker.html
[8] Van Belkun, A. The role of short sequence repeats in epidemiologic typing.(1999)
Current Opinion in Microbiology. 1999. Vol. 2:306-311

Software para detecç˜ao de repetiç˜oes encadeadas

Transcrição

Documentos relacionados

Reitores na Moncloa - Duvi

Lei de Amdahl Jones Albuquerque DFM

Untitled

SHELLAC 78`

Exame de Compressão e Codifica cão de Dados

RAFAEL CUNHA DE ALMEIDA

CONJUNTOS DE SEQÜÊNCIAS PARA SISTEMAS QS

Teorias da luz. Experiências

MANUAL DE - Movimento Contra o Discurso de Ódio

pdf - Computer Vision Research Group

Koalas atropelados na Austrália foram devolvidos

Ancoragem de genomas incompletos em - FACOM