Desenho e Validação in silico de Primers Intragenéricos
Transcrição
Desenho e Validação in silico de Primers Intragenéricos
II Workshop de Tecn. da Inf. aplicada ao Meio Ambiente – CBComp 2004 Seqüenciamento de DNA Desenho e Validação in silico de Primers Intragenéricos S. P. S. Garcês e A. O. S. Lima Resumo - Uma das principais técnicas utilizadas em biologia molecular é a reação de polimerase em cadeia (PCR). Por este método é possível amplificar milhares de vezes um fragmento de DNA. Para que isso seja possível são desenhados primers com características específicas. Dependendo do objetivo do trabalho podem ser desenhados primers altamente específicos (eficazes em só uma espécie) ou genéricos (eficazes em diversas espécies). No presente trabalho objetivou-se determinar uma rotina para o uso de ferramentas de bioinformática que possibilitem o desenho de primers intragenéricos, isto é, primers que permitam a amplificação de um gene a partir de várias espécies de um mesmo gênero. Esses primers são de grande importância para procedimentos relacionado à engenharia genética. Nesse sentido, foram desenhados primers internos intragenéricos para genes que codificam hidrolases nos gêneros Bacillus, Streptomyces e Escherichia. Posteriormente, os primers obtidos foram validados virtualmente. Os resultados indicam que a rotina apresentada pode auxiliar no desenho de primers intragenéricos. Palavras-Chave - ferramentas de bioinformática, desenho de primers, PCR. A I. INTRODUÇÃO reação de polimerase em cadeia (Polymerase Chain Reaction-PCR) é uma técnica utilizada para a amplificação de ácidos nucléicos específicos. Para tanto, são utilizados dois oligonucleotídeos sintéticos denominados primers, os quais são complementares a duas regiões especificas do DNA alvo a ser amplificado. Para a reação, é obtida uma mistura contendo DNA alvo, primers, desoxinucleotídeos, tampão e Taq DNA polimerase. Esta mistura é submetida a uma série de ciclos de amplificação, através da exposição a três temperaturas diferentes. Primeiro o DNA alvo é desnaturado à temperatura de 94 ºC, em seguida os primers são anelados às cadeias de DNA alvo (50-65 ºC) e finalmente uma nova cadeia de DNA é polimerizada (72 ºC). Fragmentos de DNA (<10 Kb) correspondentes à região entre os dois primers são amplificados exponencialmente [3, 6] até cerca de um milhão de vezes. O produto gerado pode ser caracterizado (tamanho e seqüência nucleotídica) ou manipulado para outras aplicações. Entre estas destacam-se a S. P. S. Garcês e A. O. S. Lima – Centro de Ciências Tecnológicas da Terra e do Mar, Universidade do Vale do Itajaí, R. Uruguai, 458, Itajaí-SC 88302-202, Brazil. (e-mail: [email protected]). sub-clonagem para produção de proteínas e seu emprego como sonda de DNA para clonagem de genes [2]. O desenho de primers para PCR é o passo chave para uma reação bem sucedida, sendo um procedimento simples quando a seqüência do DNA alvo a ser amplificada é conhecida. Neste caso, é necessário respeitar algumas regras (tamanho, composição, Tm) ou utilizar programas específicos para o desenho de primers [2]. Contudo, quando é necessário um par de primers eficiente para a amplificação de um gene em diferentes espécies de um mesmo gênero [2], este processo pode-se tornar mais complicado. Uma das formas para se desenhar primers, é através da utilização de programas de bioinformática. Como produto da fusão entre as ciências da computação e biológica, a bioinformática recebeu grande atenção nas últimas duas décadas, principalmente devido à necessidade de se organizar e analisar a enorme quantidade de dados gerados em biologia molecular [1]. Hoje, mais de 22 milhões de seqüências estão depositadas no Centro Nacional de Informação Biotecnológica dos Estados Unidos (National Center for Biotechnology Information - NCBI) [8]. Portanto, existe uma grande quantidade de dados que necessitam ser analisados a fim de gerar novas informações úteis. Isso resulta em uma crescente necessidade de conhecimento na área da bioinformática e de pesquisadores que saibam utilizar e desenvolver estas ferramentas. Neste trabalho é apresentada a utilidade da interligação das ferramentas existentes em bioinformática, no desenho e validação de primers para PCR. Para tanto, será construída uma base de dados de primers intragenéricos que permitam a amplificação de genes que codificam hidrolases de interesse biotecnológico em três gêneros (Bacillus, Streptomyces e Escherichia). Nesse sentido, foi estabelecida uma rotina constituída por uma etapa de busca de seqüências relacionadas, determinação de regiões consenso, seleção da região consenso mais conservada, desenho de primers para a região conservada e validação do par de primers desenhados. II. MATERIAIS E MÉTODOS O desenho de primers é dividido em quatro fases: busca e escolha das seqüências de interesse; alinhamento das seqüências e determinação do consenso; seleção da região consenso mais conservada e escolha e teste dos primers. A. Busca e escolha de seqüências Para a execução de uma busca de forma eficiente é necessário o uso de palavras-chave que sejam representativas. No presente caso, é fundamental a designação apropriada ao gênero e enzima que se quer estudar. A busca de seqüências 714 II Workshop de Tecn. da Inf. aplicada ao Meio Ambiente – CBComp 2004 de nucleotídeos inicia-se no taxbrowser do NCBI [12]. Esta ferramenta é usada para se determinar a identificação numeral atribuída, pelo NCBI, ao gênero que se deseja estudar. Para tanto, foi colocado o nome do gênero de interesse e como resultado foi obtido o taxonomyID. Como mencionado, é fundamental a correta designação da enzima que se quer estudar. Como existem vários nomes possíveis para uma mesma enzima é importante que todos sejam usados. Nesse sentido, os sinônimos das designações para enzimas podem ser obtidos no banco de dados do Expasy [4]. Neste site, foi escolhida a opção de enzima [5] e posteriormente colocado o nome da proteína de interesse. Os resultados obtidos foram copiados para um arquivo de texto. Uma vez obtidas as informações referentes à nomenclatura correta (organismos e enzima), foi acessado o banco de dados de nucleotídeos do NCBI [10]. Na janela details, foram colocados separadamente os sinônimos da enzima de interesse o organismo alvo. Em ambos os casos, sempre definindo o campo de busca, isto é, no caso enzima [protein name] e do organismo – [organism]. Para que a busca seja executada corretamente, o nome do organismo foi relacionado com as designações da enzima pela expressão boleana AND e os nomes da enzima separados pela expressão OR. A expressão de busca também foi adicionada da expressão boleana NOT, a qual permitiu a eliminar seqüências relacionadas a vetores, genomas completos, genes putativos ou genes prováveis. A seqüência completa de DNA (CDS) dos resultados obtidos foi recuperada (formato FASTA) e armazenada em arquivo de texto. Uma última "limpeza" das seqüências obtidas foi necessária a fim de eliminar repetições, fragmentos que apresentavam um número de bases muito diferente da média e outras seqüências não relacionadas. B. Alinhamento e consenso Para o alinhamento das seqüências selecionadas (formato FASTA), estas foram colocadas na janela do programa Multialin [13]. Em seguida, foi selecionada na janela Optional Parameters a opção Sequence Alignment Will Be Displayed As Coloured Html Text. Já na janela Other Options a seção Maximum Line Length and Graduation Step foi alterada para o comprimento máximo das seqüências a serem alinhadas. Posteriormente, foi realizado o alinhamento e a seqüência consenso resultante foi copiada para um arquivo texto. C. Seleção da região consenso mais conservada A ferramenta BLAST da base de dados do NCBI [9] foi utilizada para determinar em qual região da seqüência consenso ela é mais conservada entre as espécies do gênero de interesse. Para tanto, a seqüência consenso foi avaliada pela rotina – Search for short, nearly exact matches (nucleotídeos) do NCBI. Após a execução da busca (tecla Blast), na página Seqüenciamento de DNA seguinte é permitido selecionar a forma com que serão apresentados os resultados. Nessa página, foi selecionado o item Bacteria na seção Limit results by entrez query e Query ancored with identities na seção Alignment view. A partir do resultado do BLAST foram escolhidas as duas regiões mais conservadas que possuíssem pelo menos entre 20-40 bases de comprimento. D. Escolha e teste dos primers Para a escolha dos primers com as propriedades mais adequadas foi empregado o programa Gene Runner (Hastings software - v3.05). Neste caso, foram avaliadas separadamente as duas regiões consenso mais conservadas. Para tanto, a seqüência nucleotídica foi inserida na janela de análise de primers do programa. Em seguida, foram retiradas bases das extremidades da seqüência até que a mesma apresentasse os seguintes parâmetros: 30-70% G-C, reduzida formação de dímeros e hairpins (regiões de auto anelamento) e Tm por volta de 61 ºC (variação máxima de 2 °C). A fim de testar a validade dos primers, estes foram comparados (como descrito anteriormente) às seqüências de nucleotídeos depositadas no banco do NCBI. Para tanto, no quadro query foi colocada a seqüência selecionada para os dois primers e entre eles foi adicionada a letra N. Tal estratégia, faz com que as duas seqüências devam ser procuradas simultaneamente não importando a distância existente entre elas. III. RESULTADOS Como resultado do procedimento para o desenho de primers intragenéricos, foram definidos os primers apresentados na Tabela I. Foi proposta a busca de primers para as seguintes hidrolases: α-amilase, β-amilase, glican1,4α-glicosidase, α-glicosidase, celulase, β-glicosidase, 1,4-βcelobiohidrolase, poligalacturonase, quitinase, quitosanase, endo-1,3(4)-β-glicanase, endo-1,4-β-xilanase, lisozima, αgalactosidase, β-galactosidase e agarase. Entretanto, não foi possível encontrar seqüências referentes a todas as hidrolases nos três gêneros estudados (Streptomyces, Escherichia e Bacillus). Tal resultado era esperado, visto que cada gênero apresenta certas características. Na tabela II são apresentados os resultados obtidos na etapa de validação dos primers. Neste caso, é indicado o número de espécies encontradas no BLAST inicial, isto é em relação a seqüência consenso. Bem como é apresentado o número de espécies encontradas com a avaliação das seqüências dos primers propriamente dita. 715 II Workshop de Tecn. da Inf. aplicada ao Meio Ambiente – CBComp 2004 Seqüenciamento de DNA TABELA I PRIMERS DESENHADOS PARA A AMPLIFICAÇÃO INTERNA DE GENES QUE CODIFICAM HIDROLASES EM TRÊS GÊNEROS Gênero Streptomyces Escherichia Bacillus Enzima Primer Forward Tm (ºC) GTCACCGCCGTCCTCTT 62 ATGTGCTTGGCGGCG TTCTTCGACCAGGACGG 60 ACCTCGTCGGGCAGGT 61 Celulase TCTTCGGCGTCACGGA 62 TCGAGGGTCTGGTACCAGT 61 Quitinase CGGCGTCGACATCGAC 61 GCCGCCGAGGTCCT 59 Quitosanase TCGCCTACTACGACGCC 61 AGGAAGGCGTGCAGGTAG 62 α-galactosidase GTCGACGACGGCTGGTT 63 ATCTGGCTGAATCCGTGC 62 β-galactosidase CCGACGTCTCCTGGGA 60 GGTCCAGGTCGGCCA 60 α-amilase CATAACGCCACGGTTTACT 60 CAGCCGTGAATTTGCTCA 62 α-galactosidase ATTCTTGGTGATGTGTTCCATC 63 CTCAATCAAATCCTCACGAC 59 β-galactosidase ACATCCCCCTTTCGCC 61 ATCCGCCACATATCCTGAT 61 α-amilase AAATGGCGGTGGTATCATT 62 TAGTTCATTCGCATACCAATT 60 β-amilase ATTTAATGGCGCCATTAAA 61 GGTGCCCCATGCTTTATT 62 α-glicosidase CAGGGAAGTGCTTTCTCATTA 62 GTAATTGAATGAGCTTCTGATAGTA 61 Celulase GCAATGGTATGGTGAATTTG 62 CATCCTGGCTCCATGTACC 62 β-glicosidase CATCGTTATAAAGAAGATATCGC 62 CCGTTTTGGCATAGCGT 61 Quitinase ATTTTATTACTCCAAATCTCGC 61 CGCAATCTTCCCAAGTTG 61 Quitosanase AGATCAAAAGCGCCGG 61 CACGGGTGTCATGATTGG 61 AGTACATGGGAAAAGGCAGA 61 GAAAAAGGATGAGACAATTCC 60 GATTCATGGGGAACTTATAGAC 60 ACACTCCAGTACTGCGTAAAAG 61 GTTGGAAAAGCAAAATATGAAG 62 TCACGCTTAGGCGGATTA 61 TABELA II VALIDAÇÃO DOS PRIMERS DESENHADOS Bacillus tamanho do amplicon (pares de bases) 2 509 Enzima α-amilase 2 αglicosidase 2 Celulase 1 S. avermitilis Quitinase 2 S. coelicolor, S. avermitilis 0 718 Quitosanase 0 - 0 136 1 S. avermitilis 0 588 1 S. coelicolor 0 1300 6 E. coli 5 216 α-amilase Escherichia IV. DISCUSSÃO E CONCLUSÃO número de espécies presentes no alinhamento (seqüência consenso) número de acessos do gênero em questão (validação dos primers) αgalactosidase βgalactosidase α galactosidase βgalactosidase 62 α-amilase Lisozima Streptomyces Tm (ºC) α-glicosidase Endo-1,3(4)-βglicanase Endo-1,4-βxilanase. Gênero Primer Reverso Nome das espécies (validação dos primers) S. griseus, S. limosus S. limosus, S. coelicolor 2 542 0 518 6 E. coli 5 780 5 E. coli 1 512 α-amilase 0 - 0 210 β-amilase 2 B. cereus 0 611 αglicosidase 3 B. subtilis 1 752 Celulase 0 - 0 513 β-glicosidase 4 B. subtilis 2 267 Quitinase 0 - 0 349 Quitosanase 3 B. subtilis 3 590 Endo-1,3(4)β-glicanase 1 B. macerans 0 210 2 124 1 251 Endo-1,4-βxilanase. 11 Lisozima 3 B. circulans, B. subtilis, Bacillus sp. B. cereus, B. athracis A rotina proposta para o desenho de primers internos intragenéricos, indicou ser de grande valia para pesquisas em biologia molecular. Pois além de ser uma rotina simples, que utiliza somente programas disponíveis gratuitamente na Internet, seus resultados parecem ser consistentes. Isso faz com que seu uso possa ser implementado facilmente, o que por sua vez, permitirá uma economia de tempo e de recursos em testes laboratoriais. Entretanto, deve ser considerado que nem todos os primers desenhados foram validados positivamente. Sendo observado casos, onde somente um ou outro primer era reconhecido durante a validação in silico. Conclui-se então que os resultados obtidos por essa estratégia podem sim orientar o pesquisador na seleção de primers com grande probabilidade de serem eficazes. No presente momento, alguns dos primers apresentados estão sendo testados in vitro. V. REFERÊNCIAS [1] [2] [3] [4] [5] [6] [7] [8] [9] D. W. Mount, "Bioinformatics – Sequence and Genome Analysis," 1st ed., Cold Spring Harbor, New York: Cold Spring Harbor Laboratory Press, 2001, pp. 1 – 19 J. Sambrook, D. W. Russel, "Molecular Cloning – A Laboratory Manual," 3rd ed., vol. 2, Cold Spring Harbor, New York: Cold Spring Harbor Laboratory Press, 2001, pp. 8.04 – 8.102 http://bip.weizmann.ac.il/mb/bioguide/pcr/PCRwhat.html http://bo.expasy.org/ http://bo.expasy.org/enzyme http://www.books.md/P/dic/PCR.php http://www.generunner.com/ http://www.ncbi.nlm.nih.gov/ http://www.ncbi.nlm.nih.gov/BLAST/ 716 II Workshop de Tecn. da Inf. aplicada ao Meio Ambiente – CBComp 2004 Seqüenciamento de DNA [10] http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Nucleotide&cmd=Se arch&dopt=DocSum&term=txid561[Organism:exp] [11] http://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/ [12] http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi [13] http://prodes.toulouse.inra.fr/multalin/ VI. BIOGRAFIAS S. P. S. Garcês é aluno do curso de graduação em Engenharia Biotecnológica na Universidade do Algarve, Faro, Portugal. A. O. S. Lima é professor junto ao curso de Ciências Biológicas da UNIVALI, Itajaí-SC. É licenciado e bacharel em Ciências Biológicas pela UNESP de Rio Claro-SP. Obteve título de mestre (1997) e doutor (2001) em agronomia junto ao Departamento de Genética da ESALQ-USP, Piracicaba-SP. Concluiu em 2002 o pós-doutorado em Genética na ESALQ-USP, Piracicaba-SP. 717