Análise Comparativa de Genomas Procarióticos

Transcrição

Análise Comparativa de Genomas Procarióticos
Pesquisa
Análise Comparativa de Genomas Procarióticos
Pesquisa
POR QUE, COMO E O QUE COMPARAR?
Ilustrações cedidas pelos autores
iniciativa pioneira do Departamento de Energia NorteAmericano (DOE) de obter
uma seqüência genômica
humana de referência que pudesse
atender melhor os seus propósitos de
compreender os riscos potenciais para
a saúde e para o meio ambiente decorrentes da produção e do uso de novas
fontes de energia e novas tecnologias,
culminou no lançamento do Projeto
Genoma Humano, em 1990; mais tarde, os recursos tecnológicos gerados por
este projeto estimularam o desenvolvimento de muitos outros projetos genoma,
tanto por setores públicos quanto por
setores privados (HGP 2001) (Figura 1).
Desde a década de 1990, portanto, os
esforços internacionais no sentido de
obter seqüências genômicas completas
levaram à determinação de todo o código genético de mais de 700 organismos, entre estes, procariotos, leveduras, protozoários, plantas, invertebrados
e vertebrados, incluindo o próprio Homo
sapiens; atualmente, aproximadamente
3.000 outros projetos genoma estão em
andamento, representando interesses
médicos, comerciais, ambientais e industriais, ou contemplando organismosmodelos importantes para o desenvol-
Marcos Catanho, MSc
Doutorando em Biologia Celular e Molecular
Laboratório de Genômica Funcional e
Bioinformática
Instituto Oswaldo Cruz - Fiocruz
Rio de Janeiro – RJ
[email protected]
Wim Degrave, PhD
Pesquisador Titular
Laboratório de Genômica Funcional e
Bioinformática
Instituto Oswaldo Cruz - Fiocruz
Rio de Janeiro - RJ
[email protected]
Antonio Basílio de Miranda, PhD
Pesquisador Associado
Laboratório de Genômica Funcional e
Bioinformática
Instituto Oswaldo Cruz - Fiocruz
Rio de Janeiro – RJ
[email protected]
http://www.dbbm.fiocruz.br/labwim/
bioinfoteam/
20
Biotecnologia Ciência & Desenvolvimento - nº 37
Figura 1. Evolução do número (cumulativo) de genomas eucarióticos e procarióticos completamente seqüenciados e depositados em bancos de dados
públicos desde 1995 até 2007 (gráfico de barras) e a distribuição dos projetos
genoma segundo suas áreas de interesse (gráfico de pizza): biomedicina, evolução, meio ambiente, biotecnologia e agricultura. Observe que há uma nítida
preferência pelo seqüenciamento de genomas bacterianos (de menor tamanho em relação aos genomas eucarióticos e, portanto, mais fáceis de serem
analisados) e genomas com importância biomédica (42%) ou biotecnológica
(28%). Fonte: Genomes Online Database (GOLD 2008)
vimento de pesquisas científicas (GOLD
2008) (Figura 1).
Ao mesmo tempo, a obtenção e análise
de seqüências genômicas completas de
inúmeros organismos (genômica)
(Carraro & Kitajima 2002), juntamente
com dados de expressão gênica e
protéica de células, tecidos e órgãos inteiros, gerados por outras tecnologias
de alto desempenho como a
transcriptômica (Passos et al 2000) e
a proteômica (Sousa et al 1999; Ciero
& Bellato 2002), aliados ao vertiginoso
avanço da computação e desenvolvimento de algoritmos mais eficientes,
por sua vez resultantes do surgimento
e consolidação de ciências como a Computação, a Bioinformática e a Biologia Computacional nas últimas décadas (Binneck 2004; Prosdocimi et al
2002), tem permitido à comunidade científica o uso de abordagens holísticas
e ao mesmo tempo inovadoras no estudo da estrutura, organização e evolução de genomas (Abby & Daubin 2007),
no estudo da expressão diferencial de
genes e proteínas (Patterson &
Aebersold 2003), na análise da estrutura tridimensional de proteínas (Ginalski
2006), no processo de reconstrução
metabólica e na predição e classificação funcional de genes (Galperin &
Koonin 2000; Stein 2001; Gabaldon &
Huynen 2004; Francke et al 2005; Lee et
al 2007; Skrabanek et al 2008).
prosperar em virtualmente todos os
ecossistemas terrestres (refletida na incrível diversidade morfológica, fisiológica e metabólica destes microrganismos), mantendo populações de tamanho muito variado (desde muito pequeno até incrivelmente grande), e a capacidade de adquirirem e usarem
freqüentemente material genético de organismos muito distantes (Coenye et al
2005; Binnewies et al 2006; Abby &
Daubin 2007), oferecendo, por tudo isto,
um campo fértil para o desenvolvimento de pesquisas em diferentes áreas
como a microbiologia, a genética, a bioquímica, a evolução e a taxonomia
destes microrganismos.
Por que comparar?
Seqüências genômicas completas constituem uma fonte de dados singular
porque, em princípio, elas representam
tudo o que é necessário para criar um
organismo, juntamente com fatores
epigenéticos e sua interação com os
mesmos (Figura 2). Mas o que fazer com
toda esta informação? Acredita-se que
o genoma de um único organismo, visto isoladamente, fora de seu contexto
evolutivo, não é capaz de nos revelar
muito sobre si mesmo e que para tanto
os genomas de diferentes espécies ou
cepas devem ser estudados comparati-
Dentre estas abordagens destaca-se a
análise comparativa de genomas (também conhecida como genômica comparativa ou comparação de genomas),
que consiste na análise e comparação
do material genético de diferentes espécies ou cepas, com o propósito de
estudar a estrutura, organização e evolução dos genomas (e das espécies correspondentes) e também as funções dos
genes e regiões não codificantes nestes
genomas.
Nesta revisão, apresentamos um resumo das diferentes abordagens utilizadas na análise comparativa de genomas,
ressaltando, através de exemplos, sua
importância e algumas contribuições
para o desenvolvimento da Biologia.
Enfocamos nossa revisão em um grupo
particular
de
organismos
unicelulares: os procariotos. Pertencentes aos reinos Archaea e Bacteria, estes
seres representam quase a totalidade
dos genomas seqüenciados até o momento (Figura 1) e dos projetos genoma
em andamento (GOLD 2008); além disso, estas espécies reúnem características fascinantes, tais como uma enorme
(e insuspeitada) diversidade genética
(até mesmo entre espécies e populações), a capacidade de sobreviver e
Figura 2. Representação esquemática
do processamento da informação genética e epigenética (adaptado de
Strohman 1997)
vamente (Clark 1999). De fato, análises
comparativas entre as seqüências
genômicas de diferentes microrganismos
têm contribuído enormemente para a
elucidação de aspectos fundamentais da
genética, da bioquímica e da evolução
de inúmeras espécies (Galperin &
Koonin 1999; Kondrashov 1999; Fraser
et al 2000; Galperin & Koonin 2000;
Koonin et al 2000; Wei et al 2002; Huynen
et al 2005; Abby & Daubin 2007).
Por exemplo, desde o seqüenciamento
dos primeiros genomas bacterianos em
1995, análises comparativas de genomas
procarióticos têm nos revelado cada vez
mais a natureza complexa da estrutura
e organização destes genomas e a enorme diversidade genética entre estes organismos, muito acima daquela esperada, mesmo entre isolados de uma
mesma
espécie,
levando
a
questionamentos importantes sobre os
mecanismos pelos quais estes microrganismos evoluem e como devem ser
classificados taxonomicamente (Coenye
et al 2005; Binnewies et al 2006; Abby &
Daubin 2007). As forças que moldam a
estrutura, composição e organização
dos genomas destes microrganismos –
como, por exemplo, a eficiência nos
processos de replicação, transcrição e
regulação da expressão gênica - e aquelas responsáveis pela geração de variabilidade e da capacidade de adaptação
destas espécies aos mais diversos nichos ecológicos em nosso planeta – tais
como eventos de duplicação gênica,
transferência lateral de genes,
desfuncionalização de genes (formação
de pseudogenes), eliminação (deleção)
de genes e rearranjos cromossômicos , têm sido pouco a pouco desvendadas
e intensamente estudadas (Ochman &
Davalos 2006; Abby & Daubin 2007).
A reconstrução da história evolutiva dos
seres vivos - baseada em métodos matemáticos para inferir o passado a partir de características presentes nas espécies contemporâneas - também tem
se beneficiado com o seqüenciamento
e a análise comparativa de um número
cada vez maior de genomas, envolvendo os três domínios da vida - Archaea,
Bacteria e Eukarya. Por exemplo, novas abordagens para análises
filogenéticas, baseadas na comparação
e alinhamento de seqüências primárias
de múltiplos genes de inúmeras espécies ou, ainda, na comparação de características associadas aos genomas
inteiros de dezenas ou centenas de organismos, como o repertório completo
de genes ou a ordem (localização) dos
mesmos nos genomas, têm sido desenvolvidas (Delsuc et al 2005; Dutilh et al
2007), assim como novos métodos para
calcular a distância entre os genomas
Biotecnologia Ciência & Desenvolvimento - nº 37
21
de distintas espécies têm sido propostos (Otu & Sayood 2003; Henz et al 2005;
Kunin et al 2005a e referências contidas neste trabalho; Kunin et al 2005b;
Tekaia et al 2005), resultando em
melhorias na resolução da árvore da
vida e na superação de problemas antigos e comuns aos métodos tradicionais de análise filogenética, como por
exemplo, a escolha de marcadores
evolutivos apropriados, a saturação de
determinadas posições nos códons e
desvios nas análises provocados por
estes fatores (Delsuc et al 2005).
Outro exemplo importante refere-se ao
estudo da variabilidade metabólica e da
conservação de funções enzimáticas
nas diversas vias bioquímicas entre os
organismos. Comparações entre as vias
bioquímicas preditas a partir da análise
de
genomas
completamente
seqüenciados têm revelado a existência de vias incompletas ou mesmo ausentes em várias espécies analisadas
(Cordwell 1999; Galperin & Koonin 1999;
Huynen et al 1999; Morett et al 2003;
Peregrin-Alvarez et al 2003). Em algumas situações, isto poderia representar
o resultado de adaptações a diferentes
nichos ecológicos, como, por exemplo,
em bactérias estritamente simbiontes,
as quais codificam um número menor
de enzimas e vias metabólicas em comparação com seus parentes de vida livre, uma vez que o hospedeiro oferece
um ambiente constante e rico em
metabólitos (nutrientes e compostos
químicos intermediários) essenciais ao
desenvolvimento destes microrganismos
(Galperin & Koonin 1999; Huynen et al
1999; Ochman & Moran 2001; Moran
2002; Moya et al 2008). Em muitos casos, entretanto, as enzimas desaparecidas foram substituídas por proteínas
funcionalmente equivalentes, ou seja,
capazes de catalisar as mesmas reações,
mas exibindo virtualmente nenhuma
similaridade ao nível de suas seqüências primárias (de aminoácidos) e
tampouco ao nível de suas estruturas
terciárias (tridimensionais) (Galperin et
al 1998; Huynen et al 1999; Morett et al
2003). Estas formas alternativas, conhecidas como proteínas análogas (Fitch
1970, 2000) (Figura 3), originam-se a
partir de processos evolutivos independentes, convergindo para uma mesma
função biológica (neste caso para uma
mesma atividade enzimática), e podem
estar associadas a diferentes linhagens
filogenéticas e/ou possuir distintos mecanismos de catálise (Galperin et al
1998). Alguns trabalhos sugerem que a
fração de atividades enzimáticas nas
quais ocorreram múltiplos eventos de
origem independente pode ser substancial (Morett et al 2003), somando-se a
outras evidências, também oriundas de
análises comparativas de genomas, que
apontam a importância (muito maior do
que se supunha) do papel desempenhado pelo que se pode chamar de
homologia funcional na evolução dos
seres vivos; um bom exemplo é a indicação de que o número total de genes
homólogos compartilhados entre as espécies atualmente conhecidas (genes
Figura 3. Homologia versus analogia. O esquema representa os processos evolutivos que levam à formação de genes
homólogos (genes A1, A2, B1 e B2 nas espécies X1 e X2; genes C1 e C2 nas espécies Y1 e Y2) e análogos (B2 e C1),
através da evolução independente de dois genes hipotéticos pertencentes a duas linhagens distintas (adaptado de
Jensen 2001). Na linhagem X a evolução do gene ancestral hipotético ocorreu através de dois eventos seqüenciais,
resultando na formação de genes divergentes, porém relacionados a um ancestral evolutivo comum (homólogos):
primeiro através de uma duplicação gênica (descendência horizontal), gerando os genes homólogos A e B na própria
espécie ancestral X0; em seguida, através de um evento de especiação (descendência vertical), que deu origem às
espécies X1 e X2 e aos pares de genes homólogos A1 e A2 (descendentes do gene A) e B1 e B2 (descendentes do gene
B) nestas espécies. Na linhagem Y, o gene ancestral hipotético pertencente à espécie ancestral Y0 evoluiu através de um
único evento de especiação, que originou as espécies Y1 e Y2 e o par de genes homólogos C1 e C2 (descendentes
diretos do gene ancestral desta linhagem) nestas espécies. Os pares de genes homólogos A e B (na espécie ancestral
X0), assim como os pares A1 e B1 (na espécie X1) e A2 e B2 (na espécie X2) são denominados parálogos, uma vez que
o evento responsável pela origem de todos eles, a partir do gene ancestral comum mais próximo entre os mesmos, foi
uma duplicação gênica (Fitch 1970, 2000); já os pares de genes A1 e A2 (entre as espécies X1 e X2), A2 e B2 (também
entre as espécies X1 e X2) e C1 e C2 (entre as espécies Y1 e Y2) são denominados ortólogos, uma vez que estes pares
de genes homólogos foram originados, a partir de seus respectivos genes ancestrais comuns mais próximos, através de
um evento de especiação (Fitch 1970, 2000). Os genes B2 e C1, pertencentes às espécies X2 e Y1, respectivamente, são
denominados análogos, isto é, genes originados a partir de genes ancestrais não relacionados entre si (pertencentes a
linhagens distintas) que, entretanto, convergiram para uma mesma função biológica (Fitch 1970, 2000)
22
Biotecnologia Ciência & Desenvolvimento - nº 37
ubíquos) é inferior a 100, envolvendo
principalmente os genes responsáveis
pelos processos de tradução (na grande maioria), transcrição e replicação/
reparo do DNA (Koonin 2003). Este número incrivelmente pequeno de genes
presumidamente compartilhados entre
os diversos organismos sugere que inúmeras funções essenciais (e também
não-essenciais) - que obviamente variam de acordo com as condições nas
quais uma dada espécie ou população
tem de sobreviver (estilo de vida e nicho ecológico) - são desempenhadas
por genes que mantêm entre si relações
de parentesco distante (parálogos originados por duplicações ancestrais ou
que evoluíram muito rapidamente, muitas vezes divergindo ao ponto de não
poderem mais ser reconhecidos como
tais) ou que não dividem ancestralidade
alguma (análogos) (Koonin et al 1996),
ou ainda por genes taxonomicamente
restritos, isto é, exclusivos de uma espécie, família ou linhagem em particular (genes únicos).
De um ponto de vista aplicado,
tecnologias de alto desempenho
(genômica,
transcriptômica
e
proteômica) possibilitam que pesquisadores, através de análises e mineração
criteriosas de dados, aumentem não
somente nosso conhecimento sobre a
biologia dos seres vivos, mas também
sejam capazes de desenvolver novos
métodos de diagnóstico, vacinas mais
eficazes, novas drogas, novos
marcadores prognósticos e uma variedade de aplicações biotecnológicas. No
que se refere aos microrganismos
patogênicos, por exemplo, e às
micobactérias em especial, várias aplicações potenciais da análise comparativa de genomas têm sido reportadas,
visando sobretudo à prevenção (através do desenvolvimento de vacinas mais
eficazes), o tratamento (pelo desenvolvimento de novas drogas) e o diagnóstico (através da criação de métodos mais
rápidos, sensíveis e específicos) da tuberculose e outras doenças causadas
por micobactérias. Algumas dessas aplicações incluem: a identificação de
genes únicos de uma espécie em particular, a identificação de fatores de virulência e a reconstrução metabólica
(Gordon et al 2002); a caracterização de
patógenos, a identificação de novos
alvos para diagnóstico e para procedimentos terapêuticos (Fitzgerald & Musser
2001); a investigação sobre a origem
molecular da patogênese, do espectro
de hospedeiros e das diferenças
fenotípicas entre isolados clínicos e populações naturais de patógenos (Behr
et al 1999; Brosch et al 2001; Cole 2002;
Kato-Maeda et al 2001) e a investigação
dos fundamentos genéticos da virulên-
cia e da resistência a drogas de
micobactérias causadoras de tuberculose (Randhawa & Bishai 2002).
Como comparar?
A análise comparativa de genomas consiste na análise e comparação entre todo
ou grande parte do material genético
de diferentes espécies ou cepas. Por
tratar-se de uma abordagem holística,
em larga escala, exige métodos
computacionais para sua realização.
Apesar de ser uma abordagem relativamente recente, tendo início com o
seqüenciamento dos primeiros genomas
na década de 1990, suas ferramentas
mais importantes têm origem nas técnicas clássicas de análise computacional
de seqüências: (i) algoritmos de alinhamento global e local de pares ou de
múltiplas seqüências, (ii) métodos de
análise filogenética e (iii) as
implementações destes métodos e
algoritmos (Needleman & Wunsch 1970;
Smith & Waterman 1981; Felsenstein
1981, 1989; Lipman & Pearson 1985;
Pearson & Lipman 1988; Feng &
Doolittle 1987; Altschul et al 1990, 1997;
Thompson et al 1994). De fato, ela se
beneficia não somente de ferramentas
desenvolvidas no passado, mas também
da criação de novas ferramentas e do
aperfeiçoamento de ferramentas já existentes, ambos estimulados pela imensa, diversificada e complexa quantidade de dados produzida com os projetos de seqüenciamento em larga escala.
Sendo os genomas basicamente longas
seqüências de DNA, poder-se-ia analisálos alinhando-os como se fossem seqüências comuns, utilizando um dos
algoritmos de análise de seqüências citados anteriormente. No entanto, isto só
pode ser feito com genomas de espécies ou cepas muito próximas, uma vez
que mudanças na organização do
genoma (inserções, deleções, inversões,
rearranjos, trocas e duplicações) ocorrem com uma taxa muito elevada. Além
disto, por tratar-se de seqüências de tamanho
extremo,
torna-se
computacionalmente inviável a análise
de mais de um par de genomas de uma
só vez, mesmo com o uso de algoritmos
e programas eficazes, especialmente desenvolvidos para esta finalidade
(Morgenstern et al 1998, 1999, 2002;
Jareborg et al 1999; Delcher et al 1999,
2002; Kent & Zahler 2000; Batzoglou et
al 2000; Ma et al 2002; Bray et al 2003,
2004; Schwartz et al 2003; Brudno et al
2003a, 2003b; Kurtz et al 2004) (para uma
revisão abrangente sobre este assunto,
consulte Blanchette 2007). Portanto, na
maioria das vezes as análises compara-
tivas entre genomas são feitas em um
nível de abordagem mais modular, tomando-se as partes que compõem tais
seqüências, como por exemplo, o
conjunto completo de genes codificados pelas espécies em estudo.
Entre os métodos mais comumente
empregados nestas análises está a
busca por similaridades entre seqüências. A etapa crucial deste tipo de
análise é determinar se as seqüências comparadas são ou não
homólogas, ou seja, se descendem
ou não de uma seqüência ancestral
comum, estabelecendo-se equivalência entre as partes comparadas. O
resultado obtido permite, entre outras coisas, a predição de função, já
que é presumido que seqüências
homólogas tendem a ter funções similares e também determinar quais
os genes correspondentes (ortólogos)
entre pares ou grupos de genomas
analisados (Rigden & Mello 2002; Lee
et al 2007). Esta tarefa nada trivial é
feita comparando-se uma ou mais seqüências de entrada (query
sequences), com outras inúmeras seqüências depositadas em um banco
de dados (subject sequences), através
do alinhamento consecutivo de cada
seqüência de entrada com cada seqüência depositada no banco, com
a utilização de um algoritmo de alinhamento local (Smith & Waterman
1981; Pearson & Lipman 1988;
Altschul et al 1997). Para cada alinhamento, calcula-se o número de pontos obtidos (score), com base em uma
matriz de substituição (PAM ou
BLOSUM normalmente) e em valores
arbitrados de penalidade para a abertura e extensão de espaços nas seqüências alinhadas (gap opening/
extension penalties), e o número de
alinhamentos esperados ao acaso
com pontuação igual ou superior ao
do alinhamento em questão (Evalue), a partir da pontuação normalizada (bitscore) e do tamanho e composição do banco de dados. A
homologia é inferida com base nos
valores calculados dos diferentes
parâmetros do alinhamento, alguns
deles já mencionados: pontuação,
pontuação normalizada, número de
alinhamentos esperados ao acaso
com pontuação igual ou superior ao
do alinhamento em questão,
percentual de identidade, percentual
da extensão de cada seqüência no
par alinhado que contribui para o alinhamento, diferença de tamanho entre as seqüências alinhadas etc. A
existência de domínios - módulos
que constituem unidades distintas do
ponto de vista evolutivo, funcional e
Biotecnologia Ciência & Desenvolvimento - nº 37
23
estrutural - em proteínas é um fator
complicador nestas análises, que deve
ser tratado com atenção.
mo de tais recursos computacionais.
Atualmente, inúmeros bancos de dados
e ferramentas computacionais para análise
comparativa
de
genomas
procarióticos estão disponíveis através
da internet como serviços on-line e/ou
programas independentes para uso local, abrangendo uma variedade de propósitos e funcionalidades (Catanho et
al 2007). A Tabela 1 apresenta um resu-
Análises comparativas de genomas podem envolver diferentes tipos de abordagem, oferecendo múltiplas perspectivas acerca dos organismos estudados
(revisto por Wei et al 2002). Entre as análises capazes de contribuir significativamente para a compreensão de problemas biológicos, ressaltando similaridades e diferenças importantes entre os
O que comparar?
genomas e organismos comparados, destacam-se: (i) comparações envolvendo a
estrutura genômica global, (ii) comparações entre regiões codificantes
identificadas em diversos genomas e (iii)
comparações envolvendo regiões não
codificantes de diferentes genomas (Figura 4).
Comparações envolvendo a
estrutura genômica global
Pesquisas envolvendo a organização
Tabela 1. Bancos de dados e ferramentas computacionais para análise comparativa de genomas procarióticos
Fonte: Catanho et al 2007.
24
Biotecnologia Ciência & Desenvolvimento - nº 37
(tais como genes, operons, grupos
[clusters] gênicos, elementos de inserção, repetições etc.), determinando, por
exemplo, a distribuição assimétrica dos
genes entre as fitas de DNA (chamadas
leading e lagging) e em relação aos
pontos de origem e término da
replicação, a diferença de composição
de bases entre as fitas leading e lagging
e a formação de gradientes ao longo
da cadeia de DNA, representados por
desvios na composição de bases e nas
taxas mutacionais nas proximidades do
ponto de término da replicação (revisto por Rocha 2004a).
Comparações entre
regiões codificantes
Figura 4. Análise comparativa de genomas. O esquema representa genericamente os três níveis de abordagem da genômica comparativa de procariotos (e também de eucariotos) e algumas análises comumente realizadas. Uma vez que seqüências genômicas completas são obtidas através
do seqüenciamento em larga escala dos genomas de diferentes espécies,
análises comparativas envolvendo (i) a estrutura genômica, (ii) as regiões
codificantes e (iii) as regiões não codificantes entre estes genomas podem
ser realizadas, oferecendo múltiplas perspectivas acerca dos organismos
estudados. Neste painel, segmentos genômicos sintênicos entre os genomas hipotéticos A, B e C são representados por barras horizontais de
cores idênticas (Estrutura genômica). De maneira similar, regiões codificantes ortólogas (entre diferentes genomas) e parálogas (dentro de um
mesmo genoma) são representadas por círculos de cores idênticas (Regiões codificantes). A presença de elementos regulatórios ou de pseudogenes, dentro de regiões não codificantes, conservados entre os genomas
hipotéticos A, B e C são representadas por círculos pontilhados (Regiões
não codificantes)
cromossômica de procariotos receberam pouca atenção no passado em relação a estudos similares em eucariotos.
Este quadro vem se modificando, graças aos resultados obtidos com o
seqüenciamento em larga escala dos
genomas de inúmeros representantes
destes seres vivos (Rocha 2004a). Comparações envolvendo a estrutura global
de genomas procarióticos completamente seqüenciados possibilitam a obtenção de informações sobre a organização e evolução destes genomas e também a identificação de características
únicas nos mesmos, permitindo revelar
e compreender as forças atuantes nestes processos, muitas vezes relacionadas a atividades celulares fundamentais como a expressão gênica coordenada, a replicação cromossômica e a
divisão celular (Rocha 2004b). Estas pesquisas incluem tipicamente (i) a descri-
ção de características estruturais do
DNA (como por exemplo, tamanho do
genoma,
conteúdo
GC
[guanina+citosina] global, variações do
conteúdo GC ao longo do genoma, freqüências de mono- e oligonucleotídeos, desvios na utilização de
códons e de aminoácidos, entre outros)
(ii) a análise do conteúdo e distribuição de repetições e outras regiões de
baixa complexidade, (iii) a identificação de regiões sintênicas conservadas e de eventos de rearranjo genômico
e (iv) a análise de regiões limítrofes entre
regiões sintênicas vizinhas (breakpoints).
Através de análises como estas foi possível, por exemplo, demonstrar que o
processo de replicação cromossômica
é um dos principais responsáveis pela
organização e pela inter-relação entre
muitos dos elementos que constituem
a organização genômica em procariotos
Outra abordagem comumente empregada para comparar os genomas de diferentes organismos procarióticos considera estes seres (de forma alegórica)
como sendo sacos de genes, orientando
as análises somente para o conteúdo
codificante de seus genomas: genes e
seus produtos (proteínas especificamente). As possibilidades oferecidas por
este tipo de abordagem são inúmeras,
incluindo a aquisição de informações
sobre a organização e evolução destes
genomas, a identificação de características únicas nos mesmos, aplicação direta em processos de reconstrução metabólica e em processos de predição e
classificação funcional de genes
(Galperin & Koonin 2000; Stein 2001;
Gabaldon & Huynen 2004; Francke et
al 2005; Lee et al 2007; Abby & Daubin
2007; Skrabanek et al 2008). Tais estudos abrangem normalmente (i) a identificação de regiões codificantes, (ii) a
comparação dos conteúdos gênico e
protéico, (iii) a identificação/análise da
conservação de famílias de genes
ortólogos e parálogos entre os genomas
comparados, (iv) a análise da conservação de grupos gênicos e da conservação da ordem (localização) dos genes
entre as diferentes espécies estudadas,
(v) a identificação/análise de eventos
de fusão/fissão gênica e da ocorrência de ligação funcional entre genes nas
espécies analisadas. Recentemente, análises deste tipo levaram a uma das mais
importantes descobertas da era
genômica. Através de comparações entre o repertório de genes codificados
pelos genomas de múltiplos isolados
patogênicos de bactérias da espécie
Streptococcus agalactiae (principal causa
de infecção neonatal em humanos),
Tettelin e colaboradores (2005) demonstraram que esta espécie pode ser descrita por um pan-genoma, constituído
por um conjunto de genes compartilhados por todos os isolados (genoma
central) e por um segundo conjunto de
Biotecnologia Ciência & Desenvolvimento - nº 37
25
genes formado por genes parcialmente
compartilhados e genes cepa-específicos (genoma dispensável), ou seja, constituído pela soma dos genes que representam a essência (centrais) e a diversidade (dispensáveis) desta espécie. Resultados similares foram obtidos analisando-se isolados provenientes de outras espécies (Streptococcus pyogenes,
Bacillus anthracis, Escherichia coli e
Haloquadratum walsbyi) e modelos
matemáticos baseados nos dados obtidos para os diferentes grupos analisados mostraram que, enquanto para algumas espécies (Bacillus anthracis) o
pan-genoma pode ser completamente
descrito com o seqüenciamento dos
genomas de apenas alguns poucos representantes, em outras espécies
(Streptococcus pyogenes, Escherichia coli
e Haloquadratum walsbyi), genes novos continuarão a emergir mesmo após
o seqüenciamento dos genomas de centenas ou milhares de cepas, sugerindo
que o pool de genes disponíveis no universo microbiano é muito maior do que
se imaginava (Tettelin et al 2005; Medini
et al 2005; Chen et al 2006; Legault et al
2006). Embora o significado do pangenoma ainda não seja bem compreendido (uma possibilidade seria a de
que ele estaria envolvido na adaptação
a diferentes nichos ecológicos), estes
estudos demonstram claramente a necessidade de se analisar genomas de
múltiplos isolados, e não apenas um ou
dois representantes de cada espécie,
para que se tenha uma compreensão
global da complexidade das espécies
bacterianas.
Comparações envolvendo
regiões não codificantes
O processo de regulação transcricional
é um importante mecanismo de adaptação em procariotos, no qual proteínas regulatórias e sinais regulatórios
localizados nas regiões extra-gênicas
são elementos-chaves envolvidos. Neste sentido, comparações entre regiões
não codificantes de genomas de diferentes espécies procarióticas têm auxiliado grandemente a identificação e caracterização de segmentos genômicos
com papéis regulatórios (Pareja et al
2006), contribuindo para a elucidação
dos circuitos genéticos de regulação
transcricional nestes organismos. Estas
abordagens baseiam-se na suposição de
que regiões funcionalmente importantes encontram-se sob pressão seletiva
e, portanto, tendem a evoluir com uma
taxa menor do que regiões sem nenhum
papel funcional (Wei et al 2002).
Por outro lado, comparações entre proteínas já caracterizadas e regiões não
26
codificantes em inúmeras espécies de
procariotos têm sido usadas na identificação e caracterização de cópias obsoletas de genes ou, em outras palavras, fósseis moleculares chamados
pseudogenes (Liu et al 2004; Lerat &
Ochman 2005). Tais seqüências podem
ser reconhecidas por apresentarem rupturas em seus marcos de leitura
provocadas por mudanças de fase e por
códons de parada prematuros (Lerat &
Ochman 2005). Por possuírem um
genoma muito compacto, rico em genes
e contendo muito pouco DNA não
codificante, acreditava-se que a formação de pseudogenes em microrganismos procarióticos era mínima (com algumas raras exceções bem conhecidas).
Entretanto, atualmente, pseudogenes são
reconhecidos como um atributo normal
de genomas procarióticos, encontrados
em virtualmente todos os genomas
procarióticos já analisados, particularmente em bactérias patogênicas que
surgiram recentemente, nas quais a presença destes fósseis moleculares ocorre em grande número (Lerat & Ochman
2005; Ochman & Davalos 2006). Estudos envolvendo a identificação e a caracterização da origem e função primitiva de genes extintos são muito importantes para a compreensão da evolução do proteoma e da natureza e dinâmica dos genomas procarióticos
(Ochman & Davalos 2006).
Conclusões e perspectivas
para o futuro
A análise comparativa de genomas possui variadas aplicações em diferentes
campos do conhecimento, desde a análise da estrutura, organização e evolução dos genomas até o desenvolvimento
de métodos mais eficientes de prevenção, tratamento e diagnóstico de doenças parasitárias, por exemplo. Além disso, por envolver análises em larga escala, exigindo, portanto, métodos
computacionais para sua realização, os
desafios impostos pela necessidade de
se comparar grandes, diversificados e
complexos volumes de dados, oriundos dos inúmeros projetos genoma, têm
estimulado o desenvolvimento de novos métodos, algoritmos e ferramentas
computacionais e também o aprimoramento de técnicas já existentes.
Sem dúvida, a análise comparativa de
genomas constitui um campo fértil para
pesquisas envolvendo diversos aspectos da biologia dos organismos
procarióticos (e também eucarióticos),
como a genética, a bioquímica, a evolução e, ainda, os mecanismos
moleculares da patogênese, do espectro de hospedeiros e das diferenças
Biotecnologia Ciência & Desenvolvimento - nº 37
fenotípicas entre alguns de seus representantes. Neste sentido, diferentes abordagens
têm sido desenvolvidas e empregadas na
comparação de seqüências genômicas, oferecendo assim múltiplas perspectivas acerca dos organismos estudados.
Com o constante aprimoramento dos métodos de seqüenciamento em larga escala
ocorrido nos últimos anos, aumentando
substancialmente a rapidez e a eficiência
com que genomas inteiros são seqüenciados
(Shendure et al 2008), e a recente possibilidade de se obter seqüências genômicas
(completas ou parciais) de comunidades inteiras de microrganismos diretamente de
amostras ambientais (metagenômica), novas e importantes descobertas científicas e
avanços tecnológicos podem ser antecipados para o futuro.
Referências bibliográficas
Abby S, Daubin V. Comparative genomics
and the evolution of prokaryotes. Trends
Microbiol 2007 March;15(3):135-141.
Altschul SF, Gish W, Miller W, Myers EW,
Lipman DJ. Basic local alignment search
tool. J Mol Biol 1990 Oct 5;215(3):403-10.
Altschul SF, Madden TL, Schaffer AA, Zhang
J, Zhang Z, Miller W, et al. Gapped BLAST
and PSI-BLAST: a new generation of protein
database search programs. Nucleic Acids Res
1997 Sep 1;25(17):3389-402.
Batzoglou S, Pachter L, Mesirov JP, Berger
B, Lander ES. Human and mouse gene
structure: comparative analysis and
application to exon prediction. Genome Res
2000 Jul;10(7):950-8.
Behr MA, Wilson MA, Gill WP, Salamon H,
Schoolnik GK, Rane S, et al. Comparative
genomics of BCG vaccines by wholegenome DNA microarray. Science 1999 May
28;284(5419):1520-3.
Binneck E. As ômicas: integrando a
bioinformação - O papel da bioinformática
em expansão. Biotecnol Ciênc Des 2004 Janeiro/Junho;32:28-37.
Binnewies TT, Motro Y, Hallin PF, Lund O,
Dunn D, La T, Hampson DJ, Bellgard M,
Wassenaar TM, Ussery DW. Ten years of
bacterial genome sequencing: comparativegenomics-based discoveries. Funct Integr
Genomics 2006 July;6(3):165-185.
Blanchette M. Computation and Analysis of
Genomic Multi-Sequence Alignments.
Annual Review of Genomics and Human
Genetics 2007 September 24;8(1):193-213.
Bray N, Dubchak I, Pachter L. AVID: A global alignment program. Genome Res 2003
Jan;13(1):97-102.
Bray N, Pachter L. MAVID: constrained ancestral alignment of multiple sequences.
Genome Res 2004 Apr;14(4):693-9.
Brosch R, Pym AS, Gordon SV, Cole ST. The
evolution
of
mycobacterial
pathogenicity: clues from comparative
genomics. Trends Microbiol 2001
Sep;9(9):452-8.
Brudno M, Chapman M, Gottgens B,
Batzoglou S, Morgenstern B. Fast and
sensitive multiple alignment of large
genomic
sequences.
BMC
Bioinformatics 2003a Dec 23;4(1):66.
Brudno M, Do CB, Cooper GM, Kim MF,
Davydov E, Green ED, et al. LAGAN and
Multi-LAGAN: efficient tools for largescale multiple alignment of genomic
DNA. Genome Res 2003b Apr;13(4):72131.
Carraro
DM,
kitajima
JP.
Seqüenciamento e bioinformática de
genomas bacterianos. Biotecnol Ciênc
Des 2002 Setembro/Outubro;28:16-20.
Catanho M, Miranda AB, Degrave W.
Comparing genomes: databases and
computational tools for comparative
analysis of prokaryotic genomes. RECIIS:
R. Eletr. De Com. Inf. Inov. Saúde Suppl
2007 Jul-Dec;1(2):Sup334-Sup355.
Chen SL, Hung CS, Xu J, Reigstad CS,
Magrini V, Sabo A, Blasiar D, Bieri T,
Meyer RR, Ozersky P, Armstrong JR,
Fulton RS, Latreille JP, Spieth J, Hooton
TM, Mardis ER, Hultgren SJ, Gordon JI.
Identification of genes subject to positive
selection in uropathogenic strains of
Escherichia coli: A comparative
genomics approach. Proceedings of the
National Academy of Sciences 2006 April
11;103(15):5977-5982.
Ciero L, Bellato CM. Proteoma: Avanços Recentes em Técnicas de
Eletroforese
Bidimensional
e
Espectrometria de Massa. Biotecnol
Ciênc Des 2002 Novembro/Dezembro;29:158-164.
Clark MS. Comparative genomics: the
key to understanding the Human
Genome Project. Bioessays 1999
February;21(2):121-130.
Coenye T, Gevers D, Van de PY,
Vandamme P, Swings J. Towards a
prokaryotic genomic taxonomy. FEMS
Microbiol Rev 2005 April;29(2):147-167.
Cole ST. Comparative mycobacterial
genomics as a tool for drug target and
antigen discovery. Eur Respir J Suppl
2002 Jul;36:78s-86s.
Cordwell SJ. Microbial genomes and
“missing”
enzymes:
redefining
biochemical pathways. Arch Microbiol
1999 November;172(5):269-279.
Delcher AL, Kasif S, Fleischmann RD,
Peterson J, White O, Salzberg SL.
Alignment of whole genomes. Nucleic
Acids Res 1999 Jun 1;27(11):2369-76.
Delcher AL, Phillippy A, Carlton J,
Salzberg SL. Fast algorithms for largescale
genome
alignment
and
comparison. Nucleic Acids Res 2002 Jun Gordon SV, Brosch R, Eiglmeier K,
1;30(11):2478-83.
Garnier T, Hewinson RG, Cole ST. Royal
Delsuc F, Brinkmann H, Philippe H. Society of Tropical Medicine and
Phylogenomics and the reconstruction of Hygiene Meeting at Manson House,
the tree of life. Nat Rev Genet 2005 London, 18th January 2001. Pathogen
genomes
and
human
health.
May;6(5):361-375.
Mycobacterial genomics. Trans R Soc
Dutilh BE, van N, V, van der Heijden RT,
Trop Méd Hyg 2002 Jan;96(1):1-6.
Boekhout T, Snel B, Huynen MA.
Assessment of phylogenomic and Henz SR, Huson DH, Auch AF, Nieseltorthology approaches for phylogenetic Struwe K, Schuster SC. Whole-genome
inference. Bioinformatics 2007 April prokaryotic phylogeny. Bioinformatics
2005 May 15;21(10):2329-35.
1;23(7):815-824.
Felsenstein J. Evolutionary trees from DNA HGP. HUMAN GENOME PROGRAM
sequences: a maximum likelihood (USA). U.S. Department of Energy.
approach. J Mol Evol 1981;17(6):368-76. Genomics and Its Impact on Medicine
and Society: A 2001 Primer; 2001.
Felsenstein J. PHYLIP — Phylogeny
Inference Package (Version 3.2). Cladistics Huynen MA, Dandekar T, Bork P.
Variation and evolution of the citric-acid
1989; 5: 164-6.
cycle: a genomic perspective. Trends
Feng DF, Doolittle RF. Progressive
Microbiol 1999 July;7(7):281-291.
sequence alignment as a prerequisite to
correct phylogenetic trees. J Mol Evol Huynen MA, Gabaldon T, Snel B.
Variation and evolution of biomolecular
1987;25(4):351-60.
systems: Searching for functional
Fitch WM. Distinguishing homologous
relevance. FEBS Lett 2005 March
from analogous proteins. Syst Zool. 1970,
21;579(8):1839-1845.
19(2):99-113.
Jareborg N, Birney E, Durbin R.
Fitch WM. Homology a personal view on
Comparative analysis of noncoding
some of the problems. Trends Genet 2000
regions of 77 orthologous mouse and
May;16(5):227-31.
human gene pairs. Genome Res 1999
Fitzgerald JR, Musser JM. Evolutionary Sep;9(9):815-24.
genomics of pathogenic bacteria. Trends
Jensen RA. Orthologs and paralogs - we
Microbiol 2001 Nov;9(11):547-53.
need to get it right. Genome Biol
Francke C, Siezen RJ, Teusink B. 2001;2(8):INTERACTIONS1002.
Reconstructing the metabolic network of
Karp PD, Krummenacker M, Paley S,
a bacterium from its genome. Trends
Wagg J. Integrated pathway-genome
Microbiol 2005 November;13(11):550-558.
databases and their role in drug
Fraser CM, Eisen J, Fleischmann RD, discovery. Trends Biotechnol 1999
Ketchum KA, Peterson S. Comparative July;17(7):275-281.
genomics and understanding of microbial
Kato-Maeda M, Rhee JT, Gingeras TR,
biology. Emerg Infect Dis 2000
Salamon H, Drenkow J, Smittipat N, et
Sep;6(5):505-12.
al. Comparing genomes within the
Gabaldon T, Huynen MA. Prediction of species Mycobacterium tuberculosis.
protein function and pathways in the Genome Res 2001 Apr;11(4):547-54.
genome era. Cell Mol Life Sci 2004
Kent WJ, Zahler AM. Conservation,
April;61(7-8):930-944.
regulation, synteny, and introns in a
Galperin MY, Koonin EV. Functional large-scale C. briggsae-C. elegans
genomics and enzyme evolution. genomic alignment. Genome Res 2000
Homologous and analogous enzymes Aug;10(8):1115-25.
encoded in microbial genomes. Genetica.
Kondrashov AS. Comparative genomics
1999;106(1-2):159-70.
and evolutionary biology. Curr Opin
Galperin MY, Koonin EV. Who’s your Genet Dev 1999 Dec;9(6):624-9.
neighbor? New computational approaches
Koonin EV, Aravind L, Kondrashov AS.
for functional genomics. Nat Biotechnol
The impact of comparative genomics on
2000 June;18(6):609-613.
our understanding of evolution. Cell
Galperin MY, Walker DR, Koonin EV. 2000 Jun 9;101(6):573-6.
Analogous enzymes: independent
Koonin EV, Mushegian AR, Bork P. Noninventions in enzyme evolution. Genome
orthologous gene displacement. Trends
Res. 1998, 8(8):779-90.
Genet 1996 September;12(9):334-336.
Ginalski K. Comparative modeling for
Koonin EV. Comparative genomics,
protein structure prediction. Curr Opin
minimal gene-sets and the last univerStruct Biol 2006 April;16(2):172-177.
sal common ancestor. Nat Rev Microbiol
GOLD. Genomes Online Database. Dis- 2003 November;1(2):127-136.
ponível
em:
<http://
Kunin V, Ahren D, Goldovsky L, Janssen
www.genomesonline.org/> Acesso em: 26
P, Ouzounis CA. Measuring genome
mar. 2008.
Biotecnologia Ciência & Desenvolvimento - nº 37
27
conservation across taxa: divided strains
and united kingdoms. Nucleic Acids Res
2005a;33(2):616-21.
Kunin V, Goldovsky L, Darzentas N,
Ouzounis CA. The net of life:
reconstructing
the
microbial
phylogenetic network. Genome Res
2005b Jul;15(7):954-9.
Kurtz S, Phillippy A, Delcher AL, Smoot
M, Shumway M, Antonescu C, et al.
Versatile and open software for
comparing large genomes. Genome Biol
2004;5(2):R12.
Lee D, Redfern O, Orengo C. Predicting
protein function from sequence and
structure. Nat Rev Mol Cell Biol 2007
December;8(12):995-1005.
Legault B, Lopez-Lopez A, ba-Casado
J, Doolittle WF, Bolhuis H, RodriguezValera F, Papke RT. Environmental
genomics of “Haloquadratum walsbyi”
in a saltern crystallizer indicates a large
pool of accessory genes in an otherwise
coherent species. BMC Genomics
2006;7(1):171.
Lerat E, Ochman H. Recognizing the
pseudogenes in bacterial genomes.
Nucleic Acids Res 2005;33(10):3125-3132.
Lipman DJ, Pearson WR. Rapid and
sensitive protein similarity searches.
Science 1985 Mar 22;227(4693):1435-41.
Liu Y, Harrison PM, Kunin V, Gerstein
M. Comprehensive analysis of
pseudogenes
in
prokaryotes:
widespread gene decay and failure of
putative horizontally transferred genes.
Genome Biol 2004;5(9):R64.
Ma B, Tromp J, Li M. PatternHunter:
faster and more sensitive homology
search.
Bioinformatics
2002
Mar;18(3):440-5.
Medini D, Donati C, Tettelin H,
Masignani V, Rappuoli R. The microbial
pan-genome. Current Opinion in
Genetics & Development
2005
December;15(6):589-594.
Moran NA. Microbial minimalism:
genome reduction in bacterial
pathogens. Cell 2002 March 8;108(5):583586.
Morett E, Korbel JO, Rajan E, SaabRincon G, Olvera L, Olvera M, Schmidt
S, Snel B, Bork P. Systematic discovery
of analogous enzymes in thiamin
biosynthesis. Nat Biotechnol. 2003,
21(7):790-5.
Morgenstern B, Frech K, Dress A, Werner
T. DIALIGN: finding local similarities by
multiple
sequence
alignment.
Bioinformatics 1998;14(3):290-4.
Morgenstern B, Rinner O, Abdeddaim
S, Haase D, Mayer KF, Dress AW, et al.
Exon discovery by genomic sequence
alignment.
Bioinformatics
2002
Jun;18(6):777-87.
28
Morgenstern
B.
DIALIGN
2:
improvement of the segment-to-segment
approach to multiple sequence
alignment.
Bioinformatics
1999
Mar;15(3):211-8.
Moya A, Pereto J, Gil R, Latorre A.
Learning how to live together: genomic
insights into prokaryote-animal
symbioses. Nat Rev Genet 2008
March;9(3):218-229.
Needleman SB, Wunsch CD. A general
method applicable to the search for
similarities in the amino acid sequence
of two proteins. J Mol Biol 1970
Mar;48(3):443-53.
Ochman H, Davalos LM. The nature and
dynamics of bacterial genomes. Science
2006 March 24;311(5768):1730-1733.
Ochman H, Moran NA. Genes lost and
genes found: evolution of bacterial
pathogenesis and symbiosis. Science
2001 May 11;292(5519):1096-1099.
Rocha EP. Order and disorder in bacterial
genomes. Curr Opin Microbiol 2004b
October;7(5):519-527.
Rocha EP. The replication-related
organization of bacterial genomes.
Microbiology 2004a June;150(Pt 6):16091627.
Schwartz S, Kent WJ, Smit A, Zhang Z,
Baertsch R, Hardison RC, et al. Humanmouse alignments with BLASTZ. Genome
Res 2003 Jan;13(1):103-7.
Shendure JA, Porreca GJ, Church GM.
Overview of DNA sequencing strategies.
Curr Protoc Mol Biol 2008 January;Chapter
7:Unit.
Skrabanek L, Saini HK, Bader GD, Enright
AJ. Computational prediction of proteinprotein interactions. Mol Biotechnol 2008
January;38(1):1-17
Smith TF, Waterman MS. Comparison of
Biosequences. Adv. Appl. Math. 1981; 2:
482-9.
Otu HH, Sayood K. A new sequence
distance measure for phylogenetic tree
construction. Bioinformatics 2003 Nov
1;19(16):2122-30.
Souza MV, Fontes W, Ricart CAO. Análise
de Proteomas: O despertar da era pósgenômica. Biotecnol Ciênc Des 1999 Janeiro/Fevereiro;7:12-14.
Pareja E, Pareja-Tobes P, Manrique M,
Pareja-Tobes E, Bonal J, Tobes R.
ExtraTrain: a database of Extragenic
regions and Transcriptional information
in prokaryotic organisms. BMC
Microbiol 2006;6:29.
Stein L. Genome annotation: from
sequence to biology. Nat Rev Genet 2001
July;2(7):493-503.
Passos GAS, Nguyen C, Jordan B. Projeto Transcriptoma: Análise da Expressão Gênica em Larga Escala Usando
DNA - Arrays. Biotecnol Ciênc Des 2000
Janeiro/Fevereiro;12:34-37.
Patterson SD, Aebersold RH. Proteomics:
the first decade and beyond. Nat Genet
2003 March;33 Suppl:311-323.
Pearson WR, Lipman DJ. Improved tools
for biological sequence comparison.
Proc Natl Acad Sci U S A 1988
Apr;85(8):2444-8.
Peregrin-Alvarez JM, Tsoka S, Ouzounis
CA. The phylogenetic extent of
metabolic enzymes and pathways.
Genome Res 2003 March;13(3):422-427.
Prosdocimi F, Cerqueira GC, Binneck E,
Silva AF, Reis AN, Junqueira ACM, et al.
Bioinformática: Manual do Usuário - Um
guia básico e amplo sobre os diversos
aspectos dessa nova. Biotecnol Ciênc
Des 2002 Novembro/Dezembro;29:1225.
Randhawa GS, Bishai WR. Beneficial
impact of genome projects on
tuberculosis control. Infect Dis Clin
North Am 2002 Mar;16(1):145-61.
Rigden DJ, Mello LV. Anotação funcional computacional de proteínas: Novos
métodos computacionais poderão preencher lacunas do sistema de anotação
atual. Biotecnol Ciênc Des 2002 Março/
Abril;25:64-70.
Biotecnologia Ciência & Desenvolvimento - nº 37
Strohman RC. The coming Kuhnian
revolution in biology. Nat Biotechnol 1997
Mar;15(3):194-200.
Tekaia F, Yeramian E. Genome trees from
conservation profiles. PLoS Comput Biol
2005 Dec;1(7):e75.
Tettelin H, Masignani V, Cieslewicz MJ,
Donati C, Medini D, Ward NL, Angiuoli SV,
Crabtree J, Jones AL, Durkin AS, DeBoy
RT, Davidsen TM, Mora M, Scarselli M, Ros
I, Peterson JD, Hauser CR, Sundaram JP,
Nelson WC, Madupu R, Brinkac LM,
Dodson RJ, Rosovitz MJ, Sullivan SA,
Daugherty SC, Haft DH, Selengut J, Gwinn
ML, Zhou L, Zafar N, Khouri H, Radune D,
Dimitrov G, Watkins K, O’Connor KJB,
Smith S, Utterback TR, White O, Rubens
CE, Grandi G, Madoff LC, Kasper DL,
Telford JL, Wessels MR, Rappuoli R, Fraser
CM. Genome analysis of multiple
pathogenic isolates of Streptococcus
agalactiae: Implications for the microbial
“pan-genome”. Proceedings of the National
Academy of Sciences 2005 September
27;102(39):13950-13955.
Thompson JD, Higgins DG, Gibson TJ.
CLUSTAL W: improving the sensitivity of
progressive multiple sequence alignment
through sequence weighting, positionspecific gap penalties and weight matrix
choice. Nucleic Acids Res 1994 Nov
11;22(22):4673-80.
Wei L, Liu Y, Dubchak I, Shon J, Park J.
Comparative genomics approaches to study
organism similarities and differences. J
Biomed Inform 2002 Apr;35(2):142-50.
GLOSSÁRIO
Algoritmo. Procedimento organizado (passos e instruções) para executar um determinado tipo de cálculo ou solucionar um determinado tipo de problema.
Alinhamento de seqüências. Processo de alinhar (colocar lado a lado) duas ou mais seqüências do mesmo
tipo (nucleotídicas ou protéicas) de forma a obter o
máximo de identidade entre elas com o propósito de
determinar o grau de similaridade.
Alinhamento global. Alinhamento de pares de seqüências nucleotídicas ou protéicas ao longo de toda
a extensão das mesmas.
Alinhamento local. Alinhamento de uma ou mais
partes de duas seqüências nucleotídicas ou protéicas.
Análise filogenética. Análise filogenética ou filogenia consiste no estudo das relações evolutivas (ou
seja, na reconstrução da história evolutiva) entre grupos de organismos ou outras entidades que se acredita
possuírem um ancestral comum, como por exemplo,
espécies, populações e genes.
Analogia. Relação entre dois caracteres quaisquer que
descendem, por convergência, de caracteres ancestrais não relacionados entre si (Fitch 1970, 2000).
Bioinformática e Biologia Computacional. Em 17 de
julho de 2000, o National Institutes of Health (NIH),
uma das agências do departamento de saúde norteamericano com reconhecimento internacional na área
de pesquisa biomédica, divulgou sua definição de
trabalho para Bioinformática e para Biologia Computacional, elaborada pelo Biomedical Information Science and Technology Initiative Consortium (BISTIC)
Definition Committee. De acordo com este documento
“A bioinformática e a biologia computacional têm
suas raízes nas ciências da vida bem como nas
ciências da computação e informação e na tecnologia. Ambas estas abordagens interdisciplinares
se beneficiam de disciplinas específicas, tais como
a matemática, a física, as ciências da computação e a engenharia, a biologia e as ciências do
comportamento. Cada uma delas mantém interações muito estreitas com as ciências da vida para
concretizar todo o seu potencial. A bioinformática
aplica princípios das ciências da informação e da
tecnologia para tornar os vastos, diversificados e
complexos dados produzidos pelas ciências da vida
mais compreensíveis e úteis. A biologia computacional usa abordagens matemáticas e computacionais para resolver questões teóricas e experimentais na biologia. Embora a bioinformática e a biologia computacional sejam distintas, há significativa sobreposição e atividade em suas interfaces.
(...) Bioinformática: pesquisa, desenvolvimento ou
aplicação de ferramentas e abordagens computacionais para ampliar o uso de dados de origem
biológica, médica, comportamental ou de saúde,
incluindo adquirir, armazenar, organizar, arquivar, analisar ou visualizar tais dados. Biologia
Computacional: desenvolvimento e aplicação de
métodos analíticos e teóricos de dados e técnicas
de modelagem matemática e simulação computacional para o estudo de sistemas biológicos, comportamentais e sociais.” (BISTIC Definition Committee, 2000). [Tradução livre do autor].
DNA. Sigla em inglês para deoxyribonucleic acid, ou
ácido desoxirribonucléico. Ácido nucléico constituído por desoxirribose, fosfato e pelas bases nitrogenadas adenina, guanina, citosina e timina. Contém as
instruções genéticas usadas no desenvolvimento e funcionamento de todos os seres vivos.
Fatores epigenéticos. Fatores (não genéticos) responsáveis pelo controle temporal e espacial da atividade
de todos os genes necessários para o desenvolvimento
de um organismo complexo desde o zigoto até a fase
adulta (citado por Strohman 1997).
Fusão/Fissão gênica. Foi observado que determinados pares de proteínas funcionalmente relacionadas
entre si, presentes em certos organismos, têm homólogos em outros organismos fundidos em uma única
cadeia protéica (Marcotte et al 1999; Enright et al 1999).
O processo de formação destas proteínas é chamado
de fusão gênica (quando há a adição de genes ou
seqüências funcionais em uma cadeia de DNA) ou
fissão gênica (quando há a perda de genes ou seqüências funcionais em uma cadeia de DNA). Eventos de
fusão/fissão gênica são fenômenos naturais reconhecidos como uma das principais forças evolutivas na criação de proteínas de múltiplos domínios.
Genes. Genes são as unidades hereditárias em
todos os organismos vivos, formando componentes essenciais do genoma (o conjunto completo de informação genética) destes organismos,
sendo responsáveis pelo desenvolvimento físico, pelo metabolismo e também, até certo ponto, seu comportamento. Alguns genes produzem
moléculas de RNA enquanto outros desempenham importantes papéis regulatórios ou estruturais. A maioria dos genes codifica proteínas,
grandes moléculas compostas de longas cadeias
de aminoácidos, que respondem pela maioria
das reações químicas desempenhadas pela célula.
Genoma. Termo criado, em 1920, por Hans Winkler, professor de Botânica na Universidade de
Hamburgo. Designa toda a informação hereditária de um organismo que está codificada no seu
DNA (ou, em alguns vírus, no RNA). Isto inclui
tanto os genes como as seqüências não codificadoras (conhecidas como DNA-lixo).
Genômica. Análise (em larga escala) do genoma
completo de um organismo.
Homologia. Relação entre dois caracteres (traços genéticos, estruturais ou funcionais de um
organismo) quaisquer que descendem de um caractere ancestral comum, normalmente com divergência (Fitch 1970, 2000).
Matriz de substituição. Matriz que representa
todas as possíveis trocas entre aminoácidos, nas
quais um valor é atribuído a cada uma destas
trocas. Estes valores são proporcionais à probabilidade de ocorrência de cada troca, tomandose como base um determinado modelo evolutivo. PAM – Percent Accepted Mutation (Dayhoff
et al 1978). BLOSUM - BLOcks SUbstitution Matrix (Henikoff & Henikoff 1992).
Metagenômica. Também conhecida como genômica ambiental, ecogenômica, ou ainda genômica de comunidades, consiste na análise do
material genético obtido diretamente de amostras ambientais, permitindo o estudo de organismos que não podem ser facilmente cultivados
em laboratório, bem como o estudo de organismos em seus ambientes naturais (Metagenomics
2008).
Micobactérias. O gênero Mycobacterium (familia Mycobacteriaceae, ordem Actinomycetales),
um dos mais antigos e bem conhecidos gêneros
de bactéria, foi introduzido por Lehmann e Neumann em 1896, para incluir os agentes causadores da hanseníase e da tuberculose, bactérias que
haviam sido anteriormente classificadas como
Bacterium leprae e Bacterium tuberculosis, respectivamente (Goodfellow & Minnikin, 1984).
Os organismos pertencentes a este gênero são
aeróbios, imóveis e não formam endósporos ou
esporos; têm forma de bastonetes delgados, retos
ou ligeiramente encurvados, com raras formas
ramificadas. Seu DNA é rico em guanina (G) e
citosina (C) (de 62 a 70% G+C, com exceção de
Mycobacterium leprae que tem 57.8% de GC). As
micobactérias possuem ainda características peculiares como álcool-ácido resistência (uma vez
coradas por corantes básicos, resistem à descoloração por soluções álcool-ácidas sendo, portanto, denominadas bacilos álcool-ácido resistentes) e resistência incomum à dessecação e a agentes químicos.
Ortólogos. Genes homólogos em espécies diferentes originados de um gene ancestral comum,
durante a especiação (Fitch 1970, 2000).
Óperon. Grupo de genes funcionalmente relacionados entre si, regulados (em conjunto) por um
mesmo operador.
Parálogos. Genes homólogos em uma espécie
em particular originados por duplicação (Fitch
1970, 2000).
Proteínas. Moléculas compostas por aminoácidos ligados entre si em uma ordem particular,
especificada pelas seqüências de DNA dos genes
que as codificam. São componentes essenciais dos organismos, participando de todos os processos celulares
(catálise enzimática, sinalização celular, resposta imune, adesão celular, ciclo celular etc.) e também como
componentes estruturais e mecânicos.
Proteômica. Análise (em larga escala) do conjunto completo de proteínas expressas por uma célula, tecido ou
organismo, em um dado momento e sob certas circunstâncias ambientais.
Regiões sintênicas. Sintenia foi um termo originalmente cunhado para designar a presença de dois ou mais
loci gênicos (próximos ou não) no mesmo cromossomo. Atualmente, refere-se também a duas regiões de
genomas distintos que mostram considerável grau de
similaridade de seqüência entre si e algum grau de conservação da ordem dos genes nestas regiões e que, portanto, têm probabilidade de descender de um ancestral
comum.
Regiões de baixa complexidade. Regiões em ácidos
nucléicos ou proteínas com desvios na composição de
seus resíduos (nucleotídeos ou aminoácidos), incluindo tratos homopoliméricos (longas seqüências formadas pelo mesmo resíduo), repetições com curtos espaços entre si e sobre-representações mais sutis de alguns
resíduos.
Seqüência genômica. Toda ou parte da cadeia de DNA
que compõe um genoma.
Simbiontes. Organismos que vivem em simbiose, isto é,
dois organismos distintos que mantêm íntima e longa
associação entre si, na qual um ou ambos se beneficiam
desta relação. Esta associação inclui relações nas quais
uma das partes vive sobre (ectobiose) ou dentro (endobiose) da outra, podendo ser obrigatória, ou seja, necessária à sobrevivência de pelo menos um dos organismos envolvidos, ou facultativa, na qual a associação é
benéfica, porém não é essencial à sobrevivência dos
organismos. As categorias de simbiose incluem o mutualismo (quando ambos se beneficiam), o comensalismo
(quando apenas um se beneficia e o outro não é significativamente lesado ou beneficiado) e o parasitismo
(quando apenas um se beneficia e o outro é lesado pela
relação) (Symbiosis 2008).
Transcriptômica. Análise (em larga escala) do conjunto de todos os RNA mensageiros (transcritos) de uma
célula, tecido ou organismo, em um dado momento e
sob certas circunstâncias ambientais.
Referências bibliográficas
BISTIC Definition Committee. NIH working definition of
bioinformatics and computational biology. 2000. Disponível
em:
<http://www.bisti.nih.gov/
CompuBioDef.pdf> Acesso em: 26 mar. 2008.
Dayhoff MO, Schwartz RM, Orcutt BC. A model of evolutionary change in proteins. In: Dayhoff MO, ed. Atlas of
Protein Sequence and Structure. Washington DC: National Biomedical Research Foundation; 1978. v.5. Suppl.3. p.345-352.
Enright AJ, Iliopoulos I, Kyrpides NC, Ouzounis CA.
Protein interaction maps for complete genomes based
on gene fusion events. Nature 1999 Nov 4;402(6757):8690.
Fitch WM. Distinguishing homologous from analogous
proteins. Syst Zool 1970 Jun;19(2):99-113.
Fitch WM. Homology a personal view on some of the
problems. Trends Genet 2000 May;16(5):227-31.
Goodfellow M, Minnikin DE. Circunscription of the genus. In: Kubica GP, Wayne LG, eds. The Mycobacteria: A
Source Book. New York: Marcel Dekker; 1984. p.1-24.
Henikoff S, Henikoff JG. Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci U S A 1992
Nov 15;89(22):10915-9.
Marcotte EM, Pellegrini M, Ng HL, Rice DW, Yeates TO,
Eisenberg D. Detecting protein function and proteinprotein interactions from genome sequences. Science
1999 Jul 30;285(5428):751-3.
Metagenomics. In Wikipedia: The Free Encyclopedia.
Wikimedia Foundation Inc. Encyclopedia on-line. Disponível em: <http://en.wikipedia.org/wiki/Metagenomics> Acesso em: 26 mar. 2008.
Strohman RC. The coming Kuhnian revolution in biology. Nat Biotechnol 1997 Mar;15(3):194-200.
Symbiosis. In Wikipedia: The Free Encyclopedia. Wikimedia Foundation Inc. Encyclopedia on-line. Disponível em: <http://en.wikipedia.org/wiki/Symbiosis> Acesso em: 26 mar. 2008.
Biotecnologia Ciência & Desenvolvimento - nº 37
29

Documentos relacionados

Projeto Genoma Humano e suas implicações para

Projeto Genoma Humano e suas implicações para Em 1997, a Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp) decidiu que o Brasil não deveria perder as oportunidades científicas e econômicas que poderiam ser derivadas do seqüenciamen...

Leia mais