Evolução no repertório de proteínas

Transcrição

Evolução no repertório de proteínas
Evolução no repertório de
proteínas
Marbella da Fonsêca
Doutoranda Genética, UFRJ
Proteínas




Estrutura primária – ordem
dos aminoácidos ao longo
da seqüência
Alfa hélices e cadeias beta
Forma final da molécula
(globular ou linear)
Estrutura de sub-unidades
múltiplas
Classificação






Toda alfa (all-alpha)
Toda beta (all-beta)
Alfa e beta (a/b) (alfa-beta-alfa)
Alfa e beta (a+b) (em regiões
separadas)
Multidomínios
Membrana e superfície celular
Protein Structure and Function by
Gregory Petsko e Dagmar Ringe
Domínios






O que são domínios? Componentes
estruturais, funcionais e evolutivos das
proteínas.
70% dos domínios estão duplicados
em procariotos e 90% em eucariotos.
Quantos domínios podem existir em
cada proteína? Um ou vários
A perda e ganho de domínios podem
indicar eventos de evolução.
Tamanho? 100 – 250 resíduos
Ordem dos domínios é conservada. AB
ou BA?
Structure, function and evolution of
multidomain proteins. Vogel, et al., 2004
Família

Relação clara encontrada pela seqüência
Funções similares

Poucas famílias possuem muitos membros

Muitas famílias possuem poucos membros

Algumas famílias possuem características que as levam para
uma grande variedade de funções – Exemplos:


Família hidrolase P-loop nucleotídeo trifosfato – podem
atuar como quinases com diferentes especificidades
Superfamília

Superfamília – grupo de
famílias que compartilham
um mesmo ancestral

Baixa similaridade
entre as seqüências

Relacionamentos
usualmente
estabelecidos por
análise da estrutura
Superfamília
Família 1
Família 2
Ancestral comum
Família 3
Família 4
Mecanismos para aumento no número de
proteínas



Duplicação de seqüências
Divergência de seqüências duplicadas – mutações, deleções e inserções
Recombinações – resultam em novos rearranjos de domínios
Evolução DNA metiltransferase
Evolution of new protein totpologies
through multistep gene rearrangements,
Peisajovich, et al, 2006
Domínios P-loop contendo NTP hidrolase e
Traducional
Evolution of the Protein Repertoire.
Chothia, et al., 2003
Evolução proteases
Envolvidas na coagulação do sangue
Por que esses mecanismos substituíram a
invenção ab initio?


Já existe um conjunto de domínios cujas funções podem
variar o suficiente para suportar uma forma de vida
básica, então ficar mais rápido duplicar, divergir e
recombinar
Surgimento de sistemas de reparo na replicação de DNA e
na síntese proteínas (tornaram a invenção ab initio muito
difícil).
Proteínas seriam dinâmicas?


Evolução atua sobre uma diversidade pré-existente vários estudos demonstram que o grande número de
proteínas encontradas atualmente provavelmente
divergiram de alguns poucos ancestrais.
Visão tradicional – espeficidade funcional absoluta e uma
única estrutura, eficaz para responder a pressões mais
antigas.
Nova visão


“New view” – proteína como um conjunto de estruturas
alternativas ou conformações em equilíbrio com a
chamada “estrutura nativa”. Mais consistente com a
adaptabilidade evolutiva e seria uma visão nova da
dinâmica e evolução das proteínas
Evolução recente – enzimas que degradam compostos que
apareceram no planeta a apenas algumas décadas atrás.
Genomas seqüenciados



Duplicação, divergência e recombinação são a muito
tempo conhecidos por serem responsáveis pelo surgimento
de novas proteínas
Com os genomas completos: grande número de
informações disponível e mesmo assim,
Proteínas hipotética ou hipotéticas conservadas
Estrutura
Estruturas



Aminoácidos seqüencialmente distante podem está estruturalmente
próximos - as estruturas são mais preservadas durante a evolução
do que as seqüências.

> 30% identidade seqüência – normalmente mesma função e
estrutura

20-30% identidade – talvez mesma função e estrutura

< 20% identidade – dificilmente são relacionada
O número total de dobramentos de domínios é limitado. Mais 70%
das seqüências conhecidas são homólogas a uma proteína de
estrutura conhecida disponível
Atualmente - existem número suficiente de estruturas - Structural
Gemonics Initiatives
Estatísticas do PDB (SCOP)
PDB – Protein Databank

(www.pdb.org) – banco de dados de estruturas tridimensionais.
Bancos de dados

SCOP (Structural Classification of Proteins) – relações
evolutivas entre domínios

CATH

PFAM
Exemplo -
mesma estrutura pode resultar em diferentes funções
Estrutura de três proteínas contendo o mesmo domínio WHD (Winged helix domain, em
laranja) a) FadR (1hw2); b) endonuclease de restrição FokI (1fok); c) metionina
aminopeptidase humana (1boa)
Structure, function and evolution of
multidomain proteins. Vogel, et al., 2004
Surgimento de novas proteínas


O número real de conformações estruturais é muito
menor do que o possível. Por que? Possivelmente isso
seria uma prova de que os domínios são reaproveitados e
não surgem de novo
Mas quais são as implicações nas estruturas das
proteínas? Onde as mutações ocorrem?
Análise das mutações

Regiões envolvidas no mecanismo catalítico ou de ligação
com cofatores são conservadas ou levemente modificadas.
Enquanto que a especificidade com o substrato muda.




Ocorre em membros de famílias ou superfamílias
Maior conservação dos resíduos envolvidos na
estabilidade da estrutura do que de resíduos envolvidos na
função.
Loops vs. alfa-hélices e beta-folhas
Até menos de 10% das posições podem está envolvido na
função
 Dados importante em alinhamentos. Utilizar
alinhamentos locais

Quais são as mutações que mudam a estabilidade da
proteína mas sobreviveram a seleção?

Para tentar responder: ProTherm – banco de dados que
lista os efeitos de mutações
Estabilidade

A estabilidade da
proteína determina se a
mutação é aceitável.
Maior número de mutações onde a
estabilidade não é muito afetada
Estabilidade
Energia livre
A.
B.
C.
Proteína estável, compacta – tolera mais mutações
Baixo número de interações entre resíduos, menos estruturas secundárias – mutações
são toleradas porque mudanças nos resíduos que pouco interagem causam menores
perdas na estabilidade
Adota uma conformação apenas quando em completo
Mutações aceitáveis


Sítios “enterrados” nas
proteínas são menos
suceptíveis a mutações do que
aqueles presentes na superfície
O interior das proteínas –
formado por estruturas
secundárias compactas.
Área de acesso ao solvente
Divergência entre proteínas
Proporção de resíduos mutados
Efeito de mutações
Inserindo duas mutações (K21P) e (G11V) é possível completar a
transição entre duas proteínas nativas (NW1 e Mcol1C), que
compartilham poucos resíduos além das 6 cisteínas
Tokuriki e Tawfik, 2009
Combinação de domínios



Arquiteturas de domínios - termo aplicado a proteínas de
multidomínios
Genomas reduzidos. Mycoplasma genitalium – 2/3 das
proteínas possuem 2 ou mais domínios
Proporção maior em organismos superiores
Ex. Mycoplasma hyopneumoniae (MHP0500)



N-terminal –NadD –
ácido nicotínico
mononucleotídeo
adenililtransferase
Staphyloccocus aureus
C-terminal – Função
desconhecida Streptococcus agalactiae
35 bactérias com
arquitetura similar
NadD
Proteínas com domínio HD
Ex. Mycoplasma hyopneumoniae (MHP0674)
N
N
C
C
Região 1 – pouco conservada
Região 2.4 – região promotora –10
Região 3 – ausente em fatores sigma de função
extracitoplasmática
Região 4.2 – região promotora –35
Esquerda – modelo
Direita – molde 1rp3
Parte da região 3 –
ausente em
MHP0674
MHP0167 e MHP0684
transposase
NusB
??
YrdC
Filogenia utilizando domínios
PNAS, 2005
174 genomas completos
Nível dobramento X nível superfamília
(maior evidência - ancestral comum)
Presença/Ausência X Abundância (não
uniforme, duplicações e rearranjos)
Conteúdo de domínio protéico X conteúdo
gênico
Ex. 49 dobramentos estão presentes em todos os 174
genomas, 14 encontrado em eucariotos somento e
nenhum dobramento único ocorre em todas as
bactérias
Árvores utilizando domínios
http://www.scivee.tv
PLoS, 2005
Exemplo mais específico
Objetivo: Determinar as características
estruturais da superfamília quinaselike. Quais características são
compartilhadas por toda superfamília,
por algumas famílias, o quê é
específico.
Propor uma estória evolutiva para a
superfamília
Similaridade da seqüência é baixa, mas
algumas regiões são bastante
conservadas
PKA. Em amarelo – core central,
compartilhado por todos os membros
da superfamília. Sítio de ligação ATP
Colina quinase e aminoglicosídeo quinase
Filogenia
Reconstruções utilizando superfamília não
comum
Tradicional – usam seqüências,
alinhamentos, porém, neste caso a
similaridade é muito baixa
Soluções - alinhamento de estrutura
- existem resíduos altamente
conservados que são informativos
Várias informações. Mas como usá-las para
construir uma árvore?
Converter em matriz de caracteres:
Inserção de grandes hélices. 1=presente,
2=ausente
Matriz seqüência
Matriz estrutural
Árvore
Prática
2.
Entrar no PDB – (pdb.org)
Procurar pela proteína de código pdb (PDB ID) 1g2r ou outra de seu
interesse
5.
E responder:
1.
a.
b.
A qual classe e a qual superfamília ela pertence?
A qual família no PFAM ela pertence? Qual sua função segundo esta base de
dados?
Prática

Encontrar proteínas com mesma arquitetura que a proteína de código 2jr0
usando o VAST (http://www.ncbi.nlm.nih.gov/Structure/VAST/vast.shtml).
Para isso, digite o código pdb na caixa de texto “Structure Summary”
(figura). A qual proteína esse código faz referência? Para saber os vizinhos
estruturais, clique no link “Related Structure: VAST”, selecione como
domínio a proteína inteira e liste o resultado usando as opções “nonidentical seq.” e classifique por “vast e-value”.
Prática
1.
2.
3.
Com relação a questão 5, todas as estruturas dadas no resultado possuem a
mesma descrição que a proteína de código 2jr0?
Entrar no pdbsum (http://www.ebi.ac.uk/pdbsum/) olhar as características
da proteína 2h29. Existem interações proteína-proteína? Ela interage com
algum ligante?
Verificar as diferenças entre as diferentes bases de dados que armazenam
informações sobre proteínas. CATH, ProDom, Pfam.