Evolução no repertório de proteínas
Transcrição
Evolução no repertório de proteínas
Evolução no repertório de proteínas Marbella da Fonsêca Doutoranda Genética, UFRJ Proteínas Estrutura primária – ordem dos aminoácidos ao longo da seqüência Alfa hélices e cadeias beta Forma final da molécula (globular ou linear) Estrutura de sub-unidades múltiplas Classificação Toda alfa (all-alpha) Toda beta (all-beta) Alfa e beta (a/b) (alfa-beta-alfa) Alfa e beta (a+b) (em regiões separadas) Multidomínios Membrana e superfície celular Protein Structure and Function by Gregory Petsko e Dagmar Ringe Domínios O que são domínios? Componentes estruturais, funcionais e evolutivos das proteínas. 70% dos domínios estão duplicados em procariotos e 90% em eucariotos. Quantos domínios podem existir em cada proteína? Um ou vários A perda e ganho de domínios podem indicar eventos de evolução. Tamanho? 100 – 250 resíduos Ordem dos domínios é conservada. AB ou BA? Structure, function and evolution of multidomain proteins. Vogel, et al., 2004 Família Relação clara encontrada pela seqüência Funções similares Poucas famílias possuem muitos membros Muitas famílias possuem poucos membros Algumas famílias possuem características que as levam para uma grande variedade de funções – Exemplos: Família hidrolase P-loop nucleotídeo trifosfato – podem atuar como quinases com diferentes especificidades Superfamília Superfamília – grupo de famílias que compartilham um mesmo ancestral Baixa similaridade entre as seqüências Relacionamentos usualmente estabelecidos por análise da estrutura Superfamília Família 1 Família 2 Ancestral comum Família 3 Família 4 Mecanismos para aumento no número de proteínas Duplicação de seqüências Divergência de seqüências duplicadas – mutações, deleções e inserções Recombinações – resultam em novos rearranjos de domínios Evolução DNA metiltransferase Evolution of new protein totpologies through multistep gene rearrangements, Peisajovich, et al, 2006 Domínios P-loop contendo NTP hidrolase e Traducional Evolution of the Protein Repertoire. Chothia, et al., 2003 Evolução proteases Envolvidas na coagulação do sangue Por que esses mecanismos substituíram a invenção ab initio? Já existe um conjunto de domínios cujas funções podem variar o suficiente para suportar uma forma de vida básica, então ficar mais rápido duplicar, divergir e recombinar Surgimento de sistemas de reparo na replicação de DNA e na síntese proteínas (tornaram a invenção ab initio muito difícil). Proteínas seriam dinâmicas? Evolução atua sobre uma diversidade pré-existente vários estudos demonstram que o grande número de proteínas encontradas atualmente provavelmente divergiram de alguns poucos ancestrais. Visão tradicional – espeficidade funcional absoluta e uma única estrutura, eficaz para responder a pressões mais antigas. Nova visão “New view” – proteína como um conjunto de estruturas alternativas ou conformações em equilíbrio com a chamada “estrutura nativa”. Mais consistente com a adaptabilidade evolutiva e seria uma visão nova da dinâmica e evolução das proteínas Evolução recente – enzimas que degradam compostos que apareceram no planeta a apenas algumas décadas atrás. Genomas seqüenciados Duplicação, divergência e recombinação são a muito tempo conhecidos por serem responsáveis pelo surgimento de novas proteínas Com os genomas completos: grande número de informações disponível e mesmo assim, Proteínas hipotética ou hipotéticas conservadas Estrutura Estruturas Aminoácidos seqüencialmente distante podem está estruturalmente próximos - as estruturas são mais preservadas durante a evolução do que as seqüências. > 30% identidade seqüência – normalmente mesma função e estrutura 20-30% identidade – talvez mesma função e estrutura < 20% identidade – dificilmente são relacionada O número total de dobramentos de domínios é limitado. Mais 70% das seqüências conhecidas são homólogas a uma proteína de estrutura conhecida disponível Atualmente - existem número suficiente de estruturas - Structural Gemonics Initiatives Estatísticas do PDB (SCOP) PDB – Protein Databank (www.pdb.org) – banco de dados de estruturas tridimensionais. Bancos de dados SCOP (Structural Classification of Proteins) – relações evolutivas entre domínios CATH PFAM Exemplo - mesma estrutura pode resultar em diferentes funções Estrutura de três proteínas contendo o mesmo domínio WHD (Winged helix domain, em laranja) a) FadR (1hw2); b) endonuclease de restrição FokI (1fok); c) metionina aminopeptidase humana (1boa) Structure, function and evolution of multidomain proteins. Vogel, et al., 2004 Surgimento de novas proteínas O número real de conformações estruturais é muito menor do que o possível. Por que? Possivelmente isso seria uma prova de que os domínios são reaproveitados e não surgem de novo Mas quais são as implicações nas estruturas das proteínas? Onde as mutações ocorrem? Análise das mutações Regiões envolvidas no mecanismo catalítico ou de ligação com cofatores são conservadas ou levemente modificadas. Enquanto que a especificidade com o substrato muda. Ocorre em membros de famílias ou superfamílias Maior conservação dos resíduos envolvidos na estabilidade da estrutura do que de resíduos envolvidos na função. Loops vs. alfa-hélices e beta-folhas Até menos de 10% das posições podem está envolvido na função Dados importante em alinhamentos. Utilizar alinhamentos locais Quais são as mutações que mudam a estabilidade da proteína mas sobreviveram a seleção? Para tentar responder: ProTherm – banco de dados que lista os efeitos de mutações Estabilidade A estabilidade da proteína determina se a mutação é aceitável. Maior número de mutações onde a estabilidade não é muito afetada Estabilidade Energia livre A. B. C. Proteína estável, compacta – tolera mais mutações Baixo número de interações entre resíduos, menos estruturas secundárias – mutações são toleradas porque mudanças nos resíduos que pouco interagem causam menores perdas na estabilidade Adota uma conformação apenas quando em completo Mutações aceitáveis Sítios “enterrados” nas proteínas são menos suceptíveis a mutações do que aqueles presentes na superfície O interior das proteínas – formado por estruturas secundárias compactas. Área de acesso ao solvente Divergência entre proteínas Proporção de resíduos mutados Efeito de mutações Inserindo duas mutações (K21P) e (G11V) é possível completar a transição entre duas proteínas nativas (NW1 e Mcol1C), que compartilham poucos resíduos além das 6 cisteínas Tokuriki e Tawfik, 2009 Combinação de domínios Arquiteturas de domínios - termo aplicado a proteínas de multidomínios Genomas reduzidos. Mycoplasma genitalium – 2/3 das proteínas possuem 2 ou mais domínios Proporção maior em organismos superiores Ex. Mycoplasma hyopneumoniae (MHP0500) N-terminal –NadD – ácido nicotínico mononucleotídeo adenililtransferase Staphyloccocus aureus C-terminal – Função desconhecida Streptococcus agalactiae 35 bactérias com arquitetura similar NadD Proteínas com domínio HD Ex. Mycoplasma hyopneumoniae (MHP0674) N N C C Região 1 – pouco conservada Região 2.4 – região promotora –10 Região 3 – ausente em fatores sigma de função extracitoplasmática Região 4.2 – região promotora –35 Esquerda – modelo Direita – molde 1rp3 Parte da região 3 – ausente em MHP0674 MHP0167 e MHP0684 transposase NusB ?? YrdC Filogenia utilizando domínios PNAS, 2005 174 genomas completos Nível dobramento X nível superfamília (maior evidência - ancestral comum) Presença/Ausência X Abundância (não uniforme, duplicações e rearranjos) Conteúdo de domínio protéico X conteúdo gênico Ex. 49 dobramentos estão presentes em todos os 174 genomas, 14 encontrado em eucariotos somento e nenhum dobramento único ocorre em todas as bactérias Árvores utilizando domínios http://www.scivee.tv PLoS, 2005 Exemplo mais específico Objetivo: Determinar as características estruturais da superfamília quinaselike. Quais características são compartilhadas por toda superfamília, por algumas famílias, o quê é específico. Propor uma estória evolutiva para a superfamília Similaridade da seqüência é baixa, mas algumas regiões são bastante conservadas PKA. Em amarelo – core central, compartilhado por todos os membros da superfamília. Sítio de ligação ATP Colina quinase e aminoglicosídeo quinase Filogenia Reconstruções utilizando superfamília não comum Tradicional – usam seqüências, alinhamentos, porém, neste caso a similaridade é muito baixa Soluções - alinhamento de estrutura - existem resíduos altamente conservados que são informativos Várias informações. Mas como usá-las para construir uma árvore? Converter em matriz de caracteres: Inserção de grandes hélices. 1=presente, 2=ausente Matriz seqüência Matriz estrutural Árvore Prática 2. Entrar no PDB – (pdb.org) Procurar pela proteína de código pdb (PDB ID) 1g2r ou outra de seu interesse 5. E responder: 1. a. b. A qual classe e a qual superfamília ela pertence? A qual família no PFAM ela pertence? Qual sua função segundo esta base de dados? Prática Encontrar proteínas com mesma arquitetura que a proteína de código 2jr0 usando o VAST (http://www.ncbi.nlm.nih.gov/Structure/VAST/vast.shtml). Para isso, digite o código pdb na caixa de texto “Structure Summary” (figura). A qual proteína esse código faz referência? Para saber os vizinhos estruturais, clique no link “Related Structure: VAST”, selecione como domínio a proteína inteira e liste o resultado usando as opções “nonidentical seq.” e classifique por “vast e-value”. Prática 1. 2. 3. Com relação a questão 5, todas as estruturas dadas no resultado possuem a mesma descrição que a proteína de código 2jr0? Entrar no pdbsum (http://www.ebi.ac.uk/pdbsum/) olhar as características da proteína 2h29. Existem interações proteína-proteína? Ela interage com algum ligante? Verificar as diferenças entre as diferentes bases de dados que armazenam informações sobre proteínas. CATH, ProDom, Pfam.