Master Dissertation (in portuguese) - fcfrp

Transcrição

UNIVERSIDADE DE SÃO PAULO
FACULDADE DE CIÊNCIAS FARMACÊUTICAS DE RIBEIRÃO PRETO
Análises de propriedades eletrostáticas e estruturais
de complexos de proteínas para o desenvolvimento de preditores de
complexação em larga escala
Tulio Marcus Ribeiro Calixto
Ribeirão Preto
2010
UNIVERSIDADE DE SÃO PAULO
FACULDADE DE CIÊNCIAS FARMACÊUTICAS DE RIBEIRÃO PRETO
Análises de propriedades eletrostáticas e estruturais
de complexos de proteínas para o desenvolvimento de preditores de
complexação em larga escala
Dissertação de Mestrado apresentada ao
Programa de Pós-Graduação em Ciências
Farmacêuticas para obtenção do Título de
Mestre em Ciências
Área de Concentração: Física Biológica
Orientado: Tulio Marcus Ribeiro Calixto
Orientador: Fernando Luís Barroso da Silva
Ribeirão Preto
2010
FICHA CATALOGRÁFICA
AUTORIZO A REPRODUÇÃO E DIVULGAÇÃO TOTAL OU PARCIAL DESTE
TRABALHO, POR QUALQUER MEIO CONVENCIONAL OU ELETRÔNICO,
PARA FINS DE ESTUDO E PESQUISA, DESDE QUE CITADA A FONTE.
Calixto, Tulio Marcus Ribeiro
Análises de propriedades eletrostáticas e estruturais de
complexos de proteínas para o desenvolvimento de preditores
de complexação em larga escala. Riberão Preto, 2010.
228p.; 30cm.
Dissertação de Mestrado, apresentada à Faculdade de Ciências Farmacêuticas de Ribeirão Preto/USP - Área de concentração:
Física Biológica.
Orientador: da Silva, Fernando Luís Barroso.
1. Biocomputação. 2. Interações eletrostáticas. 3. Preditores
de complexos protéicos. 4. Potenciais Estatísticos. 5 Regulação de cargas. 6. Coeficiente de virial.
FOLHA DE APROVAÇÃO
Tulio Marcus Ribeiro Calixto
Análises de propriedades eletrostáticas e estruturais de complexos de proteínas para o
desenvolvimento de preditores de complexação em larga escala
Dissertação de Mestrado apresentada ao
Programa de Pós-Graduação em Ciências
Farmacêuticas para obtenção do Título de
Mestre em Ciências
Área de Concentração: Física Biológica
Orientador: Fernando Luís Barroso da Silva
Aprovado em:
Banca Examinadora
Prof. Dr.
Instituição:
Assinatura:
Prof. Dr.
Instituição:
Assinatura:
Prof. Dr.
Instituição:
Assinatura:
v
Agradecimentos
Inicio agradecendo a Deus, pela minha vida e pela força nos momentos de desânimo
e cansaço.
A minha família pelo amor, carinho e compreensão durante todo o tempo de realização da minha pós-graduação, especialmente ao meu irmão José Simão Calixto
Júnior, pela boa convivência e paciência para comigo.
Ao amigo Rodrigo Faccioli, pela hospedagem em São Carlos, estudos, parceria
no desenvolvimento de softwares, desabafos e pelas longas conversas e discussões
acadêmicas e alheias.
Ao Centro de Informática de Ribeirão Preto, especialmente a minha chefe Clélia
Cardoso Camargo, que sempre me apoiou durante a pós-gradução e ao amigo Ali
Faiez Taha, pelas discussões, críticas e incentivo aos estudos.
Agradeço ao meu orientador, Prof. Dr. Fernando Luís Barroso da Silva, que me
iniciou na área de Física Biológica e forneceu o conhecimento necessário para o
desenvolvimento deste trabalho. Reconheço e agradeço a oportunidade, apoio, dedicação, paciência, confiança e amizade.
A todos os amigos que passaram pela república, André Lara, Lucas Atílio, Fábio Marcondez, Leandro Nassif, Marco Antônio, Lívio Leite, Ivan Farjala, Rodrigo Takeuchi, Flávio Neto, Eduardo, José Regis, Guilherme e em especial Flávio
Henrique Alves, por todo apoio nesta nova fase da minha vida que se iniciou no
ano 2000, pelas conversas e reflexões noturnas, projetos, sonhos, festas, caronas
pra Itaú de Minas, enfim todos os momentos alegres e outros nem tanto.
Aos colegas do laboratório de Física Biológica, João Dalmolin, Ricardo, Lariani,
Eliamar, André, pela amizade e companheirismo.
Aos membros da banca do exame geral de qualificação Prof. Dr. Antônio Caliri e
Prof. Dr. Renato Tinós pela disponibilidade de ler, criticar e fazer valiosas sugestões para a melhoria deste trabalho.
A todos os funcionários da seção de pós-graduação e a Faculdade de Ciências Farmacêuticas de Ribeirão Preto pelo oportunidade de cursar o mestrado.
A minha namorada Adrielen Aparecida Silva pela presença, incentivo e paciência
constantes.
i
Resumo
CALIXTO, T. M. R. Análises de propriedades eletrostáticas e estruturais de complexos de
proteínas para o desenvolvimento de preditores de complexação em larga escala. 2010.
228f. Dissertação (Mestrado) - Faculdade de Ciências Farmacêuticas de Ribeirão Preto, Universidade de São Paulo, Ribeirão Preto, 2010.
Estudos teóricos dos mecanismos moleculares responsáveis pela formação e estabilidade de
complexos moleculares vêm ganhando relevância pelas possibilidades práticas que oferecem,
por exemplo, na compreensão de diversas doenças e no desenho racional de fármacos. Neste
projeto, nossa ênfase está no estudo de complexos de proteínas, extraídos do banco de dados de
proteínas (PDB), onde desenvolvemos ferramentas computacionais as quais permitem efetuar
análises em duas direções: 1) efetuar previsões básicas, através do emprego de propriedades eletrostáticas de proteínas, em diferentes condições e níveis preditivos e 2) realização de um conjunto de análises estatísticas, como freqüência de contato, em busca de preditores de complexos
de proteínas e identificar padrões de interação entre seus aminoácidos em função da distância
de separação. Com base nos resultados obtidos por ambos os estudos, objetivamos quantificar
as forças físicas envolvidas na formação dos complexos protéicos. O foco do projeto, a longo
prazo, é prever o fenômeno da complexação através da fusão dessas duas linhas de estudos: preditor básico de complexos protéicos e análise do potencial estatístico entre os aminoácidos que
formam o complexo. O presente projeto é concluído com a construção de portais web que disponibilizarão os resultados obtidos por nossos trabalhos bem como a possibilidade de qualquer
usuário, efetuar consultas por propriedades de proteínas e/ou grupo de proteínas.
Palavras-chave: Complexos protéicos; Potencial estatístico; Banco de dados de proteínas; Biocomputação; Interações Eletrostáticas.
ii
Abstract
CALIXTO, T. M. R. Analysis of electrostatics and structural properties of protein
complexes to the development of complexation predictors in high-throughput computing.
2010. 228f. Dissertation (Master) - Faculdade de Ciências Farmacêuticas de Ribeirão Preto,
Universidade de São Paulo, Ribeirão Preto, 2010.
Theoretical studies of the molecular mechanisms responsible for the formation and stability
of molecular complexes are gaining relevance for the practical possibilities that they offer, for
example, in the understanding of diverse diseases and the rational drug design. In this project,
our emphasis is on the study of protein complexes, extracted from the protein data bank (PDB).
We have developed computational tools which allow to perform analyses in two directions: 1)
to make basic complexation forecasts, through the use of electrostatic properties of proteins,
in different conditions and predictive levels, and 2) to carry out a set of statistical analyses, as
contacts frequency, in order to build up predictors of protein complexes and to identify patters
of interactions between the amino acids as a function of their separation distance. Based on the
results obtained on both studies, we aim quantify the physical forces involved in the formation
of protein complexes. The focus of the project, in the long run, is to foresee the phenomenon of
the protein complexes through the fusing of these two study lines: a coarse-grained predictor of
protein complexes and analysis of the statistical potentials between the amino acids that form
the complex. The present project is concluded with the construction of web services where we
make available the results obtained on our works. This server also has the possibility to be used
by any computer user, that wishes to perform search on protein and/or protein group properties.
Keywords: Protein complexes; Statistical potential; Protein data bases; Biocomputing,
Electrostatic Interactions.
iii
Lista de Figuras
1
Diagrama esquemático dos portais desenvolvidos. O nível de detalhamento do
sistema, precisão e custo computacional aumenta conforme passamos do nível
0 para o 2. O arquivo PQR contém a carga e o raio de cada átomo presente na
proteína, o qual é utilizado em simulações PB (MEAD) e MC. Elementos em
cinza indicam as ferramentas que serão implementadas no futuro. . . . . . . . .
2
15
Ilustração esquemática de funcionamento dos portais web propostos neste trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
3
Estrutura geral de um aminoácido. . . . . . . . . . . . . . . . . . . . . . . . .
21
4
Relação dos 20 aminoácidos existentes na natureza, adaptado da referência (1).
22
5
Exemplo de um arquivo no formato ogm, utilizado como entrada pelo pacote
MEAD v.2.2.7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
29
Ilustração esquemática de uma proteína inserida em uma rede para execução do
método de diferenças finitas para a solução da EPBL. . . . . . . . . . . . . . .
30
7
Modelo relacional do banco de dados. . . . . . . . . . . . . . . . . . . . . . .
47
8
Página inicial do portal web PROMETHEUS. Disponível em: http://glu.
fcfrp.usp.br/services.htm. . . . . . . . . . . . . . . . . . . . . . .
50
9
Ferramenta "Single amino acid properties". . . . . . . . . . . . . . . . . . . .
51
10
Curvas de titulação e capacitância ideais em função do pH do aminoácido ácido
glutâmico (GLU), obtidas pela ferramenta "Single Amino acid Properties". . . .
52
11
Curva de titulação ideal do aminoácido ácido glutâmico (GLU). pKa = 4,4 (2). .
52
12
Curva da capacitância ideal em função do pH, do aminoácido ácido glutâmico
(GLU). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
53
Tela de aquisição de parâmetros para utilização da ferramenta “Single protein
properties". . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
iv
14
Tela para apresentação dos resultados obtidos pela ferramenta “Single protein
properties". . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
15
Curva de titulação da proteína lisozima (PDB: 2LZT). . . . . . . . . . . . . . .
55
16
Curva da capacitância, em função do pH, da proteína lisozima (PDB: 2LZT). .
56
17
Tela para configuração dos parâmetros iniciais do portal PROMETHEUS. . . .
57
18
Tela para a especificação dos parâmetros físico-químicos para entrada no programa multiflex. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
Tela para apresentação das curvas de titulação e capacitância em função do pH,
geradas pela ferramenta “Single protein properties”. . . . . . . . . . . . . . . .
20
60
Tela para entrada dos parâmetros físico-químicos para predição de complexos
protéicos, no nível de predição ideal (analítico). . . . . . . . . . . . . . . . . .
24
59
Tela para entrada dos parâmetros iniciais para a realização dos cálculos da predição de complexação entre proteínas. . . . . . . . . . . . . . . . . . . . . . .
23
59
Curva da capacitância, em função do pH, da proteína lisozima (PDB: 2LZT),
no nível de predição Poisson-Boltzmann. . . . . . . . . . . . . . . . . . . . . .
22
58
Curva de titulação da proteína lisozima (PDB: 2LZT), no nível de predição
Poisson-Boltzmann. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
58
62
Tela para apresentação dos cálculos analíticos de ∆Gele (em unidades de kB T )
em função da distância de separação (em Ångström) no pH 10,4 e do B23 em
função do pH, em força iônica nula, para a complexação entre as proteínas lisozima (PDB: 2LZT) e tirosina kinase (PDB: 1LCJ). . . . . . . . . . . . . . . . .
25
∆Gele (analítico), no pH 10,4 e força iônica nula, para a complexação entre as
proteínas lisozima (PDB: 2LZT) e tirosina kinase (PDB: 1LCJ). . . . . . . . .
26
64
B23 (analítico) em função do pH, em força iônica nula, para a complexação entre
as proteínas lisozima (PDB: 2LZT) e tirosina kinase (PDB: 1LCJ). . . . . . . .
27
63
64
Tela para entrada dos parâmetros que serão utilizados para a construção dos
arquivos de configuração utilizados pelo pacote MEAD para o cálculo dos pKa ’s
dos aminoácidos ionizáveis. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
65
Tela para definição das condições experimentais das simulações com as estruturas tridimensionais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
v
29
Tela para definição das condições experimentais para a predição da formação
de complexo protéico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
67
Tela para apresentação do ∆Gele , no pH 11,1 em força iônica igual a 0,01M, e do
B23 , para a complexação entre as proteínas lisozima (PDB: 2LZT) e calbindina
(PDB: 3ICB). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
68
∆Gele entre as proteínas calbindina (PDB: 3ICB) e lisozima (PDB: 2LZT), em
força iônica igual a 0,01M. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
32
B23 entre as proteínas calbindina (PDB: 3ICB) e lisozima (PDB: 2LZT). . . . .
69
33
Tela da ferramenta que permite criar um arquivo no formato PQR a partir de um
arquivo PDB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
34
Ferramenta “Create MEAD files”. . . . . . . . . . . . . . . . . . . . . . . . . .
72
35
Tela para aquisição dos parâmetros experimentais, utilizados pela ferramenta
“Split proteins”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
Complexos de proteínas separados em proteínas independentes pela ferramenta
“Split proteins”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
74
Curvas de titulação ideal de cada proteína individual, presente no complexo
proteinase-inibidor (PDB: 2PTC). . . . . . . . . . . . . . . . . . . . . . . . .
38
73
75
Curvas de capacitância ideal em função do pH de cada proteína individual, presente no complexo proteinase-inibidor (PDB: 2PTC). . . . . . . . . . . . . . .
75
39
Tela de aquisição dos parâmetros utilizados pela ferramenta “Find best case”. .
76
40
Tela para apresentação do resultado obtido pela ferramenta “Find best case”,
para um conjunto de proteínas, no pH 7,5. . . . . . . . . . . . . . . . . . . . .
77
41
Ferramenta que efetua a preparação inicial de um arquivo no formato PDB. . .
79
42
Exemplo de um arquivo no formato PDB após ser processado pela ferramenta
“Clean PDB”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
43
Tela inicial para ordenação de proteínas e/ou complexos de proteínas pelo pI. .
81
44
Tela para entrada dos parâmetros físico-químicos utilizados para a predição da
complexação entre duas proteínas. . . . . . . . . . . . . . . . . . . . . . . . .
45
82
Tela para apresentação dos resultados obtidos pela ferramenta “All-all protein
interaction”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
vi
46
∆Gele entre duas proteínas calbindinas (PDB: 3ICB). . . . . . . . . . . . . . .
84
47
B2 entre duas proteínas calbindinas (PDB: 3ICB). . . . . . . . . . . . . . . . .
84
48
Tela para inserção dos códigos PDB’s dos complexos de proteínas que serão
analisados pela ferramenta “Statistical potential” do portal MOLESA. . . . . .
49
Tela para configuração dos parâmetros que serão utilizados pela ferramenta
“Statistical potential”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
85
87
Ilustração de um complexo protéico esquemático formado por duas proteínas
(representadas pelas cadeias A e B) para a realização do cálculo da distância de
separação entre os resíduos presentes em cada proteína. . . . . . . . . . . . . .
51
87
Ilustração do contador de freqüências entre os aminoácidos i e j de um
complexo protéico esquemático. . . . . . . . . . . . . . . . . . . . . . . . . .
88
52
Freqüência de contatos e potencial de força média entre os resíduos i e j. . . . .
89
53
Freqüência de contatos (com e sem normalização) entre os resíduos i e j. . . . .
90
54
Potencial de força média entre os resíduos i e j, normalizados de forma probabilística e com base na FDR. . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
55
Curva de titulação ideal do aminoácido alanina (ALA). . . . . . . . . . . . . .
94
56
Curva da capacitância ideal em função do pH, do aminoácido alanina (ALA). .
95
57
Curva de titulação ideal do aminoácido arginina (ARG). pKa = 12,0 (2). . . . .
95
58
Curva da capacitância ideal em função do pH, do aminoácido arginina (ARG). .
96
59
Comparação entre as curvas de titulação teórica e experimental da proteína lisozima (PDB: 2LZT) em força iônica igual a 0,1M. . . . . . . . . . . . . . . .
60
97
Comparação entre as curvas de titulação teóricas obtidas analiticamente e por
simulação Monte Carlo da proteína calbindina (PDB: 3ICB) em força iônica
nula. ∗ Dados obtidos da referência (5). . . . . . . . . . . . . . . . . . . . . . .
61
97
Comparação entre a titulação ideal (curva vermelha), obtida pelo portal
PROMETHEUS, e titulação MA, obtida por simulação Monte Carlo (curva
verde - concentração da proteína: 150µM; concentração de sal: 0,15M (3))
da proteína β -lactoglobulina (PDB: 1BEB). pI experimental: 5,18 (4). . . . . .
62
98
Comparação entre a capacitância ideal em função do pH, da proteína lisozima
(PDB: 2LZT) provida pelo portal PROMETHEUS e a obtida da referência (5). .
99
vii
63
Comparação entre a capacitância ideal em função do pH, da proteína calbindina
(PDB: 3ICB), provida pelo portal PROMETHEUS e a obtida da referência (5). . 100
64
RMSD dos pKa ’s da lisozima (PDB: 2LZT) em função de diferentes valores de
EPSIN para o campo de força AMBER99. A concentração de sal foi variada
de 0,01M a 0,15 M. A temperatura e a constante dielétrica do solvente foram
fixadas em 298 K e 80, respectivamente. Os dados experimentais das referências
(6–8) foram usados para o cálculo do RMSD. . . . . . . . . . . . . . . . . . . 114
65
RMSD dos pKa ’s da BPTI (PDB: 4PTI) em função de diferentes valores de
EPSIN para o campo de força GROMOS96. A concentração de sal foi variada
de 0,01M a 0,15 M. A temperatura e a constante dielétrica do solvente foram
fixadas em 298 K e 80, respectivamente. Os dados experimentais das referências
(9–12) foram usados para o cálculo do RMSD. . . . . . . . . . . . . . . . . . . 115
66
RMSD dos pKa ’s da lisozima (PDB: 2LZT) em força iônica igual a 0,1M em
função de diferentes valores de EPSIN para os campos de força GROMOS96 e
AMBER99. A temperatura e a constante dielétrica do solvente foram fixadas
em 298 K e 80, respectivamente. Os dados experimentais das referências (6–8)
foram usados para o cálculo do RMSD. . . . . . . . . . . . . . . . . . . . . . 116
67
RMSD dos pKa ’s da BPTI (PDB: 4PTI) em força iônica igual a 0,1M em função de diferentes valores de EPSIN para os campos de força GROMOS96 e
AMBER99. A temperatura e a constante dielétrica do solvente foram fixadas
em 298 K e 80, respectivamente. Os dados experimentais das referências (9–12)
foram usados para o cálculo do RMSD. . . . . . . . . . . . . . . . . . . . . . 116
68
Comparação entre a titulação ideal e a titulação baseada na estrutura 3D (PB e
MC), para a cabindina (PDB: 3ICB). pI experimental: 4,5 (13). Os dados de
MC foram retirados da referência (14). . . . . . . . . . . . . . . . . . . . . . . 118
69
Comparação entre a capacitância ideal e a capacitância baseada na estrutura 3D
(PB e MC) em função do pH, para a cabindina (PDB: 3ICB). Os dados de MC
foram retirados da referência (14). . . . . . . . . . . . . . . . . . . . . . . . . 118
70
Comparação das curvas de titulação medidas experimentalmente e predições
teóricas, utilizando os modelos analíticos e PB, empregando os campos de força
GROMOS96 e AMBER99, para a lisozima (PDB: 2LZT). A força iônica foi
fixada em 0,1M. Os dados experimentais foram obtidos da referência (15). . . . 119
viii
71
Curva de titulação da proteína lisozima (PDB: 2LZT), em várias concentrações
de sal. A temperatura, a constante dielétrica da proteína e a constante dielétrica
do solvente foram fixadas em 298 K, 40 e 80, respectivamente. Campo de força:
GROMOS96. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
72
Curva de titulação da proteína calbindina (PDB: 3ICB), em várias concentrações de sal. A temperatura, a constante dielétrica da proteína e a constante dielétrica do solvente foram fixadas em 298 K, 40 e 80, respectivamente. Campo
de força: GROMOS96. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
73
Comparação do ∆Gele do complexo hirundina–trombina (PDB: 4HTC), com e
sem o mecanismo de regulação de cargas em força iônica igual a 0,01M. . . . . 122
74
Comparação do B23 , do complexo hirundina–trombina (PDB: 4HTC), com e
sem o mecanismo de regulação de cargas em força iônica igual a 0,01M. . . . . 123
75
Curva de titulação do complexo hirundina–trombina (PDB: 4HTC), separado
em duas proteína, em força iônica nula. . . . . . . . . . . . . . . . . . . . . . . 124
76
Curva da capacitância em função do pH, do complexo hirundina–trombina
(PDB: 4HTC), separado em duas proteína, em força iônica nula. . . . . . . . . 124
77
Curvas de titulação de cada proteína que forma o complexo protético tripsina–
inibidor (PDB: 2PTC). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
78
Curvas da capacitância de cada proteína que forma o complexo protético
tripsina–inibidor (PDB: 2PTC). . . . . . . . . . . . . . . . . . . . . . . . . . . 126
79
∆Gele formando o complexo protéico tripsina–inibidor (PDB: 2PTC). O pH foi
fixado em 10 e força iônica nula. . . . . . . . . . . . . . . . . . . . . . . . . . 126
80
B23 formando o complexo protéico tripsina–inibidor (PDB: 2PTC). pH
experimental:10 (16, 17). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
81
Comparação do ∆Gele do complexo HyHEL-10 Fab–lisozima (PDB: 3HFM),
com e sem o mecanismo de regulação de cargas. O pH e a força iônica foram
fixados 10,6 e 0,01M, respectivamente. . . . . . . . . . . . . . . . . . . . . . . 128
82
Comparação do B23 , do complexo HyHEL-10 Fab–lisozima (PDB: 3HFM),
com e sem o mecanismo de regulação de cargas em força iônica igual a 0,01M.
83
128
B23 do complexo tripsina–inibidor (PDB: 2PTC), com o mecanismo de regulação de cargas, em vários regimes de força iônica. . . . . . . . . . . . . . . . . 129
ix
84
∆Gele do complexo formado por duas lisozimas (PDB: 2LZT) com e sem o
mecanismo de regulação de cargas, em força iônica nula e 0,01M. O pH, a
temperatura e a constante dielétrica do solvente foram fixados em 10,6, 298,15
K e 78,5, respectivamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
85
∆Gele , nos níveis de predição analítico e Poisson-Boltzmann, do complexo formado por duas lisozimas (PDB: 2LZT) com e sem o mecanismo de regulação
de cargas em força iônica igual a 0,01M. A temperatura, a constante dielétrica
da proteína e a constante dielétrica do solvente foram fixadas em 298 K, 40
e 80, respectivamente. O pH foi mantido constante em 10,6 para os cálculos
analíticos e 11,2 para os cálculos utilizando PB. Campo de força: GROMOS96. 131
86
B2 de complexação entre duas lisozimas (PDB: 2LZT), com o mecanismo de
regulação de cargas, em vários regimes de força iônica. . . . . . . . . . . . . . 131
87
Comparação do B2 de complexação entre duas lisozimas (PDB: 2LZT), nos
níveis de predição analítico e PB, com o mecanismo de regulação de cargas,
com medidas experimentais e outras previsões teóricas. A força iônica foi fixada
em 0,005M. Nos cálculos por PB, ε p foi definido como igual a 40. Os campos
de força estão citados nas legendas das curvas do próprio gráfico. Os dados
experimentais foram obtidos da referência (18). . . . . . . . . . . . . . . . . . 132
88
Comparação do B2 de complexação entre duas lisozimas (PDB: 2LZT), nos
níveis de predição analítico e PB, com o mecanismo de regulação de cargas,
com medidas experimentais e outras previsões teóricas. A força iônica foi fixada
em 0,1M. Nos cálculos por PB, ε p foi definido como igual a 40. Os campos
de força estão citados nas legendas das curvas do próprio gráfico. Os dados
experimentais foram obtidos da referência (18). . . . . . . . . . . . . . . . . . 133
89
Comparação do B2 de complexação entre dois quimotripsinogênios (PDB:
1CHG), nos níveis de predição analítico e PB, com o mecanismo de regulação de cargas, com medidas experimentais e outras previsões teóricas. A força
iônica foi fixada em 0,005M. Nos cálculos por PB, ε p foi definido como igual a
40. As cargas foram definidas de acordo com o campo de força AMBER99. Os
dados experimentais foram obtidos da referência (18). . . . . . . . . . . . . . . 134
x
90
Comparação do B2 de complexação entre dois quimotripsinogênios (PDB:
1CHG), nos níveis de predição analítico e PB, com o mecanismo de regulação de cargas, com medidas experimentais e outras previsões teóricas. A força
iônica foi fixada em 0,01M e 0,005. Nos cálculos por PB, ε p foi definido como
igual a 40. As cargas foram definidas de acordo com o campo força AMBER99.
Os dados experimentais foram obtidos da referência (18). . . . . . . . . . . . . 135
91
Comparação do B2 , com e sem o potencial de dispersão de Hamaker, de complexação entre duas lisozimas (PDB: 2LZT), com o mecanismo de regulação de
cargas e força iônica nula. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
92
Comparação do ∆Gele com e sem o mecanismo de regulação de cargas. O pH
foi fixado em 4,5 e força iônica nula. . . . . . . . . . . . . . . . . . . . . . . . 137
93
Freqüência de contatos entre os resíduos ALA–ALA para as proteínas dos
conjuntos 3, 4, 5 e controle. A normalização das curvas seguiu o critério 1.
Os conjuntos estão especificados nas legendas no interior do gráfico. . . . . . . 140
94
Freqüência de contatos entre os resíduos GLU–GLU para as proteínas dos
95
Freqüência de contatos entre os resíduos ILE–VAL para as proteínas dos
96
PFM obtido a partir da freqüência de contatos entre os resíduos ALA-ALA
presentes nas proteínas pertencentes aos conjunto 3, 4, 5 e controle. A normalização foi feita pelo critério 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
97
PFM obtido a partir da freqüência de contatos entre os resíduos GLU-GLU
98
PFM obtido a partir da freqüência de contatos entre os resíduos ILE-VAL presentes nas proteínas pertencentes aos conjunto 3, 4, 5 e controle. A normalização foi feita pelo critério 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
99
PFM obtido a partir da freqüência de contatos entre os resíduos ALA-ALA
xi
100 PFM obtido a partir da freqüência de contatos entre os resíduos GLU-GLU
101 PFM obtido a partir da freqüência de contatos entre os resíduos ILE-VAL presentes nas proteínas pertencentes aos conjunto 3, 4, 5 e controle. A normalização foi feita pelo critério 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
102 Comparação entre os critérios de normalização 1 e 2 no cálculo do PFM entre os
resíduos ALA–ALA presentes nas proteínas pertencentes ao conjunto controle.
146
103 Modelo do arquivo de informações criado após a conclusão do processamento
da ferramenta “Single protein properties”, para o cálculo da titulação ideal da
proteína β -lactoglobulina bovina (PDB: 1BEB). . . . . . . . . . . . . . . . . . 150
104 Ilustração do modelo MVC (Model View Control) utilizado no desenvolvimento
dos portais web. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
105 Organização do sistema em relação à origem da fonte de dados que serão processados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
106 Exemplo de um arquivo no formato PQR, mostrando o primeiro aminoácido de
uma proteína. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
107 Exemplo de um arquivo de configuração no formato sites. . . . . . . . . . . . . 189
108 Exemplo de um arquivo de configuração no formato st do aminoácido ácido
glutâmico (GLU). Neste exemplo utilizamos o campo de força AMBER99 para
prover as cargas e os raios de cada átomo. . . . . . . . . . . . . . . . . . . . . 189
109 Exemplo de um arquivo de configuração no formato mgm. . . . . . . . . . . . 190
110 Estrutura gerada pela classe PDBParser, obtida do tutorial do Biopython v.1.52. 193
111 Arquivos no formato st utilizando o campo de força GROMOS96, conforme
proposto pela referência (19). . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
112 Arquivos no formato st utilizando o campo de força AMBER99, conforme
113 Arquivos no formato st utilizando o campo de força AMBER99, conforme
xii
Lista de Tabelas
1
Valores de pKa ’s dos aminoácidos “isolados” obtidos experimentalmente a
temperatura de 25◦ C. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
2
Valores do raio, volume e peso molecular de cada aminoácido. . . . . . . . . .
41
3
Comparação entre os pI’s experimentais e os calculados pelo PROMETHEUS
no nível analítico. Os dados experimentais foram obtidos da referência (21). . .
4
95
Comparação entre os pontos isoelétricos experimentais e teóricos, com os calculados pelo PROMETHEUS no nível de predição analítico. . . . . . . . . . . 101
5
Comparação dos valores de pKa ’s da proteína lisozima em diversas concentrações de sal, alterando-se a constante dielétrica da proteína (ε p ). A última coluna
apresenta os pKa ’s obtidos pelo serviço H++ e a penúltima os pKa ’s experimentais. A temperatura e a constante dielétrica do solvente foram fixadas em
298,0 K e 80,0, respectivamente. Dados obtidos utilizando o campo de força
GROMOS96. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6
Comparação dos valores de pKa ’s da proteína lisozima em diversas concentrações de sal, alterando-se a constante dielétrica da proteína (ε p ). A última coluna
apresenta os pKa ’s obtidos pelo serviço H++ e a penúltima os pKa ’s experimentais. A temperatura e a constante dielétrica do solvente foram fixadas em 298,0
K e 80,0, respectivamente. Dados obtidos utilizando o campo de força AMBER99.103
7
Comparação dos valores de pKa ’s da proteína BPTI em diversas concentrações
de sal, alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta os pKa ’s obtidos pelo serviço H++ e a penúltima os pKa ’s experimentais.
A temperatura e a constante dielétrica do solvente foram fixadas em 298,0 K e
80,0, respectivamente. Dados obtidos utilizando o campo de força GROMOS96. 104
xiii
8
Comparação dos valores de pKa ’s da proteína BPTI em diversas concentrações
de sal, alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta os pKa ’s obtidos pelo serviço H++ e a penúltima os pKa ’s experimentais.
A temperatura e a constante dielétrica do solvente foram fixadas em 298,0 K e
80,0, respectivamente. Dados obtidos utilizando o campo de força AMBER99. . 105
9
Comparação dos valores de pKa ’s dos resíduos lisina presentes na proteína calbindina, alterando-se a constante dielétrica da proteína (ε p ). A última coluna
apresenta os pKa ’s medidos experimentalmente. A força iônica, a temperatura
e a constante dielétrica do solvente foram fixadas em 0,1M, 298,0K e 78,5, respectivamente. Dados obtidos utilizando o campo de força GROMOS96. . . . . 107
10
Comparação dos valores de pKa ’s dos resíduos ácido glutâmico presentes na
proteína calbindina, alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta os pKa ’s medidos experimentalmente. A força iônica, a
temperatura e a constante dielétrica do solvente foram fixadas em 1M, 298,0K
e 77,8, respectivamente. Dados obtidos utilizando o campo de força GROMOS96.108
11
Comparação dos valores de pKa ’s dos resíduos presentes na proteína ribonuclease A (PDB: 3RN3), em várias concentrações de sal, alterando-se a constante dielétrica da proteína (ε p ). A penúltima coluna apresenta os pKa ’s medidos experimentalmente e a última, os pKa ’s preditos pelo serviço web PCE. A
temperatura e a constante dielétrica do solvente foram fixadas em 298,0K e 80,
respectivamente. Dados obtidos utilizando o campo de força GROMOS96. . . . 109
12
Comparação dos valores de pKa ’s da proteína lisozima obtidos pelo serviço
H++ e PROMETHEUS alterando-se a constante dielétrica da proteína (ε p ). A
última coluna apresenta os pKa ’s medidos experimentalmente. Dados obtidos
utilizando o campo de força AMBER99. . . . . . . . . . . . . . . . . . . . . . 112
13
Comparação dos valores de pKa ’s da proteína BPTI obtidos pelo serviço H++ e
PROMETHEUS alterando-se a constante dielétrica da proteína (ε p ). A última
coluna apresenta os pKa ’s medidos experimentalmente. Dados obtidos utilizando o campo de força AMBER99. . . . . . . . . . . . . . . . . . . . . . . . 113
14
Comparação entre os pontos isoelétricos experimentais e os providos pelo
PROMETHEUS no nível de predição analítico e Poisson-Boltzmann. . . . . . . 120
xiv
15
Códigos PDBs dos complexos protéicos utilizados no cálculo da freqüência de
contato em função da distância de separação entre os resíduos de aminoácidos
presentes em cadeias distintas da proteína. . . . . . . . . . . . . . . . . . . . . 139
16
Relação dos conjuntos de proteínas e os respectivos erros encontrados em relação ao conjunto controle, exibidos na Tabela 15. . . . . . . . . . . . . . . . . . 147
17
Quantidade de cada resíduo presente nos conjuntos de proteínas exibidos na
Tabela 15. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
18
Comparativo entre o uso de banco de dados e arquivos texto a respeito da organização, armazenamento e recuperação de dados. . . . . . . . . . . . . . . . . 149
19
Comparação dos valores de pKa ’s da proteína lisozima (distribuído junto
com o pacote MEAD) e os providos pelo PROMETHEUS com o parâmetro
epsave_oldway. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
20
Comparação dos valores de pKa ’s da proteína lisozima, distribuído junto
com o pacote MEAD e os providos pelo PROMETHEUS sem o parâmetro
epsave_oldway. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
xv
Lista de Algoritmos
1
Pseudocódigo utilizado para realizar a normalização dos dados, pelo critério 1.
2
Pseudocódigo do algoritmo utilizado para realizar o cálculo do grau de disso-
p. 92
ciação de um próton (αi ) de um aminoácido i. . . . . . . . . . . . . . . . . . . p. 156
3
Pseudocódigo utilizado para calcular a carga líquida de uma proteína. . . . . . p. 156
xvi
Lista de abreviaturas e siglas
ATOM
Átomo. Campo pertencente ao arquivo no formato PDB que contém as coordenadas atômicas dos átomos presentes nos grupos de
aminoácidos padrões.
BPTI
Basic pancreatic trypsin inhibitor (inibidor da tripsina pancreática
básica).
Cr
Creighton.
DM
Dinâmica molecular.
EPB
Equação de Poisson-Boltzmann.
EPBL
Equação de Poisson-Boltzmann linear.
EPSIN
Constante dielétrica do soluto.
EPSSOL
Constante dielétrica do solvente.
FDR
Função de distribuição radial.
GNU
General public license (licença pública geral).
GRASP
Graphical representation and analysis of surface-properties (representação gráfica e análises das propriedades de superfície).
GROMACS Groningen machine for chemical simulations (máquina de Groningen para simulações químicas).
GROMOS
Groningen molecular simulation (simulação molecular de Groningen).
HETATM
Heteroátomo. Campo contido no arquivo no formato PDB que representa as coordenadas atômicas de átomos que não pertencem
aos grupos de aminoácidos padrões. Geralmente este campo é utilizado para moléculas de água, ligantes e outros átomos não pertencentes ao conjunto de aminoácidos padrão.
xvii
HTML
HyperText Markup Language (Linguagem de marcação de texto).
MA
Modelo atomístico.
MC
Monte Carlo.
MDC
Mapas de contato.
MEAD
Macroscopic electrostatics with atomic detail (eletrostática macroscópica com detalhes atomísticos).
MI
Métodos inversos.
MJ
Miyazawa e Jernigan.
MOLESA
Molecular structures analysis (análise de estruturas molecular).
MVC
Model view control (modelo visão controle).
NBO
Nível de Born-Oppenheimer.
NMM
Nível de McMillan-Mayer.
NMR
Nuclear magnetic resonance (ressonância magnética nuclear).
NS
Nível de Schrödinger.
NT
Nozaki e Tanford.
PB
Poisson-Boltzmann.
PDB
Protein data bank (banco de dados de proteínas).
PDBid
Código de identificação de uma proteína utilizado pelo PDB.
PFM
Potencial de força média.
PROMETHEUS Protein-Protein complexes by macroscopic electrostatic theories
and user-friendly simulations (complexos proteína-proteína por
teoria eletrostática macroscópica e simulações amigáveis).
RMSD
Root mean square deviation (desvio padrão).
xviii
Lista de símbolos
∆Gele
Variação da energia livre eletrostática de complexação (dada em
unidades de kB T).
αi
Grau de dissociação de um aminoácido i.
λ
Parâmetro de carregamento.
φ (r)
Potencial eletrostático em uma determinada posição r.
ρ(r)
Densidade de carga média na posição r.
σ
Distância mínima de separação entre duas proteínas.
ε0
Constante dielétrica do vácuo (ε0 = 8, 85.10−12C2 /Nm2 ).
εp
Constante dielétrica do interior da proteína.
εs
Constante dielétrica do solvente (para H2 O, εs = 77, 8, em T = 298
K).
◦C
Grau Celsius.
a
Coeficiente de atividade química.
B23
Segundo coeficiente cruzado de virial.
B23 (ele) Termo eletrostático do segundo coeficiente cruzado de virial.
B23 (er)
Termo repulsivo do segundo coeficiente cruzado de virial.
B2
Segundo coeficiente de virial.
Cideal
Capacitância ideal de uma proteína.
Caideal
Capacitância ideal de um aminoácido a.
CM px
Coordenada no eixo X do centro geométrico de uma proteína.
CM py
Coordenada no eixo Y do centro geométrico de uma proteína.
CM pz
Coordenada no eixo Z do centro geométrico de uma proteína.
d
Distância do átomo mais distante do centro geométrico da proteína
(em Ångström).
dr
Variação da distância de separação entre duas proteínas.
dx
Distância no eixo X em relação ao centro geométrico da proteína.
dy
Distância no eixo Y em relação ao centro geométrico da proteína.
dz
Distância no eixo Z em relação ao centro geométrico da proteína.
xix
e
Carga elementar (e=1,6.10−19C).
gi j (r)
Função de distribuição radial dos resíduos i e j.
gi j (r)∗ Freqüência de contatos entre os resíduos i e j na distância r (em
Ångström).
I
Força iônica do meio.
K
Constante de equilíbrio termodinâmica.
k
Inverso do comprimento de Debye.
Ka
Constante de equilíbrio termodinâmica de um aminoácido a.
kB
Constante de Boltzmann (kB = 1,381.10−23 JK −1 ).
L
Tamanho do lado da caixa de simulação utilizada para a resolução
da EPBL, utilizando o método das diferenças finitas.
lBox
Tamanho do lado de cada elemento cúbico da rede de simulação
utilizada para resolução da EPBL, utilizando o método das diferenças finitas.
lB
Comprimento de Bjerrum.
Nσ
Taxa empregada para o aumento da distância de separação entre
duas proteínas.
Na
Número de Avogadro (Na = 6, 02.1023 mol −1 ).
NBox
Quantidade de elementos cúbicos presentes na caixa de simulação
utilizada para resolução da EPBL, utilizando o método das diferenças finitas.
ni
Densidade de íons do tipo i por unidade de volume em uma dada
região do espaço.
n0i
Densidade de íons do tipo i por unidade de volume para o seio da
solução.
pH
Potencial hidrogeniônico.
pI
Ponto isoelétrico de uma molécula.
pK
Forma logarítma da constante de equilíbrio termodinâmica.
pKa
Forma logarítma da constante de equilíbrio termodinâmica de um
aminoácido da espécie a.
qi
Carga correspondente ao íon i.
r
Distância de separação entre duas proteínas (em Ångström).
r0
Próxima distância de separação entre duas proteínas.
ri
Raio da proteína i (em Ångström).
xx
RF
Distância máxima de separação entre duas proteínas.
T
Temperatura absoluta em Kelvin (K).
wi j (r) Potencial de força média em função da distância de separação r
entre os resíduos i e j.
z
Valência de um aminoácido.
zi
Valência de um aminoácido i.
Zi
Valência de uma proteína i.
xxi
Sumário
Resumo
i
Abstract
ii
Lista de figuras
iii
Lista de tabelas
xi
Lista de algoritmos
xiv
Lista de abreviaturas e siglas
xv
Lista de símbolos
xvii
1 INTRODUÇÃO E REVISÃO DA LITERATURA
1
1.1
Biocomputação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Ferramentas para Biologia Estrutural . . . . . . . . . . . . . . . . . . . . . . . .
3
1.2.1
Banco de dados de proteínas . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.2.2
Validação de estruturas de proteínas . . . . . . . . . . . . . . . . . . . . . . . .
3
1.2.3
Serviços disponíveis na web . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.3
A importância dos complexos protéicos . . . . . . . . . . . . . . . . . . . . . . .
7
1.4
Abordagem do problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.4.1
Estratégia 1: Propriedades eletrostáticas de proteínas . . . . . . . . . . . . . . .
12
1.4.2
Estratégia 2: Análise de propriedades estruturais para a construção de potenciais
1.4.3
estatísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
Combinando os resultados: Portais web para complexação de proteínas . . . . .
14
xxii
1.5
Sumário de nossas contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
2 OBJETIVOS
18
3 ASPECTOS IMPORTANTES SOBRE PROTEÍNAS
20
3.1
Aminoácidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.2
Ligações peptídicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.3
Estrutura primária de proteínas . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
3.4
Estrutura secundária de proteínas . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.5
Estrutura terciária de proteínas . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.6
Estrutura quaternária de proteínas . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.7
Métodos para determinação da estrutura tridimensional das proteínas . . . . . . .
23
4 TRABALHANDO COM INFORMAÇÕES BIOLÓGICAS IN SILICO
25
4.1
Níveis de detalhamento do modelo . . . . . . . . . . . . . . . . . . . . . . . . . .
25
4.2
Modelagem do sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
4.3
Solução do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
4.4
Equação de Poisson-Boltzmann . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
Método das diferenças finitas . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
4.5
Função de distribuição radial . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
4.6
Potencial de força média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
4.7
Campos de força . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
4.4.1
5 MATERIAL E MÉTODOS
34
5.1
Teoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
5.1.1
Equilíbrio ácido-base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
5.1.2
Cálculo de pKa ’s em proteínas . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
5.1.3
Cálculos das propriedades eletrostáticas em proteínas – preditor básico de
complexos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
xxiii
5.1.4
Nível de predição ideal (analítico) – Predição a partir da seqüência primária da
proteína . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.5
Nível de predição baseado na estrutura 3D da proteína – através da utilização da
EPBL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.6
5.2
43
Análise da freqüência de contatos entre os aminoácidos de complexos protéicos
do PDB e potencial estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
Infra-estrutura computacional . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
6 FERRAMENTAS COMPUTACIONAIS DESENVOLVIDAS
6.1
37
49
Estratégia 1: Desenvolvimento de um portal web que permite o estudo de
propriedades eletrostáticas em proteínas . . . . . . . . . . . . . . . . . . . . . . .
49
6.1.1
Cadastramento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
6.1.2
Propriedades dos aminoácidos isolados (Single amino acid properties) . . . . .
51
6.1.3
Propriedades de proteínas isoladas (Single protein properties) . . . . . . . . . .
53
6.1.4
Interação Proteína-Proteína (Protein-protein interaction) . . . . . . . . . . . . .
60
6.1.5
Ferramentas auxiliares desenvolvidas (Tools) . . . . . . . . . . . . . . . . . . .
70
6.2
6.2.1
Estratégia 2: Desenvolvimento de um portal web que permite a análise da freqüência de contatos entre os aminoácidos que formam um complexo protéico . . . . . .
85
Funcionamento do portal MOLESA . . . . . . . . . . . . . . . . . . . . . . . .
91
7 RESULTADOS
7.1
93
O portal PROMETHEUS - predição com base nas propriedades eletrostáticas das
proteínas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
93
7.1.1
Validação das propriedades eletrostáticas dos aminoácidos . . . . . . . . . . . .
94
7.1.2
Validação das propriedades eletrostáticas de proteínas . . . . . . . . . . . . . .
96
7.2
7.2.1
7.3
Interação proteína–proteína . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
Mecanismo de regulação de cargas . . . . . . . . . . . . . . . . . . . . . . . . 136
O portal MOLESA - análise estrutural de complexos de proteínas . . . . . . . . . 138
8 DISCUSSÃO
148
xxiv
8.1
8.1.1
8.2
8.2.1
Enfoque computacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
Análise da complexidade de algoritmos . . . . . . . . . . . . . . . . . . . . . . 156
Enfoque físico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
Critérios para a predição dos pKa ’s dos aminoácidos ionizáveis . . . . . . . . . 160
9 CONCLUSÃO E TRABALHOS FUTUROS
9.1
165
Perspectivas de Trabalho Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
REFERÊNCIAS
168
Apêndice A -- Avaliação dos serviços disponíveis na web
182
Apêndice B -- Descrição das principais classes desenvolvidas
184
Apêndice C -- Descrição dos programas auxiliares utilizados
187
C.1 MEAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
C.2 Biopython . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
C.3 GROMACS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
C.4 PDB2PQR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
Apêndice D -- Criação dos arquivos no formato st em função do campo de força
196
D.1 Arquivos no formato st criados com base no campo de força GROMOS96 v.53A6 . 196
D.2 Arquivos no formato st criados com base no campo de força AMBER99 . . . . . . 198
1
1
INTRODUÇÃO E REVISÃO DA
LITERATURA
1.1
Biocomputação
A enorme profusão de dados de seqüência e estruturais, gerados nas últimas décadas,
levaram a criação de um novo campo de investigação, o da Bioinformática, o qual é definido
genericamente como estando na interseção entre a Biotecnologia e a Ciência da Computação
(22).
Segundo a revista ERCIM News No. 43, de Outubro de 2000 (23), Biologia Computacional e Bioinformática são termos utilizados em um campo interdisciplinar unindo a informação tecnológica com a biológica, que por sua vez tem crescido rapidamente durante os últimos
anos. Este campo é localizado entre duas áreas: científica e tecnológica, no qual a Biologia
Computacional refere-se à parte mais científica desde campo, empregando as técnicas computacionais para a Biologia Molecular, enquanto que a Bioinformática é mais voltada à parte
de infra-estrutura computacional e análises estatísticas dos dados, embora na prática há uma
grande sobreposição entre suas atividades.
Combinando características dessas duas áreas afins, temos o que nós chamamos
de Biocomputação1 , que compreende ao desenvolvimento de aplicações computacionais
(softwares) aplicadas para o entendimento de sistemas biológicos, e que ofereçam facilidade
de uso de forma a dispensar o conhecimento profundo na área das ciências da computação para
a utilização das mesmas por um público externo, provendo ao mesmo tempo a infra-estrutura
necessária para que as operações realizadas em dados biológicos sejam executadas em larga
escala.
1 Entendemos
que o termo “Biocomputação” (24, 25) é mais abrangente do que “Bioinformática” [esse seria
uma subárea dentro da primeira, ao lado de Biologia de Sistemas (ou Sistêmica), Modelagem de Proteínas e Simulação computacional de moléculas biológicas (26, 27)]. Entretanto, por consistência com outros grupos de pesquisa
(veja, p.ex., http://www.pdb.org e http://www.cbi.cnptia.embrapa.br), ao nos referirmos ao
armazenamento, uso e manipulação de estruturas de proteínas, empregaremos o termo “Bioinformática Estrutural”.
De qualquer forma, por ambos, suportados pela definição de M. Gerstein (28) visamos o entendimento da Biologia
em termos de suas moléculas (no sentido da físico-química) e aplicando técnicas de “informática” (ou, mais geral,
de computação) para entender e organizar as informações associadas com estas moléculas, em larga-escala.
2
Dentro deste contexto de conceituação da Biocomputação, é notável que a utilização
de ferramentas computacionais nas diversas áreas do saber vem rapidamente crescendo, permitindo um amplo espectro de tarefas, desde as mais corriqueiras, como a otimização de processos,
a aceleração de cálculos e a armazenagem de um antes inimaginável conjunto de dados biológicos, a outras mais amplas, como novas possibilidades e perspectivas de abordagens científicas
e o tratamento em larga escala de sistemas biológicos tradicionalmente estudados em pequena
escala. O desenvolvimento da computação e sua inserção na solução de problemas físicos e
químicos biológicos exemplificam tal tendência (29–32), quer para um maior entendimento dos
mecanismos moleculares, quer auxiliando no planejamento de possíveis aplicações industriais,
ou ainda, procurando compreender e controlar a fronteira entre a saúde e a doença (26, 33–36).
Em um cenário pós-Genoma, onde um conjunto considerável de informações já se encontra disponível, a Biocomputação se torna ainda mais relevante, contribuindo com o auxílio
de diversas ferramentas, como o Sistema Gerenciador de Banco de Dados (SGBD) (37, 38),
linguagens de programação multi-plataformas (38–40), poder de processamento relativamente
alto a custos reduzidos, os quais possibilitam o armazenamento da informação biológica e, principalmente, um conjunto de diferentes e complementares formas de extração e manipulação
destes dados (41). Por exemplo, a partir de estruturas tridimensionais de macromoléculas depositadas no Banco de Dados de Proteínas (RCSB Protein Data Bank – PDB) (42), vários estudos
podem ser realizados (43–47), procurando-se melhor caracterizar um dos grandes paradigmas
da Biologia Molecular: correlacionar a estrutura com a função biológica (48).
Além de bancos de dados contendo informações sobre estruturas biológicas, sejam eles
de proteínas (49), DNA (50, 51), fármacos (52), e outros (53), há também diversas ferramentas
disponíveis gratuitamente à comunidade (54–57) que permitem a manipulação de estruturas
biológicas, dentre as quais destacamos o Biopython (58). Biopython2 é um conjunto de programas desenvolvidos em linguagem Python, para a Biologia Molecular, onde é possível, por
exemplo, criar estruturas de dados em Python a partir de informações biológicas contidas em
arquivos textos, como os disponibilizados pelo PDB e outros, e, então, manipular tais informações de maneira bastante simplificada, através do uso de métodos ou funções implementadas
pela ferramenta, tornando possível dessa forma a manipulação de estruturas biológicas, tanto
por profissionais não familiarizados com métodos e estruturas computacionais tradicionalmente
empregados para este fim, quanto pelos mais especialistas nesta área (engenheiros da computação/hardware, “bio-informatas”, analistas de sistemas e outras áreas afins), o que torna possível
expandir as funcionalidades providas por esta ferramenta conforme as necessidades das análises
que serão feitas.
2 Maiores
detalhes sobre o Biopython podem ser vistos no Apêndice C.
3
O trabalho aqui apresentado contempla tanto o uso de banco de dados para extração da
informação, como a geração de novos bancos de dados, além do desenvolvimento de diversas
ferramentas computacionais as quais permitem efetuar diferentes análises em complexos protéicos. As próximas seções apresentam uma descrição de algumas das ferramentas existentes
para o uso em Biologia Estrutural.
1.2
1.2.1
Ferramentas para Biologia Estrutural
Banco de dados de proteínas
Dentre os diversos bancos de dados de estruturas e informações biológicas disponíveis
na web, como SCOP (59), STING (60) e outros (61), focamos no banco de dados de proteínas
de Brookhaven (PDB), por ser este uma grande fonte de informações a respeito de estruturas
de proteínas bem como o ponto de partida inicial escolhido para a realização das análises que
serão desenvolvidas neste trabalho as quais estarão disponíveis gratuitamente à comunidade.
Criado em 1971 pelo Laboratório Nacional de Brookhaven, o PDB, hoje mantido pelo
Research Collaboratory for Structural Bioinformatics (RCSB), armazena estruturas de macromoléculas biológicas (42), obtidas por técnicas experimentais (NMR e Cristalografia de raios
X). Além das coordenadas espaciais de cada átomo da proteína, aí estão disponíveis, para extração, dados como a identificação dos resíduos de contato, caracterização da área superficial, o
número de pontes de hidrogênio e de contatos de van der Waals, a magnitude de mudanças conformacionais associadas com a formação de complexos, etc (62). Entretanto, continua sendo
difícil de se prever experimentalmente as conseqüências estruturais e funcionais da substituição
de aminoácidos específicos assim como as próprias condições necessárias para a obtenção dos
cristais (63) utilizados no processo de obtenção da estrutura tridimensional de uma proteína.
1.2.2
Validação de estruturas de proteínas
Apesar do conjunto de testes que são realizados nos dados antes dos mesmos serem
depositados no PDB (42, 62), estes ainda não estão livres de incertezas e problemas (64). A
maioria das estruturas tridimensionais de proteínas atualmente conhecidas são obtidas por técnicas de cristalografia de raios X ou ressonância nuclear magnética, e, como todo experimento,
estão sujeitos a erros (65).
Conseqüentemente, informações adicionais são necessárias para permitir a validação
e o refinamento das estruturas (66). Branden e Jones (64) efetuaram uma rigorosa busca por
4
proteínas que tiveram sua estrutura resolvida por cristalografia de raios X e verificaram que
os resultados podem conter alguns erros os quais são difíceis de identificar (67). É tarefa do
cristalógrafo se certificar que estruturas de proteínas incorretas não sejam disponibilizadas na
literatura (68). Além dos erros intrínsecos, arquivos PDB podem conter átomos faltantes e/ou
duplicados, aminoácidos desconhecidos, etc. Por esta razão é necessário o tratamento (testes de
qualidade e consistência, como os realizados pelo WHATIF (64, 68, 69) e outros) dos arquivos
advindos do PDB, garantindo assim que as análises posteriores, por exemplo, os potenciais
estatísticos e outros resultados gerados, como, por exemplo, o estudo das propriedades eletrostáticas de proteínas, sejam confiáveis.
1.2.3
Serviços disponíveis na web
Devido ao alto grau de complexidade do desenvolvimento de programas computacio-
nais, principalmente envolvendo sistemas biológicos onde a generalização de um caso muitas
vezes não atende todos os requisitos de outro sistema, e a grande heterogeneidade de profissionais (físicos, químicos, biólogos, engenheiros, analistas de sistemas, farmacêuticos, etc.)
interessados em estudar sistemas biológicos in silico, muitos grupos têm disponibilizado, através de servidores web (web sites), ferramentas e/ou serviços que proporcionam, ainda que de
maneira limitada, o estudo de biomoléculas. Neste cenário, o usuário pode escolher o sistema
de interesse e a metodologia de estudo (nível de detalhamento do modelo, quais fatores –
temperatura do sistema, concentração do soluto, concentração do solvente, íons livres na solução, etc. – serão considerados, entre outras configurações e/ou possibilidades) e simplesmente
aguardar uma resposta (arquivo texto, texto no formato HTML3 , e-mail, etc.) do programa
(portal, web site) a qual deverá ser cuidadosamente analisada.
A maioria dos serviços web e programas de computador atualmente disponíveis é
desenvolvida valendo-se dos conhecimentos advindos da Física, como o cálculo de distância,
velocidade, massa, carga, pH, etc. A escolha do modelo normalmente está relacionada com os
recursos computacionais disponíveis, o que se deseja medir e em qual tempo. Por exemplo, podemos desenvolver programas que computam o sistema no seu nível máximo de detalhamento
(quântico), onde as posições de todas as partículas (prótons, elétrons, etc.) são calculadas, ou
seja, tem-se um sistema que opera em nível quântico ou, podemos desenvolver ferramentas que
trabalham com um modelo mais simplificado, por exemplo, considerando apenas a seqüência
primária de uma proteína, sem se importar com sua estrutura 3D. A escolha do modelo também
está intimamente relacionada com um compromisso entre o poder computacional disponível, o
3 HTML
(HyperText Markup Language) é uma linguagem de marcação utilizada para produzir páginas na web.
5
tempo de resposta esperado e o tamanho do problema (sistema de interesse).
Com o intuito de exemplificar e ao mesmo tempo familiarizar o leitor com as soluções já existentes, exploraremos algumas ferramentas atualmente disponíveis na web. Tais
ferramentas são responsáveis por: validação de estrutura, adição de átomos ausentes, cálculos
de propriedades eletrostáticas em proteínas e outros.
1. PDB2PQR (70, 71):
Disponível em:
http://pdb2pqr-1.wustl.edu/
pdb2pqr/ ou em http://nbcr.net/pdb2pqr/, é um programa desenvolvido em
linguagem Python que converte um arquivo originalmente no formato PDB para um arquivo no formato PQR4 . A ferramenta realiza as seguintes tarefas:
• Adição de um número limitado de átomos que não estão presentes no modelo;
• Determinação dos pKa ’s5 dos resíduos de aminoácidos, utilizando o programa
PROPKA (72, 73);
• Adição de átomos de hidrogênio6 ;
• Otimização das ligações de hidrogênio favoráveis7 ;
• Provê as cargas e os raios para os átomos a partir do campo de força8 escolhido.
2. H++
(20):
Disponível
em
http://biophysics.cs.vt.edu/H++/
hppdetails.php, é um programa que calcula os valores de pKa ’s de grupos de
aminoácidos ionizáveis presentes em macromoléculas e acrescenta átomos de hidrogênio
que não estão presentes na estrutura. O H++ recebe como entrada um arquivo no formato
PDB e retorna como saída arquivos nos formatos PDB, PQR e AMBER (74, 75). Ao
submeter uma estrutura no formato PDB, o H++ realiza as seguintes tarefas:
• Remoção de todos os campos HETATM9 presentes no arquivo no formato PDB;
• Remoção de todas as moléculas de água e contra-íons;
4 Arquivo
contendo as coordenadas, raio e carga para cada átomo presente no arquivo PDB. É largamente
empregado em pacotes de simulação de propriedades eletrostáticas de proteínas.
5 pK: constante de ligação/equilíbrio termodinâmica. Propriedade que pode ser utilizada para analisar vários
comportamentos em sistemas biomoleculares.
6 Átomos de hidrogênio, pertencentes aos aminoácidos, geralmente não são identificados nas estruturas das
proteínas resolvidas por cristalografia de raios X devido a limitações da técnica. Uma das necessidades de se obter
os átomos de hidrogênio é determinar valores, mais próximos aos dados experimentais, para o volume e o raio de
proteína, visto que quase 50% dos átomos de uma proteína são átomos de hidrogênio.
7 A otimização da ligação é feita buscando um mínimo de energia para o sistema.
8 Apresentamos a definição e o uso de campo de força na Seção 4.7 - Campos de força.
9 Campo contido no arquivo no formato PDB que representa as coordenadas atômicas de átomos que não pertencem aos grupos de aminoácidos padrões. Geralmente este campo é utilizado para moléculas de água, ligantes e
outros átomos não pertencentes ao conjunto de aminoácidos padrão.
6
• Verificação da seqüência de átomos e configuração do nome dos átomos para o
padrão utilizado pelo pacote AMBER99 (74, 76);
• Adição de átomos de hidrogênio e otimização de suas ligações;
• Padronização dos raios dos átomos;
• Cálculos eletrostáticos através da utilização do pacote MEAD (77);
• Cálculo da curva de titulação de cada aminoácido ionizável;
• Adição ou remoção de prótons, na estrutura da proteína, de acordo com os pKa ’s
calculados.
• Minimização de energia da estrutura da proteína em um dado pH utilizando o campo
de força AMBER99.
3. WHATIF (69): Disponível em: http://swift.cmbi.ru.nl/servers/html/
index.html, é um pacote de programas desenvolvido em linguagem FORTRAN 77
para modelagem molecular especializado para trabalhar com proteínas; seu desenvolvimento teve início em 1987 e prossegue até a presente data. WHATIF provê um ambiente
flexível para visualizar, manipular e analisar pequenas moléculas também. Neste contexto
é possível efetuar: comparação de moléculas de proteínas com base em sua estrutura 3D,
visualizar mapas de densidade eletrônica de estruturas de proteínas, efetuar mutações na
seqüência de aminoácidos da proteína, análise e predição de átomos de hidrogênio, etc.
4. RosettaDock (78): Disponível em http://rosettadock.graylab.jhu.edu/,
é um pacote de programas desenvolvido em linguagem C++ para predição e modelagem
(design) de estruturas de proteínas, mecanismos de enovelamento (folding) de proteína e
interações proteína-proteína.
5. PCE (79): Disponível em: http://bioserv.rpbs.jussieu.fr/Help/PCE.
html, é uma interface web para o programa MEAD. Os serviços disponíveis são: PCEpot e PCE-pKa, os quais, respectivamente realizam as seguintes tarefas:
• Cálculo do potencial eletrostático de uma proteína em função de condições experimentais, resolvendo numericamente a equação de Poisson-Boltzmann10 . O programa recebe como entrada um arquivo no formato PDB, para o qual é gerado um
arquivo no formato PQR utilizando o campo de força PARSE (83, 84), ou um arquivo no formato PQR. O programa retorna como resultado imagens que representam graficamente o potencial eletrostático na superfície da molécula em estudo.
10 Maiores
detalhes sobre a equação de Poisson-Boltzmann (80–82) serão abordados ao longo deste trabalho.
7
• Cálculo dos valores de pKa ’s dos aminoácidos ionizáveis da proteína. O programa
recebe como entrada um arquivo no formato PDB e fornece a resposta em uma
página HTML.
Outros serviços web podem ser encontrados na literatura (52, 60, 85–88).
Nossa primeira contribuição será no sentido de complementar estas ferramentas, através da construção de portais web que auxiliem na predição da complexação de proteínas. Propomos, além do fornecimento de propriedades disponíveis em outros serviços, a possibilidade
de efetuar um estudo das propriedades eletrostáticas em proteínas, através de um preditor inicial
de complexos protéicos, chamado PROMETHEUS (esta será a primeira frente do trabalho), em
diversas condições e níveis preditivos. No futuro, a ferramenta também permitirá:
• Geração de peptídeos derivados de uma dada seqüência, combinando diferentes quantidades de aminoácidos e fazendo mutações entre os resíduos, para classificação dos mais
adequados à complexação com proteínas-alvo.
• Acoplamento a outros serviços, como o MHOLline (89, 90), utilizado para predição de
estrutura de proteínas.
Além disso, os dados presentes em nossa base de dados serão disponibilizados gratuitamente à comunidade onde, a partir dos mesmos, vários estudos podem ser realizados, e com o
benefício que as estruturas de proteínas presentes na nossa base de dados já estarem validadas.
1.3
A importância dos complexos protéicos
Interações proteína-proteína são de grande interesse na indústria farmacêutica, alimen-
tos, biotecnologia, processos de biosseparação, purificação de proteínas, micro-encapsulação,
biomateriais, etc. (91–93). Além disso, complexos protéicos estão envolvidos na maioria dos
processos biológicos, como por exemplo, catálise enzimática, transporte de substâncias (94) e
doenças como Alzheimer, Parkinson, Diabetes tipo II, Anemia Falciforme e outros (92, 93, 95),
o que torna o entendimento racional dessas interações um tema de grande interesse, sendo explorado pelas mais diversas áreas do conhecimento, como a Física, Bioquímica, Biologia, etc.
Neste trabalho, nós buscamos o entendimento, em termos físicos, das interações envolvidas no processo de complexação protéica e a predição de complexos envolvendo proteínas,
visando, dessa forma, auxiliar o avanço na compreensão de sistemas biológicos, através da
quantificação das forças envolvidas no processo de complexação.
8
Através da análise das propriedades termodinâmicas das proteínas11 como, por
exemplo, ponto isoelétrico (pI), energia livre, segundo coeficiente cruzado de virial (B23 )12
e outros, visamos contribuir para o progresso nas seguintes áreas e suas correlações:
• Determinação da estrutura protéica: A cristalização de uma proteína em solução é o
passo inicial para a determinação de sua estrutura utilizando difração por raios-X13 (96).
Entretando a obtenção de um cristal de alta qualidade é um dos passos mais difíceis e que
consome o maior tempo no processo de determinação da estrutura da proteína, uma vez
que a condição de cristalização depende de um grande número de parâmetros e condições
experimentais (97).
Estudos demonstram que o segundo coeficiente de virial B2 (e conseqüêntemente o segundo coeficiente cruzado de virial - B23 ) está intimamente relacionado com a cristalização protéica, uma vez que valores negativos deste indicam atração entre as proteínas, o
que é pré-condição para a cristalização (18, 98, 99).
A utilização de um preditor básico de complexação a partir da seqüência linear dos aminoácidos, como disponível no PROMETHEUS, auxilia na determinação das possíveis
condições físico-químicas, nas quais poderiam ocorrer a cristalização das proteínas (janelas de cristalização). Dependendo da qualidade dos resultados que o usuário deseja
obter, esses testes podem ser realizados em larga escala para um grande conjunto de
proteínas em diversas condições experimentais, proporcionando dessa forma a obtenção
das pré-condições físico-químicas iniciais para a determinação experimental da estrutura
protéica.
• Indústrias de alimentos: Produtos alimentícios são compostos por uma grande diversidade de ingredientes como proteínas e polissacarídeos (91, 100). As interações entre estas
macromoléculas desempenham um papel importante na estrutura e estabilidades destes
produtos. Controlar ou manipular estas interações macromoleculares é o fator chave para
o desenvolvimento de novos processos e produtos na indústria de alimentos (91). Predizer
estas interações facilita tal tarefa.
• Indústrias farmacêucias: A habilidade das proteínas se dissolverem em solução aquosa
é uma importante propriedade. Esta habilidade é medida pela solubilidade da proteína, a
11 Esta
abordagem é realizada pelas ferramentas computacionais desenvolvidas e acopladas ao portal
PROMETHEUS, o qual permite o estudo e a predição de complexos protéicos com base nas propriedades eletrostáticas das proteínas, em diversos níveis preditivos.
12 Esta expressão é derivada do coeficiente de virial para medir a pressão osmótica de uma solução. B mede a
23
energia de interação de dois corpos. Uma abordagem mais detalhada sobre o B23 é exibida na Seção 5 - Material
e métodos.
13 As técnicas utilizadas na determinação da estrutura tridimensional das proteínas são abordadas na Seção 3.7 Métodos para determinação da estrutura tridimensional das proteínas.
9
qual possui grande importância no processo de purificação de proteínas e sérias implicações em muitas doenças associadas com a agregação protéica (92, 93). A solubilidade da
proteína é mínima ao redor do pI (101), e seu estudo é de grande interesse na indústria
farmacêutica na busca por novos fármacos e proteínas recombinantes para o tratamento
destas doenças (Alzheimer, Parkinson, etc.). A solubilidade de uma proteína depende de
sua carga14 e dos estados de ionização15 (102) dos resíduos ionizáveis que a constituem.
O portal PROMETHEUS permite o estudo das propriedades eletrostáticas das proteínas
em diversas condições experimentais (informadas pelo usuário) e níveis de predição, possibilitando que diversas análises computacionais sejam realizadas com o objetivo de se
obter os melhores ligantes para uma proteína e/ou complexo protéico.
O processo de purificação de proteínas, por precipitação induzida por sal, tem sido largamente empregada na indústria para separar proteínas como, por exemplo, proteínas do
plasma do sangue (103), proteínas de extratos vegetais (104) e de bactérias (105). Entretanto a obtenção da condição de solubilidade não é trivial, pois depende de uma série de
fatores como, pH, distribuição de cargas na proteína, concentração de sal e temperatura.
Testar cada uma destas configurações experimentalmente é uma tarefa que consome muito
tempo e possui alto custo. A gama de possibilidades pode ser reduzida através da utilização de um preditor, que seja capaz de identificar (em tempo hábil) quais são as melhores
condições físico-químicas para a precipitação protéica.
1.4
Abordagem do problema
Apesar do conhecimento bem estabelecido que se dispõe das principais forças físicas
da natureza (106), a quantificação da contribuição de cada uma destas interações envolvidas
nos mecanismos moleculares responsáveis pela formação de um complexo proteína-proteína
ainda é um problema não resolvido (27). A situação é equivalente a se conhecer os elementos
constituintes do processo de complexação, porém, não é possivel quantificar particularmente
cada elemento diretamente, ou seja, obter a Hamiltoniana exata do sistema. De forma análoga,
não se conseguiu ainda quantificar a exata contribuição destas interações no processo conhecido
como folding de proteínas (ou “enovelamento” protéico), onde se procura obter (e entender os
mecanismos) uma estrutura espacial (tridimensional) de uma proteína (forma nativa) a partir
da seqüência primária (sem muitas aplicações práticas) dos elementos que a constituem (seus
14 A
abordagem teórica sobre a origem das cargas em proteínas é exibida na Seção 5.1.1 - Equilíbrio ácido-base.
estados de ionização são determinados através do estudo da diferença dos valores de pKa ’s, dos resíduos
ionizáveis, entre a estrutura terciária e primária da proteína. Detalhes sobre a determinação dos valores de pKa ’s
dos resíduos iniozáveis são mostrados na Seção 5.1.2 - Cálculo de pKa ’s em proteínas.
15 Os
10
aminoácidos). Em ambos os problemas (folding e complexação), as mesmas interações físicas
estão presentes, e há a necessidade de se quantificar a participação de cada uma delas para o
completo entendimento dos mecanismos moleculares (107), visando desvendar as interações
físicas e manipular racionalmente os eventos biológicos.
Duas principais tendências de investigação teórica normalmente são empregadas com
o intuito de se elucidar estes processos: (a) tendência mais física, e (b) tendência mais computacional. Na primeira, assume-se um modelo para o sistema (onde se define as interações físicas
que se acredita serem as mais relevantes para o processo e estas são posteriormente analisadas)
e resolve-se este modelo através de simulações computacionais, calculando-se as propriedades
estruturais, dinâmicas e termodinâmicas de interesse. O modelo é aferido através de comparações com observações experimentais e/ou previsões por outras teorias16 . Na outra abordagem,
mais computacional, procura-se valer de informações experimentais disponíveis para descrever, analisar estatisticamente e eventualmente até mesmo prever o comportamento do sistema,
mesmo que não se desvende a “física” do problema. O folding de proteínas e a predição de
estruturas podem ser citados como exemplos clássicos, respectivamente, de cada uma destas
duas abordagens, assim como o entendimento do fenômeno da complexação e a mera predição
da complexação (aqui, sem se importar com as causas).
Por outro lado, os chamados métodos inversos (MI) (108, 109) permitem combinar
ambas as tendências, possibilitando inclusive a obtenção de Hamiltonianas efetivas (modelos)
(110, 111) a partir de dados experimentais. Para os sistemas com proteínas, o PDB é a principal
fonte de informações “experimentais” estruturais. Entretanto, além das dificuldades intrínsecas
dos MI, encontramos outras adicionais, por exemplo, a determinação de quais informações extraídas das estruturas protéicas são relevantes e precisam ser empregadas, visto que, moléculas
de solvente (água) e até mesmo a posição do aminoácido na cadeia podem interferir diretamente
no processo, pois podem alterar as propriedades físico-químicas do sistema (p.ex. a carga total
de uma proteína é uma função do meio e de sua própria conformação).
Miyazawa e Jernigan (MJ) (112) estabeleceram a possibilidade de se extrair potenciais
efetivos (chamados de “estatísticos” ou “baseados em conhecimento”) de interação a partir de
análises de estruturas de proteínas disponíveis no PDB. Desde então, diversos trabalhos, principalmente direcionados para o problema de enovelamento (folding) de proteínas, seguiram esta
linha (43, 44, 46, 113–115). Apesar de algumas críticas serem também reportadas (116, 117),
acreditamos que “pistas” podem ser encontradas na análise destes potenciais estatísticos, especialmente quando associadas a comparações com resultados obtidos por simulações moleculares
16 Esta
é a linha que adotamos na primeira parte do trabalho (construção de um portal web, chamado
PROMETHEUS, para predição de complexos protéicos com base nas propriedades eletrostáticas das proteínas).
11
com modelos baseados em interações intermoleculares pré-determinadas (14, 107). Através
destas comparações, espera-se obter informações sobre as interações relacionadas com o mecanismo molecular.
Assim, como segunda frente do trabalho, combinando a idéia de MJ com a proposta
dos MI, propomos, com o auxílio de ferramentas computacionais desenvolvidas in house, gerar
novos conhecimentos que possam contribuir para a predição da complexação entre proteínas
a partir da análise das estruturas tridimensionais de complexos protéicos disponíveis no PDB,
objetivando estabelecer relações entre estas com os potenciais de interação conhecidos. Isso
permitirá discutir os aspectos físicos do problema e contribuir no desenvolvimento futuro de
algoritmos para a previsão da complexação. Vários parâmetros podem ser empregados para
esta tarefa (definição da interface entre duas ou mais moléculas, determinação de composição
das interfaces com respeito à ocorrência de aminoácidos, definição dos resíduos em contato
na interface e suas preferências na formação de pares, contatos eletrostáticos na interface das
macromoléculas, pontes de hidrogênio, dentre outros), os quais, quando cuidadosamente coletados e analisados oferecem um guia para o caminho do entendimento dos “ingredientes” cruciais
que definem as interações determinantes da função biológica destes sistemas biomoleculares.
Concentraremos nossa atenção no estudo da freqüência de contato em função da distância de
separação entre os aminoácidos de proteínas envolvidas em complexos moleculares. Destas
análises, diferentes mapas de contato (MDC) poderão ser construídos, assim como potencias
de força média (PFM). Os MDC poderão ser comparados com outros existentes na literatura
para interações intra-cadeia, enquanto que os PFM serão confrontados com resultados obtidos
de simulações Monte Carlo com proteínas específicas, onde podemos ligar/desligar diferentes contribuições na Hamiltoniana do sistema. Assim, poderemos determinar qual a interação
predominante em cada situação e regime. A partir da identificação e quantificação das forças
físicas envolvidas no processo de complexação, poderemos entender os mecanismos que guiam
as proteínas durante a formação do complexo e, portanto, poderemos prever a formação de um
complexo.
O sucesso de abordagens deste gênero está intimamente relacionado com a escolha de
propriedades físicas e estruturais que tenham alguma relevância estatística para permitir que
o método não seja tão custoso computacionalmente, nem limitado a pequenas moléculas, ou
a grupos específicos de moléculas. É exatamente na escolha de quais propriedades serão empregadas que encontramos a maior dificuldade na realização desta tarefa dentro de um custo
computacional razoável. Por esta razão, num primeiro momento do presente trabalho, desejamos analisar sistematicamente os bancos de dados de proteínas em busca destas, procurando
encontrar “padrões”, os quais possam ser utilizados de maneira racional na redução do espaço
12
de suas possibilidades.
Entender as interações fundamentais que ocorrem na associação de proteínas é o passo
inicial para que possamos compreender a formação e estabilidade de complexos moleculares,
e a partir daí podermos manipular, de forma racional, os eventos naturais biológicos, seja no
desenvolvimento de novos fármacos, ligantes e/ou inibidores (118).
1.4.1
Estratégia 1: Propriedades eletrostáticas de proteínas
As macromoléculas biológicas contêm grupos de aminoácidos ionizáveis que fazem
com que sua carga líquida varie em função das condições da solução (107). A carga de uma
proteína é obtida em função dos aminoácidos ionizáveis, o que, teoricamente, por sua vez pode
ser predito através da análise de pKa ’s (2). Essa carga varia com o pH e outras condições
da solução (5, 119), além de ser dependente do arranjo tridimensional de cargas da estrutura
terciária. Prótons e sal têm uma forte influência sobre a estabilidade, estrutura e função da
maioria das proteínas (120). O rompimento (desnaturação, por exemplo) da estrutura nativa de
proteínas globulares em pH ácido ou básico é um grande exemplo desta influência. Sal e pH
são usados como variáveis experimentais para prover cargas em proteínas ou para caracterizar
sistemas que são regulados pela força iônica do meio (119). Porém, o estado protonado de
uma proteína não depende somente do pH, mas também da influência de moléculas vizinhas. O
potencial eletrostático gerado por moléculas vizinhas carregadas afeta o equilíbrio ácido-base
dos grupos ionizáveis (46, 107, 121).
Conseqüentemente, vários softwares para rápida predição e visualização das
propriedades eletrostáticas foram desenvolvidos como, por exemplo, MEAD (77, 122), DelPhi
(123), GRASP (124, 125) e UHBD (126), os quais complementam os demais pacotes para a modelagem molecular, como os empregados para caracterização de propriedades dinâmicas (127),
predição de estrutura, predição do sítio ativo da proteína e afinidade com o ligante (docking) e
outros (30, 57, 65, 69, 70, 78).
Neste trabalho, empregamos o pacote MEAD v.2.2.7, que efetua o cálculo de
propriedades eletrostáticas de proteínas em função das posições dos aminoácidos ionizáveies
presentes na estrutura da proteína, complementando e sofisticando os cálculos baseados na
seqüência primária.
13
1.4.2
Estratégia 2: Análise de propriedades estruturais para a construção
de potenciais estatísticos
Nas últimas décadas um grande número de proteínas foram descobertas, mas ainda
não há métodos perfeitos disponíveis para prever a estrutura tridimensional da proteína a partir
de sua seqüência primária de aminoácidos. Dessa mesma forma, por ser ainda mais complexo,
ainda não há também um método preciso para elucidar a complexação entre proteínas.
A energia de interação entre resíduos de aminoácidos depende de sua natureza química,
condições da solução e da distância de separação entre eles. As funções e parâmetros para os
potenciais de interação estatístico são obtidas em função da distância de separação entre pares
de resíduos, cuja principal fonte de informação é o banco de dados de estruturas de proteína,
PDB (42).
Potenciais estatísticos são energias obtidas a partir da freqüência de pares entre átomos,
grupos de átomos ou resíduos de aminoácidos, extraídos a partir de estruturas de proteínas
conhecidas. A idéia foi inicialmente proposta por Tanaka e Scheraga (128) e aprimorada por
Miyazawa e Jernigan (112), e, deste então, tem sido largamente empregada no problema do
folding (44, 129) e mais recentemente em complexação de proteínas (130–132).
A partir dos potenciais estatísticos e com o auxílio dos métodos inversos, podemos
determinar funções que descrevem e quantifiquem as energias de interação do complexo, comumente expressa através de potencial de força média. Logo, para exemplificar, supomos um
modelo idealizado composto por um grande número de resíduos, formados pelos 20 aminoácidos naturais, distribuídos de alguma forma em um determinado espaço. A freqüência de
contatos entre dois aminoácidos i e j em função da distância de separação r, pode ser descrita
como:
gi j (r)∗ =
ρi j (r)
f (r)
(1.1)
onde ρi j é o número de contatos entre os resíduos i e j encontrados na distância r; e f (r) é
o número de contatos entre todos os resíduos encontrados na distância r. A observação das
freqüências de pares é transformada, valendo-se da relação de Boltzmann, em potenciais de
força média17 de interação em função da distância de separação entre os resíduos presentes em
cada proteína que forma o complexo.
A partir de estruturas de proteínas depositadas no PDB, é possível extrair a freqüência
17 Uma
descrição mais detalhada sobre os potenciais de força média será abordada na Seção 4.6 – Potencial de
força média.
14
de contato de seus resíduos e, então, calcular a energia livre de interação entre as mesmas.
Pode-se perceber que os potenciais estatísticos contêm o conhecimento adquirido sobre as estruturas de proteínas armazenadas no PDB. Apesar disso, somente com a análise dos
potenciais estatísticos, não é possível quantificar as forças físicas e a contribuição entrópica envolvidas na interação entre os resíduos, bem como a importância de cada uma delas no processo
de complexação. Visando minimizar esse déficit propomos abordar este problema de duas formas complementares. Por um lado, buscaremos os potenciais estatísticos através das citadas
análises computacionais no PDB. Por outro, iniciando por um preditor básico de complexação,
baseado em termos ideais do equilíbrio ácido-base dos resíduos ionizáveis, exploramos o fenômeno da complexação sob uma ótica física. O nível de predição deste tratamento é melhorado
com a incorporação de soluções numéricas da Equação de Poisson-Boltzmann em substituição
aos termos ideais. Desta maneira, outras interações poderão ser incorporadas em níveis mais
sofisticados (e caros computacionalmente) de tratamento do sistema.
1.4.3
Combinando os resultados: Portais web para complexação de proteínas
Combinaremos os trabalhos das duas estratégias acima apresentadas através de portais
web. Propomos o desenvolvimento de portais onde nossos resultados finais de ambas as frentes
de trabalho (preditor de complexo protéico e potenciais estatísticos) estarão sendo disponibilizados, gratuitamente, a comunidade, através de um servidor web, o qual permitirá consultas
por proteínas e/ou grupo de proteínas, podendo ser facilmente manipulada de forma rápida e
prática, por usuários não familiarizados com as técnicas numéricas rotineiramente empregadas.
Esta plataforma agregará nossos principais resultados e terá flexibilidade para se relacionar com
outras bases de dados e ferramentas web existentes.
Os portais são constituídos por diversas ferramentas computacionais, desenvolvidas
por outros grupos e por nós (in house), as quais permitem o estudo da formação de complexos
protéicos através dos dois segmentos propostos: análise dos potenciais estatísticos, e o preditor
básico de complexação, que podem ser utilizados tanto individualmente quanto complementarmente, atuando desta forma, futuramente, como uma referência chave ao estudo da complexação de proteínas. Esses portais são caracterizados por sua simplicidade de uso e rápido retorno
ao usuário, apresentando uma estimativa de comportamento do sistema. A Figura 1 exibe a
organização esquemática dos portais propostos neste trabalho.
Pelo fato desta área contar com profissionais de diversos campos do saber, os portais
serão projetados (modelados) de forma a funcionar como módulos independentes proporcio-
15
Figura 1: Diagrama esquemático dos portais desenvolvidos. O nível de detalhamento do sistema, precisão e
custo computacional aumenta conforme passamos do nível 0 para o 2. O arquivo PQR contém a carga e o raio de
cada átomo presente na proteína, o qual é utilizado em simulações PB (MEAD) e MC. Elementos em cinza
indicam as ferramentas que serão implementadas no futuro.
nando assim grande possibilidade de expansão, de forma a prover novas funcionalidades conforme necessidade futura. Tais módulos estarão, a princípio, intimamente relacionados com
nossa base de dados, mas não dependente da mesma. Todo o sistema tem a web como interface
gráfica, a qual será nossa principal fonte de divulgação (133, 134).
Da mesma maneira que há uma grande diversidade de profissionais nesta área, há também diversas formas de estudo das propriedades de sistemas biomoleculares. Neste intuito os
portais terão a capacidade de interagir com outras bases de dados e/ou serviços web existentes,
bem como compartilhar nossos conhecimentos (base de dados, ferramentas computacionais,
etc.) com outros grupos e/ou aplicações, proporcionando assim que novas análises sejam feitas
sobre o mesmo conjunto de dados. A Figura 2 ilustra a estrutura de funcionamento básico dos
portais. Novas ferramentas serão gradativamente agregadas aos portais propostos neste projeto,
conservando sua característica primordial, isto é, a facilidade de uso e portabilidade.
16
Figura 2: Ilustração esquemática de funcionamento dos portais web propostos neste trabalho.
1.5
Sumário de nossas contribuições
Nossas contribuições podem ser divididas em duas partes: 1) física e 2) computacional,
descritas a seguir:
1. Física:
• Cálculo das propriedades eletrostáticas de aminoácidos e proteínas com base na
seqüência primária e estrutura tridimensional;
• Desenvolvimento de preditores iniciais de complexação com base nas propriedades
termodinâmicas das proteínas, em dois níveis preditivos: analítico (baseado na
seqüência primária) e PB (baseado na estrutura 3D);
• Discussão da influência de parâmetros (campo de força, constante dielétrica do interior da proteína), protocolo de cálculo e condições físico-químicas na predição de
complexos e propriedades eletrostáticas das proteínas;
• Discussão do mecanismo de regulação de cargas na formação de complexos protéicos;
• Contagem da freqüência de contatos entre os aminoácidos presentes em complexos
protéicos.
17
2. Computacional:
• Emprego de ferramentas auxiliares e pacotes de simulação como instrumentos auxiliares nos cálculos aqui discutidos;
• Desenvolvimento de ferramentas computacionais para manipulação de estrutura de
proteínas, cálculos das propriedades eletrostáticas de e entre proteínas e análises
estruturais;
• Desenvolvimento de banco de dados para armazenar estruturas e propriedades eletrostáticas de proteínas, freqüência de contatos entre os aminoácidos presentes em
complexos de proteínas, etc.;
• Desenvolvimento dos portais web, PROMETHEUS e MOLESA, os quais oferecem
uma interface para as ferramentas desenvolvidas e outras disponibilizadas na literatura;
• Implementação da infra-estrutura computacional necessária para prover nossas
ferramentas.
18
2
OBJETIVOS
Nossa meta principal é explorar informações presentes em bancos de dados de proteí-
nas, na busca por possíveis “preditores” para a determinação de complexos proteína-proteína
e a compreensão dos fundamentos físicos envolvidos na formação de um complexo. Assim,
nossos objetivos são:
Gerais:
1. Desenvolver
novas
ferramentas
computacionais
para
o
estudo
de
sistemas
(bio)moleculares que permitam, por exemplo, de maneira automatizada, o acesso à
banco de dados de proteínas, a obtenção de estruturas tridimensionais e a análise
computacional-estatística das propriedades estruturais destas moléculas para posterior construção de algoritmos “ab initio”, rápidos, para a predição de complexos
proteína-proteína.
2. Geração de informação que possa contribuir para a predição de um complexo proteínaproteína, a partir de análises de propriedades eletrostáticas e estruturais, em bancos de
dados de proteínas, para maior entendimento físico do fenômeno da complexação molecular.
3. Desenvolver preditores do fenômeno complexação em diferentes níveis (analítico, PB) de
detalhamento do sistema.
4. Melhorar a compreensão das interações físicas fundamentais envolvidas no fenômeno da
complexação.
Específicos:
1. Combinar ferramentas existentes para cálculos de propriedades eletrostáticas de biomoléculas com novas para a construção de um preditor de complexação molecular com base
na estrutura primária e terciária das proteínas.
19
2. Cálculos de propriedades termodinâmicas para complexos moleculares cuja principal interação seja a eletrostática.
3. Desenvolvimento de novas ferramentas computacionais para análise de banco de dados de
proteínas, determinando a freqüência de contato entre resíduos que formam os complexos
protéicos.
4. Análise computacional estatística de possíveis propriedades estruturais com perspectivas
de tornarem-se bons preditores da complexação. Assim, contribuir com informações para
a determinação de potenciais estatísticos de interação para aminoácidos inter-proteínas.
5. Construção de uma interface gráfica, disponibilizada, gratuitamente, via servidor web.
6. Criação de banco de dados locais com estruturas de proteínas filtradas após testes de
consistência e os resultados de nossos portais.
20
3
ASPECTOS IMPORTANTES SOBRE
PROTEÍNAS
Uma vez que as proteínas são nosso objeto de estudo e este trabalho possuir caracte-
rística multidisciplinar, é apropriada uma seção introdutória sobre as principais características
de aminoácidos e proteínas, assim como as técnicas experimentais utilizadas na determinação
de sua estrutura tridimensional. Informações mais detalhadas podem ser encontradas em textos
específicos do assunto (1, 94, 135).
Proteínas são biomoléculas formadas por um conjunto de aminoácidos unidos (seqüência primária), através de ligações denominadas “ligações peptídicas”. Estas dão origem a
várias estruturas que podem ser organizadas hierarquicamente (seqüência secundária, terciária
e quaternária). As proteínas são construídas a partir do mesmo conjunto ubíquo de 20 aminoácidos. Pelo fato de cada um desses aminoácidos possuir uma cadeia lateral com propriedades
químicas diferentes, este grupo de 20 moléculas precursoras pode ser considerado como o alfabeto na qual a linguagem das estruturas protéicas é escrita (1).
Proteínas realizam uma surpreendente variedade de funções essenciais no organismo
humano. Estas tarefas podem ser agrupadas em funções estruturais e dinâmicas. Funções dinâmicas incluem transporte, controle metabólico, contração e transformações de catálises químicas. Em suas funções estruturais as proteínas provêm a base para o tecido ósseo, força e
elasticidade para os órgãos e sistema vascular, garantindo estrutura e forma ao organismo humano (22).
Uma importante classe de proteínas dinâmicas são as enzimas. Elas catalisam reações
químicas, convertendo um substrato em produto no sítio ativo da enzima. A maioria das reações
químicas que ocorrem nos organismos necessita de uma enzima para garantir que a reação
ocorra em uma taxa compatível com a vida (94). Proteínas controlam e regulam a transcrição
e tradução de genes. Por exemplo, histonas, proteínas que estão intimamente associadas com o
DNA, aumentam ou diminuem os fatores de transcrição que controlam a transcrição de genes
(94).
Desta forma fica evidente que o entendimento das proteínas é de suma importância
21
para uma melhor compreensão dos processos que ocorrem nos organismos vivos (94).
3.1
Aminoácidos
Todos os 20 aminoácidos são α-aminoácidos. Eles possuem um grupo carboxila e
um grupo amino ligados ao mesmo átomo de carbono (o carbono α). Eles diferem uns dos
outros nas suas cadeias laterais ou grupos R, que variam em estrutura, tamanho, possibilidade
de adquirirem carga elétrica, além de influenciarem a solubilidade dos aminoácidos em água. A
Figura 3 exibe a estrutura geral de um aminoácido.
Alguns aminoácidos, como, por exemplo, arginina e ácido glutâmico, podem atuar
como ácidos e bases. Quando um aminoácido é dissolvido em água, ele existe em solução como
um íon dipolar, ou zwitterion (em alemão “íon híbrido”). Um zwitterion pode atuar tanto como
um ácido (doador de próton) quanto uma base (receptor de próton). Substâncias possuindo
esta natureza dupla são anfotéricas e freqüentemente chamadas de anfólitos (de “eletrólitos
anfotéricos”) (22).
3.2
Ligações peptídicas
Duas moléculas de aminoácidos podem estar covalente unidas por meio de uma li-
gação chamada ligação peptídica. Tal ligação é formada pela remoção de elementos da água
(desidratação) de um grupo α-carboxila de um aminoácido e o grupo α-amino do outro.
A unidade de um aminoácido em um peptídio é freqüentemente chamada de resíduo (a
parte que sobrou depois da perda de um átomo de hidrogênio do seu grupo amino e a porção hidroxila do seu grupo carboxila). Em um peptídio, o resíduo de aminoácido na extremidade com
Figura 3: Estrutura geral de um aminoácido.
22
Figura 4: Relação dos 20 aminoácidos existentes na natureza, adaptado da referência (1).
o grupo α-amino é o resíduo terminal amino (ou N-terminal); o resíduo na outra extremidade,
que possui um grupo carboxila livre, é o resíduo terminal carboxila (ou C-terminal). A Figura
4 exibe os 20 aminoácidos existentes na natureza.
3.3
Estrutura primária de proteínas
A estrutura primária das proteínas é o nível estrutural mais simples e é dada pela
seqüência de aminoácidos ao longo da cadeia polipeptídica. A estrutura primária da proteína
resulta em uma longa cadeia de aminoácidos semelhante a um “colar de contas", com uma extremidade “amino terminal" e uma extremidade “carboxi terminal". Sua estrutura é somente a
23
seqüência dos aminoácidos, sem se preocupar com a orientação espacial da molécula (1).
3.4
Estrutura secundária de proteínas
O termo estrutura secundária refere-se à conformação local de alguma parte de um
polipeptídio. A discussão da estrutura secundária mais usualmente foca os padrões de enovelamentos mais regulares do esqueleto polipeptídico. As mais proeminentes são as α-hélices, onde
as ligações peptídicas formam uma estrutura helicoidal, e a conformação β , na qual o esqueleto
da cadeia polipeptídica é estendido em ziguezague.
3.5
Estrutura terciária de proteínas
O arranjo tridimensional geral de todos os átomos em uma proteína é referido como a
estrutura terciária das proteínas. Também chamado de conformação tridimensional, através do
dobramento dos elementos de sua estrutura secundária.
Ao considerar esses níveis de estruturas é útil classificar as proteínas em dois grupos principais: proteínas fibrosas, possuindo cadeias polipeptídicas arranjadas em longas fitas
ou folhas, e as proteínas globulares, que possuem cadeias polipeptídicas enoveladas em uma
forma esférica ou globular (1). Todas as ferramentas aqui desenvolvidas são mais convenientemente aplicadas para proteínas globulares, pelas aproximações assumidas.
3.6
Estrutura quaternária de proteínas
Algumas proteínas contêm duas ou mais cadeias polipeptídicas separadas, ou
subunidades, que podem ser idênticas ou diferentes. O arranjo dessas subunidades protéicas
em complexos tridimensionais constitui a estrutura quaternária da proteína.
3.7
Métodos para determinação da estrutura tridimensional
das proteínas
Devido ao fato que a maior parte do nosso conhecimento estrutural detalhado das pro-
teínas, e, em uma grande medida de suas funções, resulta das determinações por cristalografia
por raios X de proteínas globulares e, mais recentemente, das determinações por ressonância
24
magnética nuclear (NMR), é apropriada uma seção com uma prévia discussão das potencialidades e das limitações dessas técnicas.
A cristalografia de raios X é uma técnica que forma imagens das moléculas. Um
cristal da molécula a ser visualizada é exposto a um feixe paralelo de raios X, e o padrão
de difração resultante é registrado em um contador de radiação. Os raios X utilizados nesses
estudos estruturais são produzidos por laboratórios geradores de raios X ou, cada vez mais, por
síncrotons, um tipo de acelerador de partículas que produz raios X de intensidade muito alta. As
intensidades de difração máxima são então usadas para construir uma imagem tridimensional
da estrutura (22).
Os raios X interagem quase que exclusivamente com os elétrons, não com os núcleos
atômicos da matéria. Uma estrutura por raios X é, portanto, uma imagem da densidade eletrônica do objeto em estudo (22).
Na determinação de estruturas por ressonância nuclear magnética, as propriedades de
spin magnético do núcleo atômico da molécula são utilizadas para obter uma lista das restrições
de distância entre os átomos da molécula, tais como distâncias e ângulos de ligações covalentes, planaridade de grupo, quiralidade e raios de van der Waals, a partir das quais a estrutura
tridimensional da proteína pode ser obtida (136).
A maioria dos elementos tem pelo menos um isótopo razoavelmente abundante cujo
núcleo é magnético. Se o campo magnético é alternado a uma freqüência de ressonância apropriada, os spins nucleares mudam de orientação. Estas mudanças de orientação são acompanhadas de absorção de energia do campo magnético alternante pelos núcleons, que sofrem uma
transição de fase de um estado de energia mais baixo para um estado mais alto. Quando o
campo alternante é desligado, os núcleons retornam ao estado de equilíbrio, emitindo energia
na mesma freqüência que absorveram. Os núcleons de diferentes elementos, e mesmo de diferentes isótopos do mesmo elemento, têm freqüências de ressonância diferentes (136).
Uma vantagem dos estudos da NMR é que eles são realizados em macromoléculas em
solução, enquanto a cristalografia de raios X é limitada a moléculas que podem ser cristalizadas.
No entanto, sua utilização é restrita a proteínas pequenas.
Devido às limitações apresentadas por estas duas técnicas, diversos métodos computacionais estão sendo empregados na determinação de estruturas de proteínas. Dentre os quais,
destacamos: métodos ab initio (63), redes neurais (31) e outros (29, 43).
25
4
TRABALHANDO COM
INFORMAÇÕES BIOLÓGICAS IN
SILICO
Para abordar qualquer sistema é necessário definir qual o nível de detalhamento do
modelo e, posteriormente, codificá-lo em equações matemáticas as quais possam ser utilizadas
em ferramentas computacionais.
Durante o desenvolvimento de programas computacionais, é necessário definir, inicialmente, os requisitos do sistema, ou seja, quais tarefas a aplicação será capaz de realizar, o tempo
esperado de resposta, a interface com o usuário, como os dados serão matematicamente manipulados, e outras informações. Neste sentido, precisamos abstrair as informações “do mundo
real”, codificá-las através de funções matemáticas, realizarmos o processamento e retornarmos
os resultados ao usuário.
4.1
Níveis de detalhamento do modelo
Ao abordar um sistema molecular, precisamos escolher o nível de detalhamento neces-
sário, ou seja, quais as principais características precisamos extrair da realidade para utilizá-las
na idealização do sistema, de modo que nos permita codificar a realidade em modelos numéricos
a serem resolvidos por métodos computacionais.
Estas características, que para o nosso estudo são as forças que agem sobre as biomoléculas, são descritas pelas leis da física, e definidas, por equações matemáticas, denominadas
de “Hamiltoniana Efetiva” (111, 137, 138). Podemos dividir as Hamiltonianas em três níveis
de aproximação, em função de quais detalhes são incorporados como essenciais:
1. Nível de Schrödinger (NS) (111, 138): Os átomos da biomolécula e da solução eletrolítica são representados pelas coordenadas do núcleo e dos elétrons de cada um dos
componentes do sistema. Este sistema é tratado por métodos da mecânica quântica.
2. Nível de Born-Oppenheimer (NBO) (111, 137, 138): Também chamado de modelo mi-
26
croscópico, onde o comportamento dos átomos da biomolécula e da solução eletrolítica
ao invés de serem representados por seus respectivos núcleos e elétrons são aproximados
para o seu comportamento médio (efetivo), ou seja, as variáveis são as coordenadas e momentos do solvente e do soluto. Exemplos são as simulações de proteínas com modelos
de água explícita.
3. Nível de McMillan-Mayer (NMM) (111, 137, 138): Ou modelo macroscópico, onde o
modelo da Hamiltoniana é derivado do nível de Born-Oppenheimer com algumas simplificações extras, isto é, as variáveis tratadas explicitamente são somente as coordenadas e
momentos da molécula do soluto. Apenas o comportamento médio do solvente é considerado. Esta aproximação é bastante empregada no cálculo de propriedades eletrostáticas
de macromoléculas como proteínas (constituintes por muitos átomos) e será o modelo
empregado, neste trabalho, pois proporciona uma grande redução do custo computacional
e ao mesmo tempo, permite a abstração das características do mundo real necessárias para
codificar tais sistemas biológicos.
4.2
Modelagem do sistema
A escolha da Hamiltoniana em qualquer um desses níveis corresponde à fase de mo-
delagem do sistema. A modelagem do sistema visa um balanço entre: a) propriedade ou quantidade de interesse a ser estudada; b) poder computacional disponível; e c) precisão ou confiabilidade necessária. Vale a pena lembrar que nem sempre a escolha do modelo com o maior
nível de detalhamento é sempre a melhor escolha, pois a solução de tal modelo pode ser impraticável devido à limitações técnicas, como, por exemplo, limitados recursos computacionais. O
custo computacional cresce substancialmente quando partimos do NMM para o NS (137). Uma
discussão de critérios para escolha do nível é apresentado na referência (137).
4.3
Solução do modelo
A solução dos modelos pode ser obtida utilizando vários níveis de aproximação:
1. NS: A solução é realizada no nível quântico, resolvendo a equação de Schrödinger;
2. NBO: A solução pode ser obtida valendo-se de métodos computacionais como dinâmica
molecular (139), onde equações da mecânica são resolvidas para todas as espécies ou
método Monte Carlo (139) para percorrer o espaço das fases em busca das configurações
mais representativas;
27
3. NMM: Podemos substituir os íons explícitos na solução pela equação de Poisson-Boltzmann (EPB) (140, 141) e ainda utilizar a forma linearizada da mesma, a fim de
reduzir o custo computacional, valendo-se da teoria de Debye-Hückel (142). Neste modelo, o comportamento explícito do solvente é substituído por sua constante dielétrica.
4.4
Equação de Poisson-Boltzmann
A Equação de Poisson-Boltzmann (EPB) tem sido largamente utilizada no estudo de
propriedades eletrostáticas de biomoléculas em Biologia Estrutural (82, 140, 143), onde o
sistema é formado por uma estrutura rígida de proteína, normalmente em detalhes atomísticos,
e uma distribuição de cargas da solução ao redor do macroíon (biomolécula). Em suma, a EPB
descreve a interação eletrostática e a distribuição da densidade de carga (dada por uma distribuição de Boltzmann) de um sistema em equilíbrio. Nesta aproximação conhecida como “modelo
contínuo”, o solvente é tratado como um meio dielétrico uniforme ideal descrito simplesmente
pela sua constante dielétrica estática – nível de McMillan-Mayer. Este tratamento adicionado
ao efeito do sal provê uma boa acurácia para descrever as interações eletrostáticas em muitas
situações de interesse. Além disso, cálculos baseados nestes modelos são mais rápidos, permitindo a realização dos mesmos em larga escala e em várias condições físico-químicas, como
por exemplo, as condições do meio, soluto, etc.
Em um modelo contínuo, a densidade de carga ρ(r) da atmosfera iônica com a distância do íon na posição r, relaciona-se com φ (r), potencial eletrostático, pela Equação de Poisson:
∇.[ε(r)∇φ (r)] = −4πρ(r)
(4.1)
Supondo ρ(r) a distribuição de cargas em r e φ (r) o potencial elétrico na posição r provido por cargas fixas e móveis, haverá uma maior concentração de íons negativos em r quando
φ (r) for positivo e vice-versa (144). A concentração de íons móveis (eletrólitos dissolvidos em
solução) pode ser obtida pela distribuição de Boltzmann (140, 144, 145), definida na Equação
4.2, e as cargas fixas são as cargas parciais de cada átomo que constitui a molécula.
ni
qi φ
= exp(−
)
0
kB T
ni
(4.2)
onde ni é a densidade de íons do tipo i por unidade de volume em uma dada região do espaço;
n0i , a densidade de íons do tipo i por unidade de volume em todo o espaço amostrado; qi , a
carga correspondente de cada íon; φ , o potencial eletrostático em uma dada região do espaço;
28
kB , a constante de Boltzmann, e T, a temperatura em Kelvin. Combinando a Equação 4.1 com a
Equação 4.2, temos a Equação de Poisson-Boltzmann:
∇.[ε(r)∇φ (r)] = −4π{ρ(r) + λ (r) ∑ qi ni exp[
i
−qi φ (r)
]}
kB T
(4.3)
assumimos λ igual a 0 em regiões impenetráveis e 1 nas regiões acessíveis aos íons móveis.
Visando minimizar o custo computacional, assumimos que o termo exponencial pode
ser aproximado por um termo linear (a partir da expansão da série de Taylor). Para sais monovalentes, temos a equação de Poisson-Boltzmann linearizada (EPBL) (140, 144, 146):
∇.[ε(r)∇φ (r)] − k2 ε(r)φ (r) = −4πρ(r)
(4.4)
onde k é o inverso do comprimento de Debye-Hückel, dado na Equação 4.5.
k2 =
8πe2 Na I
kB T ε
(4.5)
q2
onde e é a carga elementar e I = ∑ 12 ( e2i )ni , a força iônica do meio.
A solução da EPBL, uma equação diferencial parcial, é obtida por aproximação dos
elementos finitos, no qual o espaço é discretizado em um cubo divido em um conjunto de
cubos menores, os quais definem uma rede. Os vários métodos que podem ser empregados para
resolver a EPBL podem ser encontrado nas referências (123, 146), entre os quais destacamos o
“método das diferenças finitas” (147, 148), utilizado pelos programas MEAD (77, 122), DelPhi
(123), GRASP (125) e outros (126, 149).
Como qualquer modelo teórico, a EPBL é uma simplificação da realidade e envolve as
seguintes aproximações, além das descritas acima:
1. Os íons são descritos como pontos carregados. Eles não têm um tamanho (raio) próprio.
2. A EPBL em um modelo contínuo assume uma completa dissociação das espécies iônicas.
Ela ignora a formação de pares de íons (140, 150).
4.4.1
Método das diferenças finitas
O método das diferenças finitas é um procedimento para a resolução de equações di-
ferenciais que se baseia na aproximação de derivadas por diferenças finitas. A fórmula de
29
Figura 5: Exemplo de um arquivo no formato ogm, utilizado como entrada pelo pacote MEAD v.2.2.7.
aproximação obtém-se da série de Taylor. Dessa forma, assume-se que o espaço possui uma
forma regular, geralmente um cubo, no qual é divido em vários pontos ou malhas, chamados
grid. Derivadas são aproximadas como diferenças entre os valores de cada ponto.
O programa MEAD (77, 122) resolve a EPBL empregando o método das diferenças
finitas onde:
1. O espaço (meio) onde a proteína se encontra é definido como uma caixa quadrada de
lado l igual ao diâmetro da proteína (em Ångström), acrescido de um valor em cada um
dos lados, proporcional ao raio da proteína. Isto visa prevenir possíveis erros, como por
exemplo, parte da proteína ficar fora da caixa;
2. No arquivo ogm1 , utilizado pelo programa MEAD, define-se a quantidade (NBox ) e o
tamanho (lBox ) das caixas (pontos do grid) para a aplicação do método das diferenças
finitas. O tamanho total de cada lado da caixa será: l = NBox .lBox .
A Figura 5 ilustra um exemplo de um arquivo no formato ogm, no qual a primeira
coluna indica que a caixa de simulação estará posicionada no centro geométrico da proteína, a
segunda coluna informa a quantidade de cubos que serão utilizados na divisão do espaço onde
a proteína se encontra e a terceira coluna o tamanho de cada cubo. Neste exemplo, iniciamos
com uma caixa de dividida em 41 cubos de 8x8x8 Å3 e, focando em uma região de interesse,
refinamos as contas para uma caixa de 41 cubos de 2x2x2 Å3 . A última caixa deve ser sempre
menor do que a anterior.
A Figura 6 exibe uma proteína hipotética inserida em uma caixa que foi divida em
cubos, onde a energia de cada ponto é integrada com as energias dos pontos vizinhos para
solução da EPBL.
1 O arquivo no formato ogm é um dos arquivos de configuração utilizado para execução do programa MEAD.
Veja o Apêndice C para maiores detalhes.
30
Figura 6: Ilustração esquemática de uma proteína inserida em uma rede para execução do método de diferenças
finitas para a solução da EPBL.
Para a solução da EPBL, em cada ponto da malha é atribuído o potencial eletrostático,
a densidade de carga e a distribuição de íons da solução e às linhas que unem esses pontos, a
constante dielétrica do meio (soluto ou solvente).
4.5
Função de distribuição radial
Em sistemas biológicos, envolvendo proteínas e complexos de proteínas, o número de
sítios de interação torna impraticável seu estudo no nível mais refinado (atomístico com solvente
explícito), principalmente quando necessário que se repitam as análises em várias condições
experimentais.
Através da Mecânica Estatística (151), é possível relacionar o mundo macroscópico e
microscópico, ou seja, características macroscópicas são obtidas a partir de médias que representam o comportamento microscópico do sistema em questão. Uma das grandezas bastante útil
é a função de distribuição radial (FDR). A FDR, g(r), ou função de correlação de pares, é uma
medida para determinar a correlação entre partículas em um sistema. Pode ser vista como uma
medida da probabilidade de encontrar uma partícula i a uma distância r a partir de uma partícula
de referência, j. Comparado com uma distribuição do gás ideal, a FDR pode ser expandida da
31
seguinte forma, conforme proposto por Nijboer et all. (152):
g(r) = exp{−
V (r)
}.{1 + ρg1 (r) + ρ 2 g2 (r) + ...}
kB T
(4.6)
onde r é a distância entre duas moléculas; ρ, o número de moléculas por unidade de volume; e
V (r), o potencial de interação na distância r.
Neste trabalho, empregou-se uma função derivada da FDR, a qual chamamos de gi j (r)∗
(Equação 1.1), utilizada para calcular a freqüência da correlação de pares entre os resíduos i e
j em uma determinada distância r. Após o cálculo de gi j (r)∗ , para uma melhor análise dos
resultados, empregamos algumas formas de normalização2 .
4.6
Potencial de força média
As densidades observadas nas distâncias entre resíduos de aminoácidos estão intima-
mente relacionadas com o potencial de força média das respectivas interações entre os mesmos.
De acordo com Sippl (129), a partir da aproximação de Boltzmann, em um estado particular de
densidade igual a gi j (r)∗ (Equação 1.1 apresentada na seção 1.4.2 - Estratégia 2: Análise de
propriedades estruturais para a construção de potenciais estatísticos) e em temperatura constante (T, em Kelvin), é possível calcular o potencial de força média de interação (em kB T ) entre
dois resíduos i e j na distância r, aplicando-se a Equação 4.7:
wi j (r) = −kB T ln[gi j (r)∗ ]
(4.7)
O PFM inclui, implicitamente, contribuições de diferentes interações entre os resíduos
presentes na interface de contato da formação do complexo, por exemplo, as forças que agem
sobre cada aminoácido da proteína em função de sua configuração conformacional, além da
entropia.
A probabilidade de um sistema estar em um estado ou em outro pode ser obtida
calculando-se a variação da energia livre entre tais estados (153). Em um ensemble canônico3 , o
PFM é a variação da energia livre entre dois estados distintos, e desta maneira pode ser utilizado
para indicar o estado de “preferência" do sistema.
2 As
formas de normalização empregadas neste trabalho são discutidas na Seção 7 - Resultados.
canônico: sistema o qual a temperatura, o volume e número de partículas são mantidos constantes
3 Ensemble
(139).
32
4.7
Campos de força
Enquanto no NS as interações entre os constituintes atômicos (elétron-elétron, elétron-
núcleo e núcleo-núcleo) do sistema são consideradas, nos níveis mais simplificados esta informação é aproximada e apenas comportamentos médios são empregados. Uma forma de se fazer
isso é através do uso de campos de força4 , no qual os termos referentes à energia potencial relacionados à descrição dos detalhes atomísticos são ajustados de forma a garantir concordância
com resultados experimentais. Porém, a parametrização não é obtida de maneira única, sendo
dependente do campo de força escolhido. Alguns exemplos de campo de força são: PARSE
(83, 84), GROMOS (155, 156), AMBER (75, 76), CHARMM (142), TYL06 (157), e o campo
de força reduzido (158). Testes do efeito destes campos de força nas propriedades eletrostáticas
de biomoléculas foram efetuados anteriormente em nosso laboratório (159).
Neste trabalho, utilizamos como campo de força padrão, o campo de força
GROMOS96 v.53A6 (160) distribuído junto com o pacote para simulação de dinâmica molecular GROMACS v.4.0.5 (127, 161). Este campo de força possui várias implementações
além da v.53A6. O campo de força GROMOS (162) foi inicialmente desenvolvido para o estudo de biomoléculas em solução (peptídeos, proteínas e polinucleotídios). No campo de força
GROMOS87 (163), os grupos CH, CH2 e CH3 foram modelados como átomos únicos. Átomos de hidrogênio dos grupos alifáticos e aromáticos não foram tratados explicitamente, mas
foram incluídos implicitamente na representação de seus respectivos átomos de carbono, onde
os átomos de hidrogênio estão unidos como um único grupo centrado no átomo de carbono. No
campo de força GROMOS96 v.53A6, os parâmetros de van der Waals foram parametrizados
com base em várias simulações de dinâmica molecular para modelos alcalinos líquidos usando
1,6 nm para o raio de cutoff, enquanto que no GROMOS87 este valor era de 0,8 nm (162).
Os campos de força AMBER99 (75, 76) e GROMOS96 v.53A6, podem ser utilizados como parâmetros para as ferramentas providas pelo portal PROMETHEUS. Ambos possuem boa concordância com dados experimentais e foram modelados para trabalhos com biomoléculas (proteínas e outras) em solução. O AMBER99 atribui carga para a maioria dos átomos presentes na proteína, enquanto que GROMOS96 atribui cargas somente a alguns átomos,
tornando o processo de cálculo mais rápido (segundo demonstrado em (159)), e é distribuído
juntamente com o pacote para simulação de dinâmica molecular GROMACS v.4.0.5, possibilitando dessa forma que vários estudos possam ser realizados tanto com algoritmos de DM
quanto com análises estatísticas e cálculos baseados apenas na seqüência primária das proteínas,
4 Campo
de Força são equações matemáticas que calculam a energia potencial do sistema em função das posições dos núcleos dos átomos, ignorando toda movimentação dos elétrons. Geralmente são utilizados para realizar
cálculos em sistemas contendo grande número de átomos (154).
33
facilitando desta forma, estudos do mesmo sistema por diferentes abordagens. Visando expandir as possibilidades dos portais, iremos integrar, no futuro, outros campos de força, como por
exemplo, o PARSE (83, 84).
34
5
MATERIAL E MÉTODOS
Pela natureza de trabalho multidisciplinar, incluímos uma breve introdução sobre
equilíbrio ácido-base e sua relação com a origem das cargas elétricas em proteínas. Em seguida, na Seção 5.2, apresentamos a infra-estrutura computacional utilizada para prover nossas
ferramentas na web.
5.1
5.1.1
Teoria
Equilíbrio ácido-base
Quando ácidos fracos são dissolvidos em água, eles contribuem com H+ pela ioniza-
ção; bases fracas consomem H+ tornando-se protonadas.
As moléculas da água possuem uma leve tendência para sofrerem ionização reversível
para produzir um íon hidrogênio (próton) e um íon hidróxido.
+
−
H2 O(aq.) ↔ H(aq.)
+ OH(aq.)
(5.1)
O equilíbrio de qualquer reação química é estudado por sua constante de equilíbrio K.
Para a reação generalizada
A+B ↔C+D
(5.2)
uma constante de equilíbrio estequiométrica pode ser definida em termos das concentrações dos
reagentes (A e B) e produtos (C e D) em equilíbrio:
K=
[C][D]
[A][B]
(5.3)
onde, [A], [B], [C] e [D] correspondem às concentrações das espécies A, B, C e D, respectivamente.
35
Note que a verdadeira constante de equilíbrio termodinâmica é função da atividade1
(164).
O grau de ionização da água em equilíbrio é pequeno; a 25◦ C apenas duas de cada 109
moléculas de água pura são ionizadas a qualquer instante (22). A constante de equilíbrio para a
ionização reversível da água é dada por:
[H + ][OH − ]
k=
[H2 O]
(5.4)
O produto iônico da água é a base para a escala de pH, que é definido pela expressão:
pH = log aH + ∼
= − log[H + ]
(5.5)
onde a é a atividade e [H + ], a concentração de átomos de hidrogênio na solução (164).
Ácidos podem ser definidos como doadores de prótons e bases como receptoras de
prótons. Um doador de próton (A− ) e seu correspondente receptor de próton (H + ) perfazem um
par conjugado ácido-base. Cada ácido possui uma tendência característica de perder seu próton
em uma solução aquosa e formar sua base conjugada.
As constantes de equilíbrio para as reações de ionização são usualmente chamadas de
constantes de dissociação ou ionização, freqüentemente designadas como Ka , como sugere a
Equação 5.6:
Ka =
[H + ][A− ]
[HA]
(5.6)
Normalmente, expressamos esta constante em sua forma logaritma denotada por pKa
(pKa = − log Ka ).
5.1.2
Cálculo de pKa ’s em proteínas
Uma importante característica das proteínas é a habilidade de alguns de seus amino-
ácidos constituintes, chamados aminoácidos ionizáveis, trocar prótons com o ambiente o qual
a proteína está inserida. Este comportamento guia várias características, das proteínas, depen1 A atividade de cada substância é defina de tal forma que quando a substância está no seu estado padrão a
atividade tem valor igual a 1 (um). A atividade de um íon é sempre relativa ao seu estado padrão. Tipicamente o
estado padrão de um solvente é definido para o solvente puro, onde sua atividade é igual a 1. Para o soluto o estado
padrão é definido a 1 mol e a atividade é sempre relativa a 1 mol do soluto. Maiores detalhes, sobre o coeficiente
de atividade, podem ser encontrados na referência (135).
36
dentes do pH e tem grande impacto na função biológica. Predizer corretamente os estados
de ionização de uma proteína em um dado ambiente pode contribuir significativamente para
o entendimento de sistemas biológicos, como por exemplo, compreender a estabilidade das
proteínas, interação proteína-proteína, etc. (126, 165).
A determinação dos estados de ionização, ou constantes de dissociação, geralmente
expressadas como pKa ’s, pode ser obtida experimentalmente por NMR, mas a aplicabilidade
desta técnica é limitada a proteínas pequenas (166, 167). Visando suprir esta limitação, diversos
métodos teóricos têm sido empregados na determinação dos valores de pKa ’s (168, 169). Uma
das maneiras de realizar a predição dos valores dos pKa ’s de aminoácidos ionizáveis é através da
diferença do trabalho eletrostático de alterar a carga de um estado não protonado para um estado
protonado na proteína e o trabalho para fazer a mesma alteração em um modelo composto2 . O
cálculo do trabalho eletrostático consiste em duas partes: 1) calcular o trabalho necessário para
protonar um grupo na proteína quando todos os outros grupos ionizáveis são neutros; 2) calcular
a energia de interação de um grupo com todos os outros grupos ionizáveis (126, 144).
A maioria dos métodos para predição dos pKa ’s é baseado na solução da EPBL, usando
cargas parciais para os átomos, a partir de um certo campo de força. Entretanto, por este ser
um problema combinatorial, a aplicação da EPBL é limitada a moléculas relativamente pequenas, pois o custo computacional cresce exponencialmente com a quantidade de aminoácidos
ionizáveis presentes na proteína (168). Uma proteína com N resíduos ionizáveis tem 2N possíveis microestados de ionização. Outro problema encontrado é que, quando usamos a EPBL,
assumimos que a estrutura da proteína é rígida e idêntica ao cristal, quando, em solução, as proteínas são flexíveis. Esta flexibilidade implica em possíveis alterações conformacionais durante
o processo de titulação em função do pH, devido aos vários estados de ionização da proteína
(168).
5.1.3
Cálculos das propriedades eletrostáticas em proteínas – preditor básico de complexos
Conforme proposto neste trabalho, o preditor de complexos protéicos possui vários ní-
veis de predição. Dessa forma, iniciamos o estudo das propriedades eletrostáticas em proteínas
a partir do nível mais simples, no qual a fonte de informações para os cálculos é somente a
seqüência primária da proteína e as equações são resolvidas analiticamente. Chamamos esse
nível de nível de predição ideal, pois todas as informações relacionadas com a estrutura tridimensional da proteína não são consideradas e o comportamento do aminoácido na proteína é
2 Nos
modelos experimentais o pKa é obtido, normalmente, a partir de uma pequena seqüência de peptídeos,
contendo aminoácidos ionizáveis, e em diferentes concentrações de sal e macromoléculas (169).
37
analisado como se este estivesse isolado de todos os outros que a constituem.
Para um estudo mais preciso das propriedades eletrostáticas, o usuário poderá trabalhar com a estrutura tridimensional da proteína, na qual os valores de pKa ’s de cada aminoácido
ionizável é calculado de acordo com sua posição na estrutura da proteína. Assim, é considerado
o efeito da distribuição espacial de cargas existentes na estrutura tridimensional. Chamamos
essa abordagem de nível de predição Poisson-Boltzmann ou nível de predição baseado em estrutura 3D. Neste nível, o cálculo dos pKa ’s é realizado através da solução da EPBL utilizando
o programa MEAD v.2.2.7 que emprega o método de diferenças finitas para a solução desta
equação.
5.1.4
Nível de predição ideal (analítico) – Predição a partir da seqüência
primária da proteína
O termo “ideal" significa aqui que as interações entre os aminoácidos, que constituem
a proteína, são desprezadas. Refere-se, portanto, a uma aproximação onde cada aminoácido
na estrutura da proteína é tratado como se estivesse isolado, ou seja, em uma condição de
idealidade. Na prática, tal condição é alcançada, quando a concentração salina é suficientemente
elevada para blindar as interações eletrostáticas entre os aminoácidos. A referência (170) mostra
o bom acordo entre os pI’s determinados experimentalmente e os calculados desta mesma forma
para algumas proteínas. Os cálculos no nível de predição ideal (analítico) foram desenvolvidos
da seguinte forma:
1. Cálculo do grau de dissociação de um próton: O grau de dissociação de um próton, α 3 ,
de todos os grupos de aminoácidos ionizáveis e dos resíduos α-carboxil e N-terminal, foi
calculado de acordo com a Equação 5.7:
αi =
10 pH−pKi
1 + 10 pH−pKi
(5.7)
onde αi é calculado em função do pH e do seu respectivo pKi 4 . A Tabela 1 exibe os
valores experimentais de pKa (pKi ), utilizados para o cáculo do α.
3 Detalhes
podem ser encontrados na referência (119).
de equilíbrio termodinâmica obtidas experimentalmente. Utilizamos os valores de Nozaki e Tanford (2) por serem bem consistentes na literatura.
4 Constantes
38
Grupo
Nozaki e Tanford (NT) (2) Creighton (Cr) (171)5
Carboxila
3,8
3,5 – 4,3
ASP
4,0
3,9 – 4,0
GLU
4,4
4,3 – 4,5
HIS
6,4
6,0-7,0
Amina
7,5
6,8 – 8,0
6
CIS
9,5
9,0 – 9,5
TIR
9,6
10,0 – 10,3
LIS
10,4
10,4 – 11,1
ARG
12,0
12,0
Tabela 1: Valores de pKa ’s dos aminoácidos “isolados” obtidos experimentalmente a temperatura de 25◦ C.
2. Valência de um aminoácido: O cálculo da valência ideal (zi ) de cada aminoácido foi
realizado com base na referência (119): zi = αz para resíduos ácidos e zi = (1 − α)z para
resíduos básicos. z é a valência do aminoácido (-1 para ácido, +1 para básico). As curvas
de titulação (ionização) foram calculadas entre os pH’s 0 e 14, onde variamos o pH em
0,1.
3. Valência de uma proteína: Na seqüência, calculamos a valência ideal (Z) da proteína
(119). A titulação ideal de uma proteína é dada pela soma de todas as titulações ideais dos
aminoácidos ionizáveis que a constituem, além do α-carboxil e do N-terminal, que possuem comportamento ácido e básico, respectivamente. Neste cálculo, as interações entre
os aminoácidos, em função do arranjo tridimensional da proteína, são omitidas e apenas
os valores dos pKa ’s (determinados experimentalmente) dos aminoácidos são utilizados
para o cálculo da titulação. Apesar desta simplificação, os valores obtidos para a titulação
ideal das proteínas são bastante próximos dos valores “reais”, obtidos experimentalmente
(170).
4. Mecanismo de regulação de carga: Calculamos a capacitância ideal (5), que permite a
inclusão do mecanismo de regulação de cargas (5), de cada aminoácido de acordo com a
Equação:
Caideal =
10 pH−pKa
(1 + 10 pH−pKa )2
(5.8)
Com os valores das capacitâncias ideais de cada aminoácido, calculamos o valor da capacitância ideal de uma proteína:
5 Utilizamos
6 Quando
a média dos valores para a realização dos cálculos.
não envolvida em ponte de sulfeto.
39
Cideal = ∑ na
a
10 pH−pKa
(1 + 10 pH−pKa )2
(5.9)
Note que a capacitância ideal de uma proteína é dada pela soma das capacitâncias ideais
de todos os resíduos ionizáveis que a constituem, além do α-carboxil e do N-terminal.
5. Comprimento de Debye: o comprimento de Debye (1/k) é utilizado para descrever o
comprimento de uma atmosfera iônica próximo de uma superfície carregada (106). Neste
trabalho nós utilizamos o comprimento de Debye para descrever o efeito da força iônica
do meio no cálculo da variação da energia livre eletrostática, a qual está descrita no próximo item. O comprimento (1/k) é calculado através das expressões (106):

√

0,
304/
concentrao de sal nm para eletrólitos 1:1 (ex. NaCl)


√
1/k = 0, 176/ concentrao de sal nm para eletrólitos 1:2 ou 2:1 (ex. CaCl2 )


 0, 152/√concentrao de sal nm para eletrólitos 2:2 (ex. MgSO )
4
6. Energia livre eletrostática: De posse das valências ideais das proteínas e de suas respectivas capacitâncias ideais, podemos agora, calcular a variação da energia livre eletrostática
∆Gele (106) (com ou sem o mecanismo de regulação de cargas), em unidades de kB T , em
função da distância de separação (r), em Ångström, entre duas proteínas em um determinado pH. A Equação 5.10 exibe o cálculo da variação da energia livre eletrostática de
ligação entre duas proteínas, sem o mecanismo de regulação de cargas:
∆Gele =
Zi Z j e2
4πε0 εs rkB T
(5.10)
onde Zi e Z j são as cargas das proteínas i e j, ε0 , a constante dielétrica do vácuo, εs ,
a constante dielétrica do solvente7 , r, a distância de separação (em Ångströms) entre o
centro geométrico das duas proteínas, KB , a constante de Boltzmann e T, a temperatura
em Kelvin. Para o cálculo de ∆Gele com o mecanismo de regulação de cargas, utilizamos
a Equação (5):
∆Gele
cap =
lB Zi Z j
l2
− B2 (CiC j +Ci Z 2j +C j Zi2 )
r
2r
(5.11)
onde Ci , C j são as capacitâncias das proteínas i e j e lB é o comprimento de Bjerrum (5):
lB =
7 Estamos
e2
4πε0 εs kB T
utilizando a constante dielétrica da água (solvente) cujo valor é 77,8 em T = 298 K (106).
(5.12)
40
A Equação 5.13 exibe o cálculo de ∆Gele com a incorporação da força iônica do meio.
Note que, a blindagem eletrostática provocada pela força iônica efeta o termo puramente
eletrostático e o mecanismo de regulação de cargas de maneiras diferentes (107).
∆Gele
cap =
lB Zi Z j exp(−kr) lB2 exp(−2kr)
−
(CiC j +Ci Z 2j +C j Zi2 )
r
2r2
(5.13)
onde k é o inverso do comprimento de Debye. Nos cálculos realizados com base na
seqüência primária da proteína, utilizamos um modelo no qual a proteína é tratada apenas como uma esfera com carga elétrica central (modelo de esfera-rígida). Detalhes da
estrutura tridimensional da proteína são negligenciados. Esta simplificação será gradativamente removida nas próximas etapas. Note que o segundo termo em ∆Gele
cap introduz
uma componente sempre atrativa.
6.1 Cálculo da variação da energia livre eletrostática: O cálculo da ∆Gele em função
da distância de separação r é feito para um pH fixo, escolhido no intervalo de 1,0 e
14,0, pelo usuário do sistema. Assumimos σ Å a menor distância de separação entre
as proteínas, cujo valor é igual a soma dos raios das mesmas (o cálculo do raio da
proteína está descrito no próximo item) e Nσ , um valor inteiro absoluto, obtemos a
maior distância de separação entre das proteínas em análise. A Equação 5.14 exibe
o cálculo da maior distância de separação entre as proteínas, a qual chamamos de
RF (dada em Å).
RF = σ ∗ Nσ
(5.14)
Variamos o r de σ a RF, com um ∆r = σ Å. RF representa o infinito (∞), distância
esta onde a ∆Gele é muito pequena. A representação gráfica de ∆Gele é feita em
função de σ .
2
C
Para os valores das constantes dielétricas (106), utilizamos 8, 85x10−12 Nm
2 para o
vácuo (ε0 ), e 77,8 para a água (solvente - εs ), com T = 298K. Assumimos que ∆Gele
é igual a zero quando seus valores, em função da distância de separação, forem
inferiores a 1x10−5 kB T .
7. Cálculo do raio das proteínas: Para calcular o raio de cada proteína procedemos da
seguinte forma:
7.1 Quando a estrutura 3D da proteína é conhecida:
a. A partir estrutura tri-dimensional da proteína, obtida do PDB, calculamos seu
centro de geométrico;
41
b. Verificamos, com base na estrutura tri-dimensional da proteína, qual o átomo
mais distante do centro geométrico. Essa maior distância chamamos de (d);
c. Assumimos que R (raio da proteína) é igual a d.
7.2 Quando apenas a seqüência primária da proteína é conhecida:
Quando a estrutura 3D da proteína não é conhecida, por exemplo, quando apenas a
estrutura FASTA8 está disponível, calculamos o raio da seguinte forma:
a. Cada aminoácido possui seu respectivo raio e volume pré calculados9 armazenados no nosso banco de dados. A Tabela 2 exibe o raio, o volume e o peso
molecular de cada aminoácido, utilizado para determinar o raio da proteína.
Aminoácido Raio (Å) (172)
ALA
2.81
ARG
3.88
ASN
3.29
ASP
3.20
CYS
3.04
GLN
3.51
GLU
3.43
GLY
2.45
HIS
3.61
ILE
3.55
LEU
3.55
LYS
3.71
MET
3.50
PHE
3.84
PRO
3.26
SER
2.95
THR
3.21
TRP
4.15
TYR
3.92
VAL
3.34
Volume (Å3 ) (172) Peso (g/mol)10
93
89
245
174
149
132
138
133
117
121
181
146
169
147
62
75
197
155
187
131
187
131
214
146
180
149
238
165
145
115
108
105
139
119
300
204
253
181
156
117
Tabela 2: Valores do raio, volume e peso molecular de cada aminoácido.
b. A partir do raio de cada aminoácido calculamos o raio da proteína de acordo
com a expressão:
r
raio =
8O
3
3VT
4π
(5.15)
arquivo no formato FASTA contém a seqüência de nucleotídeos ou de peptídeos no qual os aminoácidos
são representados utilizando o código de uma letra. Veja detalhes em: http://www.ncbi.nlm.nih.gov/
blast/fasta.shtml.
9 Os valores para o raio e volume de cada aminoácido foi obtido da referência (172).
10 Dados obtidos do endereço:
http://ca.expasy.org/tools/pscale/Molecularweight.
html.
42
3
onde VT é: ∑N
i Volumei , e Volumei é o volume de cada aminoácido (em Å ).
Nas duas situações descritas (cálculos com a estrutura 3D e cálculos com a seqüência
primária), o usuário tem a opção de informar ao sistema o tamanho do raio que deseja
que seja utilizado para a realização dos cálculos.
8. Segundo coeficiente cruzado de virial: o segundo coeficiente cruzado de virial, B23 , é
uma forma de quantificar as interações que ocorrem entre duas moléculas. Se B23 tem
valor positivo, significa que, no regime simulado, há repulsão entre as proteínas, se B23
tem valor negativo, atração. O cálculo do segundo coeficiente cruzado de virial (99) (em
mol.ml/g2 ) entre duas proteínas11 , em função da variação do pH, foi realizado de acordo
com a Equação 5.16:
B23 = B23 (ele) + B23 (er)
(5.16)
onde B23 (ele) (dado em mol.ml/g2 ) representa o termo eletrostático das interações e é
calculado com base nas propriedades físicas (peso molecular) e eletrostáticas (titulação
e capacitância) das proteínas. B23 (er) (dado em mol.ml/g2 ) representa a contribuição
de “esfera rígida", o qual é sempre repulsivo. As Equações 5.1712 e 5.18 apresentam,
respectivamente, o cálculo do B23 (ele) e B23 (er).
NA
B23 (ele) = −
2M2 M3
Z ∞
[exp(∆Gele /kT ) − 1]4πr2 dr
(5.17)
NA
πσ 3
3M2 M3
(5.18)
σ
B23 (er) =
onde, ∆Gele é variação da energia livre eletrostática de ligação (em kB T ), M2 e M3 é o peso
molecular13 (em g/mol) das proteínas que serão analisadas, r é a distância de separação
(em Ångström) entre as duas proteínas, σ é a soma dos raios (em Ångström) das duas
proteínas e NA , o número de Avogadro14 .
Maiores detalhes sobre o B23 podem ser encontrados nas referências: (14, 18, 99). Outras abordagens podem ser utilizadas para predizer a complexação a partir da seqüência
primária das proteínas (174–176).
11 Para
medir aR interação entre pares de proteínas (iguais) pode ser utilizado o segundo coeficiente de virial - B2 .
B2 = −NA /2M22 0∞ [exp(∆Gele /kT ) − 1]4πr2 dr em unidades de mol.ml/g−2 (99).
12 Utilizamos a regra de Simpson (173) para a resolver a integral presente na Equação 5.17 e obter B (ele).
23
13 O peso molecular de uma proteína é calculado através do somatório do peso molecular de todos os aminoácidos
que a constituem.
14 N = 6, 02.1023 mol −1 .
A
43
5.1.5
Nível de predição baseado na estrutura 3D da proteína – através da
utilização da EPBL
Neste nível de predição o fator chave é a correta predição dos pKa ’s, pois é a partir
desses valores que todos os outros cálculos são realizados. Os pKa ’s são calculados a partir
da execução de dois programas (multiflex e redti) presentes no pacote MEAD v.2.2.7, o qual
resolve numericamente a EPBL onde o solvente é tratado pelo modelo contínuo (apenas por sua
constante dielétrica) e o soluto, um dielétrico de baixo valor. Porém, para a correta execução dos
programas são necessários vários arquivos de configuração. Veja o Apêndice C para maiores
detalhes sobre os arquivos de configuração necessários para utilização do pacote MEAD.
Após a geração dos arquivos de entrada para o pacote MEAD, o primeiro programa
a ser executado chama-se multiflex15 . Após a execução do mesmo três novos arquivos são
gerados (ABCD.g, ABCD.summ e ABCD.pkint)16 . Esses novos arquivos são utilizados como
parâmetros de entrada pelo programa redti (segundo programa a ser executado), o qual gera
os valores dos pKa ’s de cada aminoácido ionizável de acordo com sua posição na estrutura da
proteína. Ao término da execução do programa redti, o arquivo ABCD.pkout é criado. Este
arquivo contém os valores dos pKa ’s que são utilizados como parâmetros de entrada para posterior execução de todas as equações que foram demonstradas anteriormente na Seção 5.1.4 Nível de predição ideal (analítico) – Predição a partir da seqüência primária da proteína, provendo desta forma, resultados dos cálculos das propriedades eletrostáticas de proteínas a partir
de sua estrutura tridimensional.
Ao contrário do nível de predição ideal, onde todos os aminoácidos de um mesmo
grupo possuem o mesmo valor de pKa , independente de sua localização na estrutura da proteína,
o nível de predição baseado na estrutura 3D da proteína calcula o pKa de cada aminoácido em
função de sua posição na estrutura da proteína (a posição do aminoácido na estrutura altera seu
valor de pKa ) através da solução da EPBL. Os valores dos pKa ’s calculados de acordo com a
estrutura da proteína, são então utilizados na determinação das propriedades eletrostáticas das
proteínas, provendo desta forma resultados mais precisos em relação ao nível de predição ideal.
15 Detalhes
sobre as formas de execução dos programas pertencentes ao pacote MEAD estão descritos no Apêndice C.
16 ABCD é o código PDB da proteína em questão. Para maiores detalhes sobre os arquivos de saída após a
execução de cada programa do pacote MEAD veja as referências (8, 77, 122).
44
5.1.6
Análise da freqüência de contatos entre os aminoácidos de
complexos protéicos do PDB e potencial estatístico
Diferentes análises computacional-estatísticas podem ser feitas em cima do PDB (60,
134). Iniciaremos focando a freqüência de contato entre aminoácidos de proteínas envolvidas
em complexos moleculares em função de suas distâncias de separação, porém, trabalhando
com flexibilidade suficiente para acomodar várias outras análises visto ser esta determinação
um aspecto crítico da presente proposta.
Para que possamos analisar a freqüência de contato entre os resíduos envolvidos nas
interações inter-protéicas, é necessária a obtenção de algumas informações contidas no Protein
Data Bank (PDB) como, os campos SEQRES, que contém a relação de resíduos de aminoácidos
(seqüência primária da proteína), e no caso de complexos, separados por cadeias; e ATOM, que
contém informações a respeito da estrutura terciária da proteína, ou quaternária no caso de
complexos. Neste campo estão presentes dados como as coordenadas X, Y e Z de cada átomo,
quais átomos pertencem a um determinado resíduo, posição do resíduo na cadeia e outros.
Além de obter tais informações, é preciso filtrá-las, controlar eventuais anormalidades,
e analisá-las posteriormente. Tais análises consistem de cinco passos descritos a seguir:
1. Com o auxílio de ferramentas computacionais desenvolvidas in house, consultar e obter estruturas de interesse (complexos) contidas no PDB, e posteriormente armazená-las
como arquivos (pdb) em um diretório local, criando um pequeno banco de dados próprio.
2. Desenvolvimento de um algoritmo capaz de verificar a consistência das informações contidas nos arquivos pdb locais, como, por exemplo, a seqüência de aminoácidos da cadeia
primária e o número de átomos para cada aminoácido da seqüência primária, em seguida
validar tais informações com os dados presentes na estrutura tridimensional, criando relatórios destas, e propor, se necessário, correções.
3. Desenvolvimento de ferramentas que farão a análise da freqüência de contatos entre os
resíduos envolvidos nas interações inter-proteínas, utilizando metodologias para o desenvolvimento de software, como “orientação a objetos”, UML, linguagens portáveis e
outras tecnologias (177, 178).
Para que tais análises sejam feitas, iniciamos calculando a distância de separação entre os
resíduos, de cadeias distintas, que formam o complexo protéico. O cálculo é realizado da
seguinte forma:
a. A partir dos campos ATOM presentes no arquivo PDB, obtemos todos os átomos
45
de um determinado resíduo de aminoácido para posteriormente calcular o centro
geométrico deste resíduo. Este processamento é realizado para todos os resíduos
que constituem a proteína.
b. De posse de todos os átomos e posições nos eixos X, Y e Z de cada resíduo, calculase o centro geométrico deste.
c. Calcula-se a distância (em Ångström) entre o centro geométrico de dois aminoácidos que estão em cadeias distintas.
4. Armazenamento em um sistema gerenciador de banco de dados relacional local open
source, como o PostgreSQL 8.3, das estruturas obtidas a partir da pesquisa feita no PDB
e a validação das mesmas, bem como relatório inicial com possíveis erros e avisos ao
usuário, potenciais estatísticos (distância entre os resíduos), e outros. É possível exportar
as estruturas de complexos protéicos presentes no nosso banco de dados, em arquivos
texto no mesmo formato que o arquivo PDB. Esta funcionalidade permite que as estruturas armazenadas no nosso banco de dados possam ser utilizadas por outras ferramentas
que necessitam (para os dados de entrada) de uma estrutura semelhante às providas pelos
arquivos PDB, ou, tais ferramentas podem obter os dados diretamente do banco, através
de conexões com o mesmo.
5.2
Infra-estrutura computacional
A infra-estrutura computacional necessária para prover nossas ferramentas na web foi
criada utilizando programas livres. Além dos serviços descritos nesta seção, utilizamos em
conjunto com os portais, alguns programas auxiliares, os quais são descritos no Apêndice C.
Todos os serviços, ferramentas e programas estão configurados no sistema operacional17 Linux,
padrão de distribuição Debian18 e Kernel19 na versão 2.6.31-20. A seguir iremos apresentar os
serviços configurados no servidor (banco de dados e serviços web) e as linguagens de desenvolvimento utilizadas.
1. Banco de Dados: Utilizamos como sistema gerenciador de banco de dados o PostgreSQL
8.3 (179), por ser versátil, robusto, multiplataforma e gratuito, além de suportar um
17 Sistema
operacional é um conjunto de programas desenvolvidos para o gerenciamento de toda parte física
(hardware) do computador. Algumas funções do sistema operacional são: gerenciamento de memória, gerenciamento de disco, divisão do tempo de processamento entre os vários processos que são executados (escalonamento
de processos), entre outros.
18 Veja o endereço http://www.debian.org/ para mais informações sobre a distribuição Debian. Informações sobre as distribuições linux podem ser vistas em http://www.linux.org/.
19 Escrito em linguagem C e em linguagem Assembly, kernel é um conjunto de programas que constitue o núcleo
do sistema operacional.
46
vasto conjunto de dados e possuir um rápido e eficiente processo de cópia de segurança (backup) e recuperação de dados previamente salvos (restore) do banco. A ferramenta gráfica escolhida para o gerenciamento do banco de dados foi o pgAmin III v.1.8.4
(180). Esta é uma ferramenta gráfica que auxilia no gerenciamento e desenvolvimento do
banco de dados, caracterizando como um (front-end) para o desenvolvedor ou usuário do
sistema. Assim, torna-se eficiente a manipulação das estruturas de dados, como a criação
de tabelas, chave primária e estrangeira, definição de tipos de dados, etc., presentes no
banco de dados.
A modelagem do banco é totalmente flexível podendo ser modificada a qualquer momento
de acordo com a demanda e organização dos dados. Após uma criteriosa análise do problema (interação proteína-proteína, propriedades eletrostáticas de aminoácidos, proteínas
e complexos, potenciais estatísticos e outros) e compreensão de como as informações são
organizadas nos arquivos no formato PDB (estrutura SEQRES, ATOM, SSBOND, divisão
em cadeias, etc.), bem como as diferenças entre as informações de estruturas de proteínas
determinadas por cristalografia de raios X e ressonância magnética nuclear (vários modelos para uma mesma proteína), o banco de dados foi modelado para prover a organização
e relacionamento entre as informações nele contidas, proporcionando desta maneira uma
corretada adaptação do mesmo de acordo com as necessidades encontradas, podendo ser
estendido no futuro, caso necessário. Tal modelagem permite, além do correto armazenamento das informações, a correta recuperação dos dados, como, por exemplo, a obtenção
das mesmas informações contidas nos arquivos PDB além da possibilidade da aplicação
de filtros, através de comandos em linguagem SQL. Por exemplo, é possível recuperar
um determinado modelo específico de uma estrutura de proteína resolvida por ressonância magnética nuclear que, pelo uso desta técnica, geralmente possui vários modelos para
a representação da sua estrutura tridimensional. A Figura 7 exibe o modelo relacional
do banco de dados disponível no servidor http://glu.fcfrp.usp.br. O modelo
foi desenvolvido para permitir que informações a respeito dos potenciais estatísticos e
algumas propriedades eletrostáticas de proteínas (pré-processadas) sejam armazenadas,
visando minimizar o custo computacional em futuras análises.
47
Figura 7: Modelo relacional do banco de dados.
48
2. Servidor web: Estamos utilizando o Apache 2.0 (181) para servidor web e como servidor
de aplicações, para classes Java e páginas JSP, o Tomcat 5.5 (182). Os serviços estão
instalados e configurados em um computador do grupo em caráter experimental, onde
as diversas funções dos portais são submetidas a um conjunto de testes com o propósito
de identificar falhas no sistema. A medida que as tarefas vão sendo executadas e os
testes concluídos, o serviço é disponibilizado no servidor do laboratório (http://glu.
fcfrp.usp.br). A manutenção destes serviços continuará sob nossa responsabilidade.
3. Portais web: Os portais estão sendo desenvolvidos utilizando tecnologia Java 6 (SDK 1.6)
e JSP (2.0). Em conjunto, para maximizar a flexibilidade no desenvolvimento, utilizou-se
Python (2.6) (183) e gnuplot (184), ambos disponíveis por padrão em sistemas Linux.
Ao acessar os portais, o usuário encontrará um conjunto de análises, que poderão ser
requisitas, relacionadas ao estudo de propriedades eletrostáticas em proteínas e potenciais
estatísticos, tais como:
• Verificar a curva de titulação e capacitância de uma proteína em vários níveis de
predição;
• Visualizar a titulação e capacitância ideais de aminoácidos isolados;
• Cálculo do segundo coeficiente cruzado de virial em função do pH;
• Cálculo da variação da energia livre eletrostática de complexação, em função da
distância de separação entre duas proteínas escolhidas pelo usuário;
• Busca por freqüência de contatos;
• Análise das freqüências de contato entre pares de aminoácidos que formam o
complexo protéico.
Estas e outras ferramentas computacionais desenvolvidas para análise de proteínas serão melhor descritas no próximo capítulo - Ferramentas computacionais desenvolvidas.
49
6
FERRAMENTAS
COMPUTACIONAIS
DESENVOLVIDAS
Neste trabalho utilizamos e desenvolvemos diversas ferramentas computacionais as
quais foram incorporadas em portais web, podendo ser utilizadas gratuitamente por qualquer
usuário de computador. As próximas seções exibem os portais que foram criados para prover as
ferramentas desenvolvidas, assim como uma prévia explicação sobre a utilização de cada uma
delas.
Conforme proposto neste projeto, iremos analisar a formação de complexos protéicos
sob dois enfoques: a) estratégia 1 - enfoque físico (PROMETHEUS); b) estratégia 2 - enfoque computacional (MOLESA). Dessa forma iniciamos apresentando na Seção 6.1 o portal
PROMETHEUS e suas ferramentas. A Seção 6.2 apresenta o portal MOLESA.
6.1
Estratégia 1: Desenvolvimento de um portal web que permite o estudo de propriedades eletrostáticas em proteínas
Desenvolvemos um portal web1 , disponível em http://glu.fcfrp.usp.br/
services.htm, chamado PROMETHEUS (PROtein-Protein Complexes by Macroscopic
Electrostatic Theories and User-Friendly Simulations) capaz de realizar o cálculo de várias
propriedades eletrostáticas de proteínas e/ou complexos de proteínas assim como a predição do
fenômeno da complexação, entre duas proteínas escolhidas pelo usuário, em diferentes níveis
de predição (nível ideal, utilizando somente a seqüência primária da proteína, onde as equações
são resolvidas analiticamente, e nível baseado na estrutura 3D da proteína, utilizando a EPBL e
condições (pH, força iônica do meio, tipo de solvente, etc.), também informados pelo usuário.
1O
portal PROMETHEUS é uma ferramenta web capaz de analisar moléculas biológicas em vários níveis de
predição visando atender os mais diversificados perfis de usuários, além de prover novas ferramentas computacionais para a manipulação das informações biológicas. Assim, conforme proposto neste projeto, nós concluimos a
fase inicial de desenvolvimento, estruturação das ferramentas, escolha e configuração da infra-estrutura computacional, permitindo desta forma, que este trabalho seja continuado. O desenvolvimento modularizado (e estruturado
utilizando orientação a objetos), permite que vários novos recursos sejam inseridos no portal, assim como outras
ferramentas, como as utilizadas em predição de estrutura de proteínas e biologia sistêmica, por exemplo.
50
Figura 8: Página inicial do portal web PROMETHEUS. Disponível em:
http://glu.fcfrp.usp.br/services.htm.
Nesta fase, o portal considera apenas as interações eletrostáticas, assim os modelos propostos
são melhor aplicados em complexos protéicos para os quais as interações eletrostáticas são as
predominantes. O serviço para o cálculo das valências e pKa ’s é baseado em outros semelhantes
existentes na literatura (20, 79). A seguir serão exibidas as ferramentas disponíveis no portal e
as funções de cada uma delas. A Figura 8 exibe a página inicial do portal PROMETHEUS.
6.1.1
Cadastramento
Para ter acesso a qualquer ferramenta provida pelo portal, o usuário precisa realizar
previamente seu cadastro2 . As informações dos usuários são armazenadas no banco de dados
desenvolvido neste projeto e são utilizadas exclusivamente para identificação do usuário nos
sistemas web. Para minimizar o problema de cadastros “falsos”, o sistema envia, ao e-mail do
usuário que solicitou o cadastro, uma mensagem de confirmação de cadastramento, contendo
2 O cadastramento também é necessário para ter acesso as ferramentas providas pelo portal MOLESA. Uma vez
que a base de dados de usuários é a mesma, um único cadastro proporciona o acesso aos dois portais.
51
a chave de ativação. Somente após confirmar o e-mail é que o usuário terá o seu cadastro
concluído e estará apto para utilizar todos os recursos providos pelos portais, gratuitamente. A
privacidade dos cálculos realizados por cada usuário é garantida.
6.1.2
Propriedades dos aminoácidos isolados (Single amino acid
properties)
Nesta ferramenta o usuário tem acesso à titulação e capacitância de um único aminoá-
cido por ele escolhido. Esta ferramenta trabalha no nível de predição ideal e tem finalidade mais
didática. A Figura 9 exibe a tela onde o usuário efetua a escolha de qual aminoácido ele deseja
calcular as propriedades eletrostáticas e qual tabela de referência será utilizada para os valores
de pKa ’s experimentais para a realização dos cálculos.
Após a escolha dos parâmetros, pelo usuário, o sistema exibe como resposta, as curvas
de titulação e capacitância ideais em função do pH. A Figura 10 ilustra a resposta da ferramenta
“Single amino acid properties” ao usuário. É possível ampliar os gráficos clicando em cada um
deles, veja, por exemplo, as Figuras 11 e 12, assim como salvar as coordenadas utilizadas para
a criação de cada gráfico, caso o usuário deseje criar os gráficos a sua própria maneira.
Figura 9: Ferramenta "Single amino acid properties".
52
Figura 10: Curvas de titulação e capacitância ideais em função do pH do aminoácido ácido glutâmico (GLU),
obtidas pela ferramenta "Single Amino acid Properties".
Figura 11: Curva de titulação ideal do aminoácido ácido glutâmico (GLU). pKa = 4,4 (2).
53
Figura 12: Curva da capacitância ideal em função do pH, do aminoácido ácido glutâmico (GLU).
6.1.3
Propriedades de proteínas isoladas (Single protein properties)
Esta ferramenta provê os cálculos da titulação e capacitância de proteína e/ou
complexos de proteínas. Para utilizá-la, o usuário deverá informar, inicialmente, qual proteína
ele deseja analisar. Para tal há três opções: I) através do código PDB da proteína; II) enviando ao sistema (upload) um arquivo no formato PDB que contém a estrutura da proteína, e
III) enviando ao sistema (upload) um arquivo no formato FASTA3 . Os cálculos são realizados
utilizando os níveis de predição ideal e Poisson-Boltzmann (conforme a escolha do usuário),
exceto quando o usuário envia um arquivo no formato FASTA, onde somente as informações
sobre a seqüência primária da proteína estão presentes. Neste caso é possível realizar as análises
apenas no nível ideal (analítico). A seguir serão apresentadas as diferenças entre os parâmetros
de entrada que estão disponíveis ao usuário de acordo com o nível de predição escolhido.
6.1.3.1
Nível de predição ideal (analítico)
Neste nível de predição, após informar qual proteína será analisada, o usuário deve
escolher a tabela de referência que será utilizada para os valores experimentais de pKa ’s. A
Figura 13 exibe um exemplo de tela onde o usuário pode escolher os parâmetros para o cálculo
das propriedades eletrostáticas da proteína lisozima.
Os resultados obtidos após a execução da ferramenta são exibidos na Figura 14, a
qual exibe a curva de titulação e capacitância em função do pH, para a proteína lisozima
3 Neste
caso, o usuário pode enviar ao sistema o arquivo no formato FASTA seguindo o padrão disponível
no PDB ou NCBI. Veja em http://www.rcsb.org/pdb/home/home.do e http://www.ncbi.nlm.
nih.gov/ para mais detalhes.
54
Figura 13: Tela de aquisição de parâmetros para utilização da ferramenta “Single protein properties".
(PDB: 2LZT). Clicando em cada um dos gráficos, o usuário tem a opção de ampliá-los, veja,
por exemplo, as Figuras 15 e 16, assim como salvar o arquivo no formato PDB, gerado pelo
PROMETHEUS4 , da proteína escolhida para estudo e também o arquivo em formato texto com
os dados do processamento. Esses dados podem ser utilizados em qualquer outro programa para
que o usuário crie os gráficos à sua própria maneira.
4O
arquivo no formato PDB gerado pelo PROMETHEUS contém apenas os campos necessários para realizar
as análises propostas neste projeto, a saber: SEQRES, SSBONDS e ATOM. Além disso uma checagem básica
de consistência (átomos ausentes, aminoácidos ausentes, etc.) é realizada. Tais informações são adicionadas ao
mesmo arquivo PDB em campos REMARK.
55
Figura 14: Tela para apresentação dos resultados obtidos pela ferramenta “Single protein properties".
Figura 15: Curva de titulação da proteína lisozima (PDB: 2LZT).
56
Figura 16: Curva da capacitância, em função do pH, da proteína lisozima (PDB: 2LZT).
6.1.3.2
Nível de predição baseado na estrutura 3D da proteína através da utilização da
EPBL
No nível de predição Poisson-Boltzmann, além de informar qual proteína será anali-
sada, o usuário deverá informar os parâmetros necessários para solução da EPBL, utilizando o
pacote MEAD v.2.2.7. Tais parâmetros consistem em: a) constante dielétrica do solvente (εs );
b) constante dielétrica do interior da proteína (ε p ); c) campo força que será utilizado para criação do arquivo no formato PQR e conseqüentemente determinará as cargas dos aminoácidos na
proteína.
A ferramenta possui como opção os campos de força GROMOS96 v.53A6 e
AMBER99 (74, 75). Quando o campo de força GROMOS96 é escolhido, o arquivo no formato PQR é criado utilizando o pacote para dinâmica molecular GROMACS v.4.0.5. Quando o
campo de força AMBER99 é escolhido, utilizamos o programa PDB2PQR v.1.3.0 para criar o
arquivo no formato PQR. Pretendemos, no futuro, implementar outros campos de força como,
por exemplo, PARSE (83, 84), CHARMM (185) e TYL06 (157).
Após a escolha dos parâmetros de entrada, o sistema gera automaticamente todos os
arquivos de configurações necessários para a execução dos programas multiflex e redti, do pacote MEAD v.2.2.7, assim como a correta execução dos mesmos com os parâmetros informados
pelo usuário.
As Figuras 17 e 18 exibem as telas de aquisição de dados quando o nível de predição
Poisson-Boltzmann é escolhido. Após a execução, o usuário pode salvar todos os arquivos de
configurações gerados para execução dos programas multiflex e redti assim como os resultados
57
Figura 17: Tela para configuração dos parâmetros iniciais do portal PROMETHEUS.
obtidos após a execução dos mesmos e também os arquivos de coordenadas utilizados para
produção dos gráficos. A Figura 19 exibe a resposta do sistema ao término do processamento
do cálculo das propriedades eletrostáticas neste nível de predição. É possível ampliar os gráficos
clicando em cada um deles, veja, por exemplo, as Figuras 20 e 21.
58
Figura 18: Tela para a especificação dos parâmetros físico-químicos para entrada no programa multiflex.
Figura 19: Tela para apresentação das curvas de titulação e capacitância em função do pH, geradas pela
ferramenta “Single protein properties”.
59
Figura 20: Curva de titulação da proteína lisozima (PDB: 2LZT), no nível de predição Poisson-Boltzmann.
Figura 21: Curva da capacitância, em função do pH, da proteína lisozima (PDB: 2LZT), no nível de predição
Poisson-Boltzmann.
60
6.1.4
Interação Proteína-Proteína (Protein-protein interaction)
Essa é a ferramenta totalmente desenvolvida por nós. Aqui, o usuário tem acesso aos
estudos de formação de complexos entre duas proteínas, através da análise do ∆Gele e B23 .
Inicialmente, é necessário definir quais proteínas serão investigadas. Assim, como na
ferramenta Single protein properties, o usuário tem as opções de informar ao sistema, as proteínas que ele deseja analisar (predizer a formação do complexo), de três diferentes maneiras:
I) através dos códigos PDB’s das proteínas; II) enviando ao sistema (upload) um arquivo no
formato PDB que contém a estrutura da proteína (neste caso deverá ser informado um arquivo
para cada proteína) e III) enviando ao sistema (upload) o arquivo de cada proteína no formato
FASTA. Os cálculos são realizados utilizando os níveis de predição ideal e Poisson-Boltzmann
(conforme a escolha do usuário), exceto quando usuário enviar um ou os dois arquivos no formato FASTA. Neste caso, como somente as informações sobre a seqüência primária da proteína
estão presentes, é possível realizar as análises apenas no nível ideal. A seguir serão apresentadas as diferenças entre os parâmetros de entrada que estão disponíveis ao usuário de acordo
com o nível de predição escolhido. A Figura 22 exibe a tela onde o usuário informa as proteínas
para serem analisadas assim como o nível de predição que será empregado nos cálculos.
Figura 22: Tela para entrada dos parâmetros iniciais para a realização dos cálculos da predição de complexação
entre proteínas.
61
6.1.4.1
Nível de predição ideal (analítico)
Neste nível de predição o usuário deverá informar, além dos códigos PDB’s das proteí-
nas (ou arquivos no formato PDB/FASTA), o pH, a tabela de referência para os valores experimentais dos pKa ’s dos aminoácidos isolados, a concentração de sal, o peso molecular, o raio, a
valência dos íons presentes na solução, e por fim, deverá informar se o mecanismo de regulação
de cargas será utilizado ou não. Com base na seqüência primária de aminoácidos, o sistema
calcula e sugere o raio e o peso molecular de cada proteína, os quais podem ser alterados a
critério do usuário. Os resultados são gerados diretamente através da atribuição destes valores
nas expressões descritas na Seção 5.1.4.
A Figura 23 exibe a tela para configuração dos parâmetros que serão utilizados para
realização dos cálculos envolvidos na predição de complexos protéicos, no nível de predição
ideal.
O sistema exibe como resposta o gráfico do ∆Gele (em kB T ) em função da distância de
separação (em Ångström) entre as duas proteínas e o gráfico do B23 em função do pH. A Figura
24 exemplifica o processamento para as proteínas tirosina kinase (PDB: 1LCJ) e lisozima (PDB:
2LZT) no pH 10,4 com o mecanismo de regulação de cargas e força iônica nula. Clicando em
cada gráfico, o usuário tem a opção de ampliá-los, assim como salvar os arquivos que contêm
as coordenadas utilizadas para a construção dos mesmos.
A Figuras 25 e 26 apresentam, respectivamente, os gráficos ampliados, do ∆Gele em
função da distância de separação entre as duas proteínas e do B23 em função do pH, para as
proteínas tirosina kinase (PDB: 1LCJ) e lisozima (PDB: 2LZT), nas mesmas condições do
exemplo anterior. Clicando no código PDB de cada proteína, o usuário tem acesso ao arquivo da
estrutura da proteína no formato PDB, gerados pelo PROMETHEUS, acrescido de informações
a respeito do teste de consistência.
62
Figura 23: Tela para entrada dos parâmetros físico-químicos para predição de complexos protéicos, no nível de
predição ideal (analítico).
63
Figura 24: Tela para apresentação dos cálculos analíticos de ∆Gele (em unidades de kB T ) em função da distância
de separação (em Ångström) no pH 10,4 e do B23 em função do pH, em força iônica nula, para a complexação
entre as proteínas lisozima (PDB: 2LZT) e tirosina kinase (PDB: 1LCJ).
64
Figura 25: ∆Gele (analítico), no pH 10,4 e força iônica nula, para a complexação entre as proteínas lisozima
(PDB: 2LZT) e tirosina kinase (PDB: 1LCJ).
Figura 26: B23 (analítico) em função do pH, em força iônica nula, para a complexação entre as proteínas
lisozima (PDB: 2LZT) e tirosina kinase (PDB: 1LCJ).
65
6.1.4.2
Nível de predição baseado na estrutura 3D da proteína através de soluções da
EPBL
Neste nível de predição, ao invés de se empregar os valores de pKa ’s experimentais
dos aminoácidos “isolados" (Tabela 1), calculamos os pKa ’s de cada aminoácido ionizável, de
acordo com a posição de cada um deles na estrutura tridimensional da proteína. Uma vez que
o valor do pKa de cada aminoácido é influenciado pela vizinhança, ou seja, não são os mesmos
para todos os aminoácidos de um determinado grupo, este cálculo proporciona uma melhor
precisão ao preditor. O cálculo dos pKa ’s é realizado através da solução da EPBL pelo pacote
MEAD v.2.2.7.
Para utilizar a ferramenta neste nível de predição, o usuário deverá informar ao sistema,
inicialmente, as proteínas que ele deseja avaliar. Depois, é necessário informar os parâmetros
para a criação dos arquivos de configuração que serão utilizados pelo pacote MEAD para o
cálculo dos valores dos pKa ’s de cada aminoácido ionizável. A Figura 27 ilustra uma tela típica
para a realização desta tarefa.
Figura 27: Tela para entrada dos parâmetros que serão utilizados para a construção dos arquivos de configuração
utilizados pelo pacote MEAD para o cálculo dos pKa ’s dos aminoácidos ionizáveis.
66
Figura 28: Tela para definição das condições experimentais das simulações com as estruturas tridimensionais.
Para a criação dos arquivos no formato PQR5 , o usuário pode utilizar o campo de
força GROMOS96 v.53A6 ou o AMBER99. Na seqüência, é necessário definir as condições
experimentais. A Figura 28 ilustra a tela onde o usuário define as constantes dielétricas das
proteínas e solvente, a concentração de sal presente na solução e a temperatura do sistema. Note
que a constante dielétrica de cada proteína é apenas considerada nos cálculos dos pKa ’s para o
fornecimento das valências das proteínas isoladas. Na interação proteína-proteína, empregamos
a Equação 5.13, onde o efeito de duas interfaces dielétricas não é considerado.
Após escolha destes parâmetros é necessário definir o pH no qual serão realizados
os cálculos para a predição da complexação. A Figura 29 exibe a tela onde o usuário pode
5 Muitas estruturas protéicas disponíveis no PDB não possuem os átomos de hidrogênio presentes no arquivo
no formato PDB. Os campos de força são utilizados como referência na tentativa de inserir tais átomos na estrutura
da proteína, dessa forma, a posição de cada átomo de hidrogênio é dependente do campo de força. Alterações
adicionais podem ser realizadas na estrutura da proteína no intuito de otimizar as ligações de hidrogênio, veja
alguns exemplos nas referências (20, 69).
67
Figura 29: Tela para definição das condições experimentais para a predição da formação de complexo protéico.
configurar tais parâmetros para a predição da complexação. Nesta mesma tela é possível salvar
todos os arquivos de configuração utilizados pelo pacote MEAD v.2.2.7, assim como o arquivo
que contém os valores dos pKa ’s dos aminoácidos em relação a suas respectivas posições na
estrutura da proteína.
A Figura 30 apresenta o resultado dos cálculos para a predição da formação de um
68
complexo protéico, no nível de predição utilizando Poisson-Boltzmann, entre as proteínas lisozima (PDB: 2LZT) e calbindina (PDB: 3ICB). Para o cálculo da variação da energia livre
eletrostática, fixamos o pH em 11,1 e concentração de sal igual a 0,01M. É possível ampliar
cada um dos gráficos clicando sobre eles. Os mesmos gráficos, já ampliados, são mostrados nas
Figuras 31 e 32.
Figura 30: Tela para apresentação do ∆Gele , no pH 11,1 em força iônica igual a 0,01M, e do B23 , para a
complexação entre as proteínas lisozima (PDB: 2LZT) e calbindina (PDB: 3ICB).
69
Figura 31: ∆Gele entre as proteínas calbindina (PDB: 3ICB) e lisozima (PDB: 2LZT), em força iônica igual a
0,01M.
Figura 32: B23 entre as proteínas calbindina (PDB: 3ICB) e lisozima (PDB: 2LZT).
70
6.1.5
Ferramentas auxiliares desenvolvidas (Tools)
Além das ferramentas disponíveis neste portal web, foram desenvolvidas várias ou-
tras auxiliares que permitem expandir as análises realizadas e auxiliar os usuários durante a
manipulação de estruturas de proteínas, como por exemplo, verificar erros de inconsistência
nos arquivos PDB, separar um complexo protéico em proteínas independentes a partir de um
arquivo no formato PDB, etc. Isso proporciona que outros estudos (folding, predição de estruturas, mutações na proteína, etc.) sejam realizados, além dos já providos por este portal. A seguir
apresentamos a descrição e exemplos de utilização de cada uma das ferramentas auxiliares desenvolvidas neste trabalho.
6.1.5.1
Criar um arquivo no formato PQR (Create PQR file)
Esta é uma interface para ferramentas desenvolvidas por outros grupos e que permite a
criação de arquivo no formato PQR a partir de um arquivo PDB. O usuário informa ao sistema
a proteína através do código PDB da mesma ou enviando ao sistema (upload) o arquivo no
formato PDB que contém a estrutura da proteína. Em seguida, é necessário selecionar o campo
de força que será utilizado para atribuição das cargas e raios dos átomos de cada aminoácido.
O sistema exibe, como resposta, o arquivo no formato PQR da proteína informada pelo usuário. Estamos utilizando o programa PDB2PQR v.1.3.0 para a realização desta tarefa, quando o
usuário seleciona os seguintes campos de força: AMBER99, CHARMM27, PARSE, TYL06.
Quando o campo de força escolhido for o GROMOS96 v.53A6, utilizamos o pacote GROMACS
v.4.0.5 para criar o arquivo no formato PQR. A Figura 33 exibe a tela para configuração dos parâmetros utilizados na criação de um arquivo no formato PQR a partir de um arquivo no formato
PDB.
71
Figura 33: Tela da ferramenta que permite criar um arquivo no formato PQR a partir de um arquivo PDB.
6.1.5.2
Criar os arquivos utilizados pelo pacote MEAD (Create MEAD files)
O pacote MEAD necessita de diversos arquivos de configuração, como por exemplo,
uma lista dos resíduos ionizáveis que estão presentes na estrutura da proteína, configuração das
cargas (no estado protonado e deprotonado) de cada átomo contido nos aminoácidos presentes
na estrutura da proteína, criação do arquivo no formato PQR, etc. A criação de tais arquivos nem
sempre ocorre de maneira trivial, assim visando ampliar as possibilidades providas pelo portal
e ao mesmo tempo proporcionar a criação de tais arquivos por usuários não familiarizados com
as técnicas empregadas para este fim, desenvolvemos uma ferramenta capaz de criar todos os
arquivos de configuração, utilizados pelo MEAD, de forma automática. Como parâmetros, o
usuário deverá informar apenas o código PDB da proteína e o campo de força que será utilizado.
A Figura 34 exibe a tela para entrada dos parâmentros utilizados pela ferramenta “Create MEAD
files”.
72
Figura 34: Ferramenta “Create MEAD files”.
Após a execução desta ferramenta, todos os arquivos de configuração podem ser obtidos (download) diretamente do portal. Esta ferramenta extende as funcionalidades do portal
assim como as possibilidades para o usuário, uma vez que estes arquivos de configuração podem
ser utilizados em diversas novas análises, através da utilização de outros programas pertencentes ao pacote MEAD, como por exemplo, o cálculo do potencial eletrostático na superfície do
soluto, realizado pelo programa potential.
6.1.5.3
Separar proteínas (Split proteins)
Esta ferramenta é utilizada quando se deseja analisar, individualmente, proteínas que
estão complexadas. A partir de um arquivo no formato PDB, de um complexo protéico, a ferramenta separa em arquivos individuais, no formato PDB, cada proteína presente no complexo.
Tal recurso permite que várias análises sejam feitas, por exemplo: I) avaliar o comportamento
de um complexo formado por três proteínas, quando apenas duas delas estão complexadas; II)
combinar proteínas que estão presentes em diferentes complexos, em um novo complexo, e
avaliar seu comportamento; III) calcular as propriedades eletrostáticas das proteínas presentes
73
Figura 35: Tela para aquisição dos parâmetros experimentais, utilizados pela ferramenta “Split proteins”.
no complexo, de forma individual, etc. Para utilizar essa ferramenta o usuário deverá informar
os códigos PDB’s dos complexos de proteínas as quais deseja analisar e escolher a tabela de
referência que será utilizada para prover os valores de pKa ’s experimentais que serão utilizados
nos cálculos das propriedades eletrostáticas das proteínas. Nesta ferramenta os cálculos são
realizados no nível de predição ideal. A Figura 35 ilustra a tela onde o usuário insere os códigos
PDB’s das proteínas e/ou complexos de proteínas que serão processados.
A Figura 36 exibe os complexos de proteínas separados em proteínas independentes,
onde é possível combiná-las, duas a duas, para prever a complexação entre as mesmas. Clicando
nos links Titration e Capacitance, é possível ver as propriedades de cada proteína individualmente, assim como os arquivos no formato PDB, gerados pelo PROMETHEUS, de cada uma
delas, através do link que informa o código PDB do complexo/cadeia.
As Figuras 37 e 38 apresentam, respectivamente, as curvas de titulação e capacitância,
no nível de predição ideal, do complexo proteinase-inibidor (PDB: 2PTC), composto por duas
74
Figura 36: Complexos de proteínas separados em proteínas independentes pela ferramenta “Split proteins”.
proteínas6 .
6 Todo
arquivo PBD que possui mais de uma cadeia é considerado um complexo protéico. Assim, as proteínas
que formam o complexo são identificadas por tais cadeias. Por exemplo, o complexo proteinase-inibidor (PDB:
2PTC), é identificado por duas cadeias distintas, E e I, no arquivo PDB.
75
Figura 37: Curvas de titulação ideal de cada proteína individual, presente no complexo proteinase-inibidor
(PDB: 2PTC).
Figura 38: Curvas de capacitância ideal em função do pH de cada proteína individual, presente no complexo
proteinase-inibidor (PDB: 2PTC).
76
6.1.5.4
Classificação de proteínas (Find best case)
Esta ferramenta gera uma classificação entre as proteínas e/ou complexos de proteínas,
escolhidos pelo usuário ou entre todas as proteínas e complexos de proteínas presentes no nosso
banco de dados, quanto às suas propriedades eletrostáticas: titulação e capacitância. Como parâmetros, o usuário deverá indicar: I) em qual pH as proteínas deverão ser classificadas; II) qual
o critério de classificação (titulação ou capacitância) e III) o modo de ordenação do resultado
(crescente ou decrescente). A Figura 39 exibe a tela de aquisição de parâmetros para a execução da ferramenta “Find best fit”. Após selecionar os parâmetros, o usuário deverá clicar em
“Send parameters” e em seguida, em “Process”. Na Figura 40, um exemplo é apresentado.
Nesta análise, configuramos o pH em 7,5 e, como modo de ordenação, a titulação em ordem
decrescente. Clicando no link “properties” da coluna “Single protein properties”, o usuário poderá visualizar a curva de titulação e capacitância da proteína escolhida, assim como o arquivo
no formato PDB gerado pelo PROMETHEUS, clicando no seu respectivo código PDB. Nesta
ferramenta todos os cálculos são realizados utilizando o nível de predição ideal. Futuramente
estas análises serão estendidas para o nível de predição Poisson-Boltzmann, proporcionando
uma melhor precisão dos resultados.
Figura 39: Tela de aquisição dos parâmetros utilizados pela ferramenta “Find best case”.
77
Figura 40: Tela para apresentação do resultado obtido pela ferramenta “Find best case”, para um conjunto de
proteínas, no pH 7,5.
78
6.1.5.5
Limpar PDB (Clean PDB)
O arquivo PDB contém várias informações a respeito da estrutura de uma proteína:
método utilizado para obtenção da estrutura, fonte de origem da proteína, informações sobre os
pesquisadores que elucidaram tal estrutura, heteroátomos, ligantes presentes na estrutura, etc.
Muitas vezes esse vasto conjunto de informação não é relevante para cálculos em particular.
Visando simplicar, foi desenvolvida uma ferramenta que efetua a preparação inicial do arquivo
no formato PDB, tal processo consiste em duas etapas:
1. Remoção de campos “desnecessários”: Todos campos do arquivo no formato PDB são
excluídos, exceto os campos SEQRES (informações sobre a seqüência primária da proteína), ATOM (informações sobre a estrutura tridimensional da proteína) e SSBONDS
(informações sobre as pontes dissulfídicas presentes na estrutura). Para a maioria das
análises e operações realizadas com as estruturas de proteínas, essas são as informações
mais relevantes.
2. Checagem da consistência da estrutura da proteína: Após a “limpeza” do arquivo, é
realizada uma verificação de consistência da estrutura da proteína. Tal checagem consiste
em:
a. Validação da estrutura: Esta é uma fase crítica para confiabilidade não só do cálculo dos potenciais estatísticos, mas para todas as análises providas pelos portais. A
classe base responsável pela validação das estruturas é chamada FcrpValidation, a
qual realiza os seguintes procedimentos:
b. Verificação por resíduos faltantes: A aplicação verifica se todos os resíduos presentes na seqüência primária da proteína, providos pelo campo SEQRES do arquivo
PDB, estão presentes na resolução da estrutura tridimensional da proteína, provida
pelos campos ATOM do arquivo PDB;
c. Verificação por átomos faltantes: Para cada resíduo presente na estrutura primária
da proteína é verificado se este possui todos os átomos que o compõem, com exceção
dos átomos de hidrogênios quando a estrutura é resolvida por cristalografia de raios
X;
d. Verificação por resíduos desconhecidos: Efetua-se uma busca por resíduos desconhecidos tanto no campo SEQRES quanto no campo ATOM do arquivo PDB.
Qualquer resíduo diferente daqueles encontrados na Figura 4 é assumido ser um
resíduo desconhecido.
79
e. Verificação por átomos duplicados: Durante a determinação da estrutura 3D das
proteínas podem surgir dúvidas em relação à posição de alguns átomos. Neste caso,
um mesmo átomo é inserido mais de uma vez no arquivo PDB. Apenas a primeira
ocorrência de um átomo duplicado é considerada para a realização dos cálculos.
f. Relatório de erros ou mensagens de avisos para o usuário: Durante todos os
processos descritos acima, a aplicação registra os erros encontrados na estrutura,
os quais são exibidos ao usuário na forma de aviso (warning found) ou erro (error
found). Posteriormente os resultados da checagem são armazenados no banco de
dados evitando dessa forma que a mesma estrutura seja checada várias vezes. Tal
relatório é fornecido ao usuário.
Tais análises visam permitir o controle da qualidade das contas posteriores com essa
estrutura. A Figura 41 mostra a tela da ferramenta “Clean PDB”, onde o usuário informa
o código PDB da proteína que será analisada.
A Figura 42 exibe um exemplo de um arquivo no formato PDB, após ser processado pela
ferramenta Clean PDB. Note que foram inseridos novos campos REMARK (no início do
arquivo), onde são informados ao usuário os detalhes sobre a checagem de consistência
da estrutura por ele escolhida.
Figura 41: Ferramenta que efetua a preparação inicial de um arquivo no formato PDB.
80
Figura 42: Exemplo de um arquivo no formato PDB após ser processado pela ferramenta “Clean PDB”.
6.1.5.6
Ordenação de proteínas (Protein ranking)
Nesta ferramenta o usuário poderá classificar um conjunto de proteínas de acordo com
o pI (ponto isoelétrico) de cada uma. O usuário deverá submeter ao sistema (upload) um arquivo
texto com os códigos PDB’s das proteínas e/ou complexos de proteínas que ele gostaria de
ordenar. A ordenação é realizada utilizando o nível de predição ideal e, portanto, o usuário
deverá informar ao sistema qual tabela para valores de pKa ’s experimentais deverá ser utilizada
para a realização dos cálculos. Como resposta, o sistema exibe para o usuário, as proteínas
solicitadas ordenadas pelo seu pI. A Figura 43 exemplifica uma tela de classificação.
O usuário tem a opção de analisar as curvas de titulação e capacitância, no nível de predição ideal, de cada proteína (clicando nos links correspondentes), assim como salvar o arquivo
no formato PDB gerado pelo PROMETHEUS (clicando no código PDB da proteína). Além da
classificação das proteínas, o sistema permite calcular a predição (no nível ideal) do complexo
protéico entre duas proteínas. Para tal, o usuário deverá selecionar duas proteínas e escolher em
quais condições experimentais os cálculos serão realizados. A Figura 44 mostra a tela onde o
usuário poderá selecionar as proteínas e definir as condições experimentais (pH, concentração
de sal na solução, etc.) para a predição da complexação. Clicando em “Build protein-protein
interaction” o sistema realiza a predição entre as proteínas escolhidas pelo usuário. Se o usuário
desejar fazer uma combinação entre todas as proteínas, para poder analisar dentre as proteínas
escolhidas, quais são as mais favoráveis para a formação de um complexo protéico, ele poderá
clicar na opção “All-all protein interaction”.
81
Figura 43: Tela inicial para ordenação de proteínas e/ou complexos de proteínas pelo pI.
A Figura 45 apresenta as curvas do ∆Gele e B23 , entre todas as proteínas informadas
pelo usuário para execução da ferramenta “All-all protein interaction”7 . Os gráficos de cada
interação podem ser ampliados, conforme exibidos pelas Figuras 46 e 47, as quais mostram,
respectivamente, os gráficos ampliados do ∆Gele e B2 (analítico) entre duas proteínas calbindinas (PDB: 3ICB).
7 Neste
exemplo, informamos à ferramenta as proteínas calbindina (3ICB), β -lactoglobulina (1BEB) e o
complexo hirundina-trombina (4HTC).
82
Figura 44: Tela para entrada dos parâmetros físico-químicos utilizados para a predição da complexação entre
duas proteínas.
83
Figura 45: Tela para apresentação dos resultados obtidos pela ferramenta “All-all protein interaction”.
84
Figura 46: ∆Gele entre duas proteínas calbindinas (PDB: 3ICB).
Figura 47: B2 entre duas proteínas calbindinas (PDB: 3ICB).
85
6.2
Estratégia 2: Desenvolvimento de um portal web que permite a análise da freqüência de contatos entre os aminoácidos que formam um complexo protéico
Desenvolvemos um portal web, disponível em http://glu.fcfrp.usp.br/
services.htm, chamado MOLESA (MOLEcular Structural Analysis)8 , que estima a
energia livre em função da distância de separação (também conhecida por potencial de força
média ou potencial estatístico) entre pares de aminoácidos presentes em cadeias distintas de um
complexo protéico. Para utilizar as ferramentas providas pelo portal, o usuário deverá informar
ao sistema, inicialmente, quais são os complexos de proteínas que ele gostaria de analisar. O
envio dos códigos pode ser feito de duas maneiras: I) inserindo no sistema os códigos PDB’s
dos complexos protéicos; e II) enviando um arquivo (upload) no formato texto, contendo os
códigos PDB’s dos complexos protéicos que serão analisados. A Figura 48 ilustra a tela onde
os códigos PDB’s das proteínas podem ser inseridos no sistema.
Figura 48: Tela para inserção dos códigos PDB’s dos complexos de proteínas que serão analisados pela
ferramenta “Statistical potential” do portal MOLESA.
8 Assim
como o portal PROMETHEUS, o portal MOLESA permite a incorporação de outras ferramentas e
serviços web, permindo de tal forma que este trabalho seja continuado e aprimorado, no futuro.
86
Após a definição do conjunto de complexos protéicos que serão analisados, antes da
realização dos cálculos, é necessário definir alguns parâmetros, descritos a seguir:
1. Escolha dos aminoácidos: o usuário precisa escolher quais serão os pares de aminoácidos que estarão envolvidos nas análises;
2. Maior distância entre os aminoácidos (Max. Dist. Between AA): este parâmetro informa ao sistema qual será a distância de corte para que a contagem dos aminoácidos seja
efetuada;
3. Tamanho das fatias do histograma (bin size).
A Figura 49 mostra um exemplo de tela onde o usuário poderá configurar os parâmetros apresentados anteriormente. Neste exemplo, selecionamos os aminoácidos ácido glutâmico
(GLU) e leucina (LEU) para a contabilização das freqüências de pares. Optamos por fazer a
contagem da freqüência de contatos entre os resíduos que estiverem separados em até 100 Å
de distância. Configuramos para 5 Å o tamanho das fatias para a contagem das distâncias de
separação dos resíduos. Visando um melhor entendimento de como um complexo protéico é
tratado pelo sistema e do significado de cada parâmetro, criamos um complexo protéico hipotético formado por duas proteínas as quais são representadas por cadeias (nomenclatura adotada
pelo PDB), neste exemplo denotadas por cadeia A e cadeia B. As esferas representam os aminoácidos de cada proteína e as cores indicam tipos diferentes de aminoácidos. A Figura 50
ilustra o complexo protéico hipotético formado por duas proteínas e a Figura 51 ilustra como é
realizado o cálculo das distâncias de separação entre os resíduos presentes em cadeias distintas
no complexo protéico.
No exemplo ilustrado pela Figura 51, definimos o tamanho das fatias em 3 Å. Portanto,
o cálculo da freqüência de pares será realizado da seguinte forma:
1. Contagem da quantidade de aminoácidos i e j presente entre as distâncias de separação
entre 0 e 3 Å;
entre 3 e 6 Å;
entre 6 e 9 Å;
4. A contagem se repete até que a distância máxima de separação entre os aminoácidos i e j
seja atingida. Neste exemplo esta distância é igual a 100 Å.
87
Figura 49: Tela para configuração dos parâmetros que serão utilizados pela ferramenta “Statistical potential”.
Após a contagem da freqüência de pares entre todas as distâncias solicitadas pelo o
usuário, o sistema calcula, a parir da relação de Boltzmann, o potencial de força média entre os
aminoácidos i e j, escolhidos pelo usuário. A Figura 52 exibe o resultado do processamento do
cálculo dos potenciais estatísticos. As Figuras 53 e 54 exibem os mesmos gráficos ampliados.
Figura 50: Ilustração de um complexo protéico esquemático formado por duas proteínas (representadas pelas
cadeias A e B) para a realização do cálculo da distância de separação entre os resíduos presentes em cada proteína.
88
Figura 51: Ilustração do contador de freqüências entre os aminoácidos i e j de um complexo protéico
esquemático.
Como resultado do processamento, o portal exibe quatro gráficos os quais serão descritos a seguir:
1. g(r)∗ : O primeiro gráfico apresentado pela Figura 52 exibe a freqüência de observações
de distâncias entre pares de aminoácidos;
2. g(r)∗ normalizado [normalized g(r)∗ ]: O segundo gráfico apresentado pela Figura 52
exibe os dados da função g(r)∗ normalizados. Neste exemplo os dados foram normalizados assumindo uma interpretação probabilística, onde a soma de todos os pontos da curva
é igual a 1 (um);
3. Potencial de força média [g(r)∗ ] {potential of mean force [g(r)∗ ])}: O terceiro gráfico
mostrado na Figura 52 exibe o potencial de força média (em kB T ) em função da distância
de separação (em Ångström), obtido da freqüêcia de contatos normalizada pelo método
probabilístico.
4. Potencial de força média (FDR) [potential of mean force (FDR)]: O último gráfico
mostrado pela Figura 52 exibe o potencial de força média (em kB T ) em função da distância de separação (em Ångström), normalizado com base na FDR na qual assumimos que
não há nenhuma interação entre os resíduos mais distantes.
A próxima seção apresenta como é o funcionamento do portal MOLESA.
89
Figura 52: Freqüência de contatos e potencial de força média entre os resíduos i e j.
90
Figura 53: Freqüência de contatos (com e sem normalização) entre os resíduos i e j.
Figura 54: Potencial de força média entre os resíduos i e j, normalizados de forma probabilística e com base na
FDR.
91
6.2.1
Funcionamento do portal MOLESA
Inicialmente a ferramenta calcula a distância de separação entre um resíduo de ami-
noácido de uma cadeia e todos os resíduos presentes em outra cadeia de um complexo protéico.
Após realizar os cálculos, os resultados são armazenados em um banco de dados local onde
é possível executar buscas personalizadas, como por exemplo, saber a distância de separação
entre os ácidos glutâmicos de uma proteína (cadeia A, por exemplo) e as alaninas presentes
em outra proteína (cadeia B) em um determinado conjunto de complexos protéicos, informados
pelo usuário. Esta busca é possível, pois já teremos calculadas todas as combinações possíveis
entre os resíduos que formam o complexo protéico e com o auxílio de comandos em linguagem
SQL poderemos efetuar as buscas de nosso interesse. Porém, antes de efetuar o cálculo das distâncias de separação entre os resíduos, executamos uma série de procedimentos, os quais serão
descritos a seguir:
1. Obtenção da estrutura de interesse: A obtenção da estrutura de interesse é realizada
pela classe FcfrpPDB e segue o seguinte protocolo:
• É feita uma verificação, pelo código PDB da proteína, se a estrutura que se deseja
analisar já está inserida no banco de dados local. Se a estrutura for encontrada
na base de dados local, indica que os procedimentos descritos nos itens 2 e 3 já
foram executados e o resultado da análise é exibido para o usuário. Caso contrário,
a aplicação obtém do PDB a estrutura requisitada pelo usuário e, em seguida, é
feita a validação desta estrutura9 . Assumimos que os dados estão validados quando
os mesmos são submetidos ao nosso validador de estruturas, embora este fato não
garanta que as estruturas estão livres de erros. Nesta primeira versão do aplicativo
não há nenhum critério para exclusão de um complexo de nossa base de dados em
relação à quantidade de erros encontrados no mesmo, sendo assim, fica a critério
do usuário o uso de tal complexo para a realização de suas análises.
2. Inserção dos dados no banco de dados: A inserção dos dados no banco de dados é realizada pela classe FcfrpInsertPDB2Database da sequinte forma: As informações contidas
nos campos SEQRES, ATOM, e SSBOND, são inseridas no nosso banco de dados nas
tabelas apropriadas, assim como todas as mensagens de erros e avisos que serão exibidos
ao usuário caso o mesmo solicite tal estrutura para testes.
3. Cálculo das distâncias: Após a validação do complexo protéico, obtêm-se as informações contidas nos campos ATOM do arquivo PDB, calcula-se o centro geométrico de cada
9O
protocolo de validação das estruturas protéicas é descrito na Subseção 6.1.5.5 - Limpar PDB (Clean PDB).
92
resíduo e em seguida a distância do centro geométrico entre todos os resíduos que estão
em cadeias distintas do complexo. Todas as combinações são armazenadas no banco de
dados e serão recuperadas posteriormente para gerarem os potenciais estatísticos.
4. Normalização 1 – visão probabilística: A partir da freqüência de contatos, obtidas pelo
cálculo de gi j (r)∗ , assumimos que a soma de todos os pontos da curva por ela gerada é
igual a 1. Dessa forma encontramos o valor pelo o qual todos os pontos devem ser multiplicados a fim de obtermos a curva normalizada. Com os dados normalizados efetuamos
o cálculo do potencial de força média (em kB T ), utilizando a Equação 4.710 , entre dois
resíduos (i e j) na distância r. O Algoritmo 1 exibe o pseudocódigo utilizado para realizar
a normalização 1.
Algoritmo 1: Pseudocódigo utilizado para realizar a normalização dos dados, pelo critério 1.
função: Normaliza_dados_1( arquivo_g(r)* ):
para para cada interação entre os resíduos i e j (onde i e j representam os 20
aminoácidos naturais) faça
leia todos os pontos gerados pela equação g(r)*;
Some todos os pontos lidos;
Armazene o valor na variável sum;
calcule o fator de correção fc da seguinte forma:
1
;
fc = sum
multiplique cada ponto de g(r)* por fc;
salve as alterações em um arquivo no formato txt;
nome = residuo.i-residuo.j_normalizado1.txt;
renomeie o arquivo para nome;
5. Normalização 2 – visão de g(r): A partir da freqüência de contatos, obtidas pelo cálculo
de gi j (r)∗ , calculamos o PFM e em seguida executamos a normalização dos resultados.
Desta vez encontramos o valor do último ponto da curva e o igualamos a zero (local onde
assumimos não haver nenhuma interação entre os resíduos). Subtraímos então este valor
de todos os pontos da curva.
Os procedimentos adotados estão explicados de uma forma bastante reduzida. A descrição detalhada sobre a utilização das diversas subclasses podem ser encontradas no Apêndice
B.
4.7: wi j (r) = −kB T ln[gi j (r)∗ ], apresentada na Seção 4.6 - Potencial de força média, utilizada para
calcular o potencial de força média de uma determinada correlação de pares [gi j (r)∗ ] entre dois resíduos i e j.
10 Equação
93
7
RESULTADOS
Os resultados podem ser divididos em duas áreas: I) física e II) computacional, onde,
na primeira, analisamos as propriedades eletrostáticas de aminoácidos e proteínas com base em
sua estrutura primária e tridimensional, avaliando o efeito das condições experimentais e parâmetros, como a constante dielétrica no interior da proteína e campo de força. Avaliamos o
efeito do mecanismo de regulação de cargas e a partir de propriedades termodinâmicas buscamos o entendimento da formação de complexos protéicos. Na segunda, realizamos a análise,
criação e configuração da infra-estrutura computacional necessária para prover as ferramentas
desenvolvidas.
A apresentação dos resultados está organizada da seguinte forma: a) Iniciamos apresentando, na Seção 7.1 a validação dos dados iniciais, os quais são utilizados como parâmentos
pelo PROMETHEUS. Estas informações consistem na predição da titulação e capacitância dos
aminoácidos e proteínas, e comparação com resultados da literatura. Apresentando também
as diferenças entre as previsões efetuadas nos dois níveis preditivos: 1) analítico, utilizando
somente a seqüência primária e 2) Poisson-Boltzmann, utilizando a estrutura 3D da proteína;
b) Em seguida apresentamos predições de complexos, comparação com dados experimentais e
análises metodológicas (protocolos) e físicas (influência do mecanismo de regulação de cargas);
c) apresentação dos resultados do portal MOLESA.
7.1
O portal PROMETHEUS - predição com base nas
propriedades eletrostáticas das proteínas
Uma vez que as ferramentas desenvolvidas apresentam um grande número de fun-
ções, variáveis e parâmentos envolvidos nas diversas fases do processamento, foi necessário,
para garantir o correto funcionamento de cada ferramenta, validar individualmente os resultados obtidos pelas mesmas. Assim, de uma forma hierárquica, efetuamos a validação de cada
ferramenta, partindo do nível mais básico adotado pelos portais (propriedades eletrostáticas dos
aminoácidos) ao nível mais alto (propriedades eletrostáticas de proteínas), os quais estão apresentados na seguinte ordem: 1) Subseção 7.1.1 - Validação das propriedades eletrostáticas dos
94
Figura 55: Curva de titulação ideal do aminoácido alanina (ALA).
aminoácidos, apresenta a validação dos resultados para os cálculos das propriedades eletrostáticas dos aminoácidos ionizáveis, 2) Subseção 7.1.2 - Validação das propriedades eletrostáticas
de proteínas, apresenta a validação dos resultados para os cálculos das propriedades eletrotáticas de proteínas nos dois níveis preditivos: a) seqüência primária e b) seqüência terciária da
proteína.
7.1.1
Validação das propriedades eletrostáticas dos aminoácidos
Com base nas constantes de equilíbrio termodinâmicas dos aminoácidos ionizáveis,
apresentadas na Tabela 1, efetuamos os cálculos da titulação e capacitância dos aminoácidos1 .
As Figuras 55 – 58, exibem, respectivamente os gráficos das curvas de titulação e capacitância dos aminoácidos alanina (ALA) e arginina (ARG), calculadas de acordo com as equações
apresentadas no Capítulo 5 - MATERIAL E MÉTODOS.
A Tabela 3 exibe os valores de pKa ’s e a comparação dos pI’s dos aminoácidos ionizáveis, medidos experimentalmente e os calculados pelo PROMETHEUS, utilizando como
tabelas de referências para os valores experimentais de pKa ’s, as tabelas de Nozaki e Tanford e
Creighton.
De acordo com o modelo adotado nas simulações, observa-se algumas diferenças entre
os pI’s teóricos e os medidos experimentalmente. Estas diferenças se devem ao fato de termos
1 Nesta
ferramenta os cálculos teóricos dos valores de pKa ’s dos aminoácidos ionizáveis, foram realizados
assumindo que o aminoácido encontra–se isolado dos demais.
2 Utilizamos os valores de pK ’s experimentais da tabela de Nozaki e Tanford (NT) (2).
a
3 Utilizamos os valores de pK ’s experimentais da tabela de Creighton (Cr) (171). Neste caso, adotamos o valor
a
médio.
95
Figura 56: Curva da capacitância ideal em função do pH, do aminoácido alanina (ALA).
Figura 57: Curva de titulação ideal do aminoácido arginina (ARG). pKa = 12,0 (2).
Grupo
pKa NT (2)
pKa Cr (171)
pI PROMETHEUS (NT)2
pI PROMETHEUS (Cr)3
pI experimental (21)
Carboxila
ASP
GLU
HIS
Amina
CYS
TYR
LYS
ARG
3,8
4,0
4,4
6,4
7,5
9,5
9,6
10,4
12,0
3,5 – 4,3
3,9 – 4,0
4,3 – 4,5
6,0-7,0
6,8 – 8,0
9,0 – 9,5
10,0 – 10,3
10,4 – 11,1
12,0
3,9
4,1
6,9
5,6
5,6
9,0
10,0
3,9
4,1
7,0
5,7
5,6
9,1
10,0
3,0
3,1
7,6
5,1
5,6
9,5
10,7
Tabela 3: Comparação entre os pI’s experimentais e os calculados pelo PROMETHEUS no nível analítico. Os
dados experimentais foram obtidos da referência (21).
96
Figura 58: Curva da capacitância ideal em função do pH, do aminoácido arginina (ARG).
considerado o aminoácido isolado e em força iônica nula, condição esta dificilmente encontrada
em modelos experimentais. Nos modelos experimentais o pKa é obtido, normalmente, a partir
de peptídeos com uma seqüência de resíduos do tipo a em diferentes concentrações de sal e
macromolécula. Outro fator que pode contribuir nesta diferença é que, além do valor do pKa
do aminoácido em questão, nós adicionamos a ele mais duas contribuições: vindas do grupo
α-Carboxil, e N-Terminal, cujos valores de pKa ’s são respectivamente 3,8 e 7,5 (2).
As capacitâncias apresentam unicamente valores positivos, representando dessa forma
a capacidade do aminoácido aumentar sua carga elétrica em função da concentração de átomos
de hidrogênio (pH) presentes no meio ou sob a influência de um outro corpo carregado ou
campo elétrico.
7.1.2
Validação das propriedades eletrostáticas de proteínas
Após a validação das propriedades eletrostáticas dos aminoácidos, iniciamos a valida-
ção para as proteínas.
As Figuras 59 e 60 exibem, respectivamente, a comparação entre a curva de titulação
teórica, obtida pelo modelo analítico e a medida experimentalmente4 , para a lisozima (PDB:
2LZT), e a comparação entre as curvas de titulação teóricas, obtida analiticamente e por simulação MC (5), utilizando o modelo de aminoácido, da calbindina (PDB: 3ICB).
A Figura 61 exibe a comparação entre a titulação obtida analiticamente, através do
4 Valores
25◦ C.
experimentais obtidos da referência (15) em força iônica igual a 0,1M de cloreto de potássio (KCl) a
97
Figura 59: Comparação entre as curvas de titulação teórica e experimental da proteína lisozima (PDB: 2LZT) em
força iônica igual a 0,1M.
Figura 60: Comparação entre as curvas de titulação teóricas obtidas analiticamente e por simulação Monte Carlo
da proteína calbindina (PDB: 3ICB) em força iônica nula. ∗ Dados obtidos da referência (5).
98
Figura 61: Comparação entre a titulação ideal (curva vermelha), obtida pelo portal PROMETHEUS, e titulação
MA, obtida por simulação Monte Carlo (curva verde - concentração da proteína: 150µM; concentração de sal:
0,15M (3)) da proteína β -lactoglobulina (PDB: 1BEB). pI experimental: 5,18 (4).
portal PROMETHEUS e a titulação baseada na estrutura 3D da proteína, utilizando o modelo
atomístico (MA)5 obtida por simulação Monte Carlo, da β -lactoglobulina (PDB: 1BEB), forma
dimérica, na qual a concentração da proteína foi fixada em 150 µM e a concentração de sal em
0,15 M (3).
Apesar da simplificação utilizada por nossa ferramenta (nível de predição ideal), a titulação por ela provida é muito semelhante à titulação MA, obtida por simulação MC, onde
se considerou a estrutura 3D da proteína. A semelhança entre as curvas pode ser explicada
pela presença de sal. A quantidade de sal afeta as interações eletrostáticas que ocorrem entre
os aminoácidos da proteína, fazendo a “blindagem” de tais interações. Assim, o comportamento da titulação MA se aproxima da titulação ideal. Essa aproximação é ainda maior quando
aumentamos a concentração de sal na solução6 .
Observamos que o pI das duas curvas são bastante próximos, e se formos considerar
os erros experimentais (100, 170), a comparação torna-se ainda melhor. Entre os pH’s 5 e 9
a titulação ideal e modelo atomístico da proteína é praticamente a mesma. Dessa forma nossa
ferramenta é útil, pois é neste intervalo de pH (pH fisiológico) que a maioria das reações químicas vitais ocorrem, assim como a complexação entre proteínas. Uma das vantagens da nossa
5 Chamamos
de titulação utilizando o modelo atomístico (MA), a titulação obtida por simulação através do
método Monte Carlo. Nesta simulação, além da proteína representada em detalhes atomísticos, está presente sua
concentração e os íons móveis presente na solução, tornando o sistema (teórico) mais próximo ao sistema real
(condições as quais os dados experimentais são obtidos).
6 O efeito da força iônica será apresentada no Tópico 7.1.2.3 - O efeito da força iônica.
99
Figura 62: Comparação entre a capacitância ideal em função do pH, da proteína lisozima (PDB: 2LZT) provida
pelo portal PROMETHEUS e a obtida da referência (5).
ferramenta é a velocidade em que os cálculos são realizados. Neste caso, devido à simplificação
do modelo, é necessário apenas alguns segundos para que o resultado (curva de titulação ideal)
seja obtido. Tal fato permite que estas análises possam ser efetuadas em larga escala com um
baixo custo computacional. Neste exemplo (Figura 61), utilizamos um microcomputador cuR 2,4 GHz e 512 MB de memória
jas principais características são: processador Intel Celeron
RAM. Assumindo que a proteína está inserida no nosso banco de dados, foi observado que o
tempo médio entre a requisição e a resposta do sistema ao usuário foi de aproximadamente 10
segundos. Se formos levar em consideração a latência da rede, podemos dizer que o tempo
de processamento é aproximadamente 8 segundos. Na Subseção 8.1.1 - Análise da complexidade de algoritmos, para um melhor entendimento do custo computacional em relação ao
crescimento do sistema (quantidade das análises vs. custo de realizar as operações em larga escala), será apresentada uma análise da complexidade dos algoritmos desenvolvidos neste nível
de predição.
As Figuras 62 e 63 exibem, respectivamente, a comparação entre as curvas das capacitâncias teóricas obtidas analiticamente, utilizando o PROMETHEUS e as obtidas da referência
(5), para a lisozima (PDB: 2LZT) e calbindina (PDB: 3ICB).
A Tabela 4 exibe uma comparação entre os valores teóricos e experimentais para os
pontos isoelétricos de algumas proteínas. O parâmetro RMSD foi calculado em relação aos
valores medidos experimentalmente. Estas comparações demonstram boas concordâncias entre nossos resultados com dados experimentais e outras previsões teóricas, utilizando o nível
100
Figura 63: Comparação entre a capacitância ideal em função do pH, da proteína calbindina (PDB: 3ICB),
provida pelo portal PROMETHEUS e a obtida da referência (5).
de predição analítico. Com o objetivo de melhorar a precisão dos nossos resultados, fizemos
as predições das propriedades eletrostáticas das proteínas utilizando sua estrutura 3D. Para tal
é necessário predizer as constantes de equilíbrio termodinâmicas (pKa ’s) de cada aminoácido
ionizável em função de sua posição na estrutura da proteína. Estas predições são realizadas
através da utilização de alguns programas contidos no pacote MEAD v.2.2.7, as quais resolvem
a EPBL. Os critérios utilizados para a predição dos valores de pKa ’s dos aminoácidos ionizáveis
estão apresentados na Subseção 8.2.1 - Critérios para a predição dos pKa ’s dos aminoácidos
ionizáveis. As próximas tabelas exibem o cálculo dos pKa ’s dos aminoácidos ionizáveis que
constituem as proteínas lisozima (PDB: 2LZT), BPTI (PDB: 4PTI), calbindina (3ICB) e ribonuclease A (PDB: 3RN3) em várias condições experimentais. O objetivo é variar os parâmetros
que são utilizados para a realização dos cálculos e analisar qual é a melhor configuração para
os dados de entrada que são utilizados pelos programas do pacote MEAD v.2.2.7 (a que mais
se aproxima dos dados experimentais) para predizer os valores pKa ’s de cada aminoácido em
função da sua posição na estrutura da proteína. Utilizamos os campos de força GROMOS96
v.53A6 e AMBER99 como parâmetros para a criação dos arquivos no formato PQR. Não foi
feita nenhuma otimização no sistema ou minimização de energia após o arquivo PQR ter sido
criado. Após a criação do arquivo PQR, efetuamos uma padronização dos raios de todos os átomos presentes na estrutura da proteína, de acordo com a referência (20), pois com esta alteração
obtivemos resultados em melhores concordâncias com os dados experimentais.
101
Proteína
PROMETHEUS7
Lisozima (2LZT)
10,6
Calbindina (3ICB)
4,5
10
BPTI (4PTI)
10,0
Ribonuclease A (3RN3)
9,4
Subtilisina (2SNI)
6,7
Cromatina (1H5O)
10,7
Concanavalina A (2YZ4)
5,3
Colipase II (1LPB)
6,4
11
RMSD
1,69
Patrickios8
10,5
–
10,4
9,6
7,0
10,7
5,0
5,8
1,14
SIB9
9,3
4,5
9,2
8,6
6,6
9,5
5,3
6,1
2,85
pI experimental
11,1 [Ref. (15)]
4,5 [Ref. (13)]
10,6 [Ref. (170)]
9,6 [Ref. (170)]
6,7 [Ref.(170)]
10,3 [Ref.(170)]
5,0 [Ref.(170)]
5,0 [Ref.(170)]
Tabela 4: Comparação entre os pontos isoelétricos experimentais e teóricos, com os calculados pelo
PROMETHEUS no nível de predição analítico.
As Tabelas 5 – 8 exibem os valores de pKa ’s, dos aminoácidos ionizáveis, da proteína
lisozima (PDB: 2LZT) e BPTI (PDB: 4PTI) preditos pelo portal PROMETHEUS (utilizando
os campos de força GROMOS96 e AMBER99), pelo serviço H++ e os determinados experimentalmente. Fixamos a constante dielétrica do solvente em 80,0, a temperatura em 298,0
K e variamos a constante dielétrica da proteína de 4 a 80 em diversas concentrações de sal (I
= 0,01M, 0,1M e 0,15M). O RMSD de todos os pKa ’s preditos pelo portal PROMETHEUS
(RMSD Exp.) e o desvio máximo (Desvio Max.) foram calculados em relação aos pKa ’s experimentais. Para efeito de comparação, exibimos também o RMSD e o desvio máximo entre
os pKa ’s preditos pelo serviço H++ e os determinados experimentalmente. Note que, para as
duas proteínas analisadas, o campo de força GROMOS96 apresentou melhores concordâncias
com os dados experimentais, em relação ao campo de força AMBER99, quando não realizamos
ajustes conformacionais na proteína.
7 pI’s
calculados analiticamente. Utilizamos a tabela de NT (2) para valores experimentais dos pKa ’s dos
aminoácidos ionizáveis. Assumiu-se força iônica nula.
8 Valores dos pI’s obtidos da referência (170).
9 SIB: Instituto Suíço de Bioinformática (Swiss Institute of Bioinformatics), disponível em http://expasy.
org/tools/protparam.html (186).
10 Abreviação utilizada para o Inibidor da Tripsina Pancreática Básica (Basic Pancreatic Trypsin Inhibitor) BPTI.
11 RMSD: Abreviatura utilizada para o desvio padrão (Root Mean Square Deviation). Optou-se por manter a
abreviação em inglês por ser bem consistente na literatura.
Resíduo
Nter1
Lys1
Glu7
Lys13
His15
Asp18
Tyr20
Tyr23
Lys33
Glu35
Asp48
Asp52
Tyr53
Asp66
Asp87
Lys96
Lys97
Asp101
Lys116
Asp119
Cter129
RMSD Exp.
Desvio Max.
I= 0,01M
2,64
8,84
2,00
10,69
4,50
0,89
18,37
9,78
10,21
7,13
2,13
-0,54
23,91
5,18
2,18
13,22
11,01
4,14
8,71
3,16
2,94
16,95
11,81
εp = 4
I=0,1M
3,19
9,10
2,89
10,67
4,92
1,74
17,81
9,95
10,33
7,48
2,74
0,36
23,46
5,59
3,09
12,82
10,97
4,65
8,86
3,70
3,52
16,02
11,36
I=0,15M
3,27
9,14
3,05
10,65
4,99
1,88
17,72
9,98
10,36
7,52
2,84
0,51
23,39
5,66
3,25
12,74
10,96
4,74
8,88
3,78
3,61
15,91
11,29
I=0,01M
6,10
9,86
2,25
10,89
5,52
1,77
10,15
9,01
10,26
4,18
2,20
1,60
10,90
2,41
1,65
12,34
11,28
2,94
9,96
2,22
2,44
4,98
2,08
ε p = 20
I=0,1M
6,43
10,03
3,06
10,84
5,89
2,55
10,36
9,32
10,39
4,65
2,80
2,41
11,04
2,98
2,53
11,96
11,12
3,50
10,01
2,86
3,08
4,17
2,08
PDB: 2LZT - lisozima
Campo de força: GROMOS96
T = 298,0 K / εs = 80,0
ε p = 40
I=0,15M I=0,01M
I=0,1M
I=0,15M
6,48
6,53
6,85
6,89
10,06
10,16
10,26
10,27
3,20
2,35
3,12
3,25
10,81
10,93
10,87
10,84
5,95
5,70
6,05
6,10
2,68
1,90
2,66
2,78
10,40
9,36
9,62
9,68
9,37
8,89
9,20
9,26
10,41
10,34
10,43
10,45
4,72
3,54
4,06
4,15
2,89
2,26
2,85
2,94
2,54
1,99
2,72
2,83
11,07
9,67
9,88
9,92
3,07
2,10
2,71
2,81
2,68
1,68
2,53
2,67
11,89
11,94
11,66
11,61
11,08
11,30
11,13
11,1
3,58
2,71
3,29
3,39
10,01
10,18
10,20
10,19
2,96
2,10
2,77
2,87
3,18
2,27
2,95
3,06
4,14
5,36
4,55
4,51
2,17
2,66
2,22
2,05
I=0,01M
6,70
10,29
2,41
10,93
5,78
1,94
9,13
8,84
10,38
3,26
2,30
2,10
9,31
2,02
1,71
11,76
11,27
2,61
10,26
2,06
2,19
5,62
2,94
ε p = 60
I=0,1M
7,00
10,36
3,15
10,87
6,12
2,68
9,40
9,15
10,46
3,80
2,88
2,80
9,54
2,64
2,54
11,53
11,11
3,20
10,27
2,73
2,88
4,83
2,56
I=0,15M
7,05
10,37
3,28
10,85
6,17
2,80
9,44
9,20
10,47
3,89
2,97
2,91
9,57
2,74
2,68
11,48
11,08
3,29
10,27
2,85
2,99
4,78
2,31
I=0,01M
6,79
10,37
2,45
10,93
5,83
1,96
9,01
8,81
10,41
3,10
2,32
2,13
9,13
2,00
1,74
11,66
11,24
2,55
10,30
2,05
2,15
5,79
2,97
ε p = 80
I=0,1M
7,09
10,42
3,17
10,87
6,16
2,70
9,29
9,11
10,48
3,66
2,90
2,82
9,37
2,62
2,55
11,44
11,09
3,14
10,31
2,73
2,84
4,99
2,73
I=0,15M
7,13
10,43
3,29
10,85
6,21
2,82
9,34
9,16
10,49
3,75
2,99
2,93
9,41
2,72
2,69
11,40
11,06
3,23
10,31
2,83
2,95
4,94
2,69
exp.12
–
I=0,1M
7,90
10,80
2,85
10,50
5,36
2,66
10,30
9,80
10,60
6,20
1,60
3,68
12,10
0,90
2,07
10,80
10,30
4,09
10,40
3,20
2,75
–
–
H++13
εp = 4
I=0,15M
6,77
9,65
3,34
10,44
5,61
1,65
15,72
10,67
11,00
5,12
-0,63
2,10
26,16
-2,22
0,97
11,09
10,82
4,60
9,15
3,32
3,64
15,95
14,06
Tabela 5: Comparação dos valores de pKa ’s da proteína lisozima em diversas concentrações de sal, alterando-se a constante dielétrica da proteína (ε p ). A última coluna
apresenta os pKa ’s obtidos pelo serviço H++ e a penúltima os pKa ’s experimentais. A temperatura e a constante dielétrica do solvente foram fixadas em 298,0 K e 80,0,
respectivamente. Dados obtidos utilizando o campo de força GROMOS96.
13 Teste
experimentais obtidos das referências (6–8).
de benchmark realizado pelo serviço H++ (20), disponível em: http://biophysics.cs.vt.edu/H++/H++_accuracy_table.pdf.
102
12 Valores
Resíduo
Nter1
Lys1
Glu7
Lys13
His15
Asp18
Tyr20
Tyr23
Lys33
Glu35
Asp48
Asp52
Tyr53
Asp66
Asp87
Lys96
Lys97
Asp101
Lys116
Asp119
Cter129
RMSD Exp.
Desvio Max.
I= 0,01M
-20,00
8,33
0,72
9,58
-2,85
-0,83
13,72
9,06
6,49
2,60
-2,76
-1,88
25,58
-7,55
-0,43
9,52
10,67
3,31
7,55
1,26
1,78
35,16
27,90
εp = 4
I=0,1M
-20,00
8,77
1,69
9,79
-1,86
0,22
13,45
9,48
7,04
3,35
-1,81
-0,83
25,37
-6,60
0,48
9,79
10,72
3,98
7,98
2,08
2,52
33,89
27,90
I=0,15M
-20,00
8,84
1,87
9,82
-1,69
0,40
13,40
9,55
7,14
3,47
-1,64
-0,66
25,34
-6,45
0,63
9,82
10,71
4,09
8,05
2,22
2,64
33,71
27,90
I=0,01M
-1,94
9,37
1,42
10,06
4,04
0,69
8,67
8,27
8,56
2,47
0,59
0,77
10,76
-0,88
0,67
10,84
10,95
2,30
9,19
1,35
1,75
12,48
9,84
ε p = 20
I=0,1M
-0,88
9,74
2,40
10,26
4,60
1,75
9,14
8,85
9,06
3,26
1,47
1,75
11,14
0,06
1,67
10,91
10,96
3,04
9,51
2,24
2,59
10,01
8,78
Campo de força: AMBER99
T = 298,0 K / εs = 80,0
ε p = 40
I=0,15M I=0,01M
I=0,1M
I=0,15M
-0,72
2,28
2,98
3,09
9,80
9,62
9,95
10,00
2,57
1,47
2,50
2,68
10,29
10,15
10,34
10,37
4,69
4,76
5,30
5,39
1,92
0,93
1,98
2,15
9,22
8,39
8,89
8,96
8,95
8,15
8,74
8,83
9,14
8,96
9,41
9,48
3,39
2,22
3,06
3,20
1,62
1,05
1,93
2,07
1,91
1,13
2,10
2,26
11,22
9,28
9,72
9,79
0,20
0,05
1,01
1,16
1,83
0,81
1,87
2,04
10,90
10,77
10,87
10,88
10,95
10,87
10,91
10,90
3,16
2,11
2,89
3,01
9,56
9,44
9,74
9,78
2,39
1,32
2,26
2,41
2,73
1,69
2,57
2,71
9,77
9,50
7,18
6,88
8,62
5,62
4,92
4,82
I=0,01M
3,64
9,73
1,54
10,18
5,01
1,02
8,30
8,09
9,15
2,07
2,07
1,22
8,82
0,43
0,92
10,71
10,80
2,01
9,53
1,30
1,66
8,87
4,26
ε p = 60
I=0,1M
4,27
10,04
2,55
10,37
5,55
2,06
8,80
8,68
9,56
2,94
2,10
2,21
9,29
1,38
1,98
10,83
10,86
2,82
9,83
2,26
2,55
6,57
3,63
I=0,15M
4,37
10,09
2,73
10,40
5,63
2,23
8,88
8,78
9,63
3,08
2,23
2,37
9,37
1,52
2,15
10,84
10,86
2,94
9,87
2,41
2,70
6,29
3,53
I=0,01M
4,26
9,80
1,61
10,19
5,13
1,07
8,26
8,06
9,26
2,00
1,32
1,32
8,60
0,64
1,00
10,66
10,74
1,96
9,58
1,29
1,65
8,63
3,64
ε p = 80
I=0,1M
4,89
10,10
2,60
10,39
5,66
2,10
8,76
8,65
9,65
2,88
2,19
2,27
9,08
1,58
2,04
10,80
10,82
2,77
9,88
2,25
2,54
6,39
3,01
I=0,15M
4,98
10,14
2,77
10,41
5,74
2,27
8,84
8,74
9,72
3,03
2,33
2,42
9,16
1,72
2,21
10,81
10,82
2,90
9,92
2,41
2,69
6,11
2,92
exp.14
–
I=0,1M
7,90
10,80
2,85
10,50
5,36
2,66
10,30
9,80
10,60
6,20
1,60
3,68
12,10
0,90
2,07
10,80
10,30
4,09
10,40
3,20
2,75
–
–
H++15
εp = 4
I=0,15M
6,77
9,65
3,34
10,44
5,61
1,65
15,72
10,67
11,00
5,12
-0,63
2,10
26,16
-2,22
0,97
11,09
10,82
4,60
9,15
3,32
3,64
15,95
14,06
Tabela 6: Comparação dos valores de pKa ’s da proteína lisozima em diversas concentrações de sal, alterando-se a constante dielétrica da proteína (ε p ). A última coluna
apresenta os pKa ’s obtidos pelo serviço H++ e a penúltima os pKa ’s experimentais. A temperatura e a constante dielétrica do solvente foram fixadas em 298,0 K e 80,0,
respectivamente. Dados obtidos utilizando o campo de força AMBER99.
15 Teste
103
14 Valores
PDB: 4PTI - BPTI
T = 298,0 K / εs = 80,0
Resíduo
εp = 4
ε p = 20
ε p = 40
ε p = 60
ε p = 80
exp.16
H++17
–
εp = 4
I= 0,01M
I=0,1M
I=0,15M
I=0,01M
I=0,1M
I=0,15M
I=0,01M
I=0,1M
I=0,15M
I=0,01M
I=0,1M
I=0,15M
I=0,01M
I=0,1M
I=0,15M
I=0,1M
I=0,15M
N-term
5,44
5,59
5,61
6,82
6,94
6,94
7,05
7,16
7,17
7,14
7,26
7,27
7,19
7,32
7,33
8,10
6,30
Asp-3
2,67
3,25
3,35
2,82
3,34
3,43
2,87
3,37
3,45
2,88
3,37
3,45
2,88
3,36
3,44
3,40
3,45
Glu-7
6,29
6,77
6,86
3,24
3,82
3,92
2,83
3,43
3,54
2,71
3,30
3,41
2,65
3,24
3,35
3,70
5,67
Lys-15
10,06
10,23
10,26
10,36
10,42
10,43
10,40
10,44
10,45
10,42
10,44
10,45
10,43
10,45
10,46
10,60
10,38
Lys-26
10,31
10,31
10,31
10,61
10,49
10,48
10,72
10,57
10,55
10,75
10,60
10,57
10,77
10,61
10,58
10,60
10,42
Lys-41
9,95
10,05
10,06
11,17
11,00
10,96
11,20
11,02
10,99
11,19
11,02
10,98
11,18
11,01
10,98
10,80
10,18
Lys-46
9,85
9,99
10,02
10,19
10,22
10,23
10,29
10,29
10,29
10,34
10,32
10,32
10,37
10,34
10,34
10,60
9,77
Glu-49
3,62
3,95
3,99
3,65
3,99
4,04
3,60
3,96
4,01
3,56
3,93
3,98
3,53
3,91
3,96
3,80
4,16
Asp-50
1,56
2,28
2,41
1,87
2,55
2,67
1,98
2,63
2,74
2,03
2,66
2,77
2,06
2,68
2,79
3,00
2,40
C-term
3,11
3,45
3,49
3,06
3,41
3,46
3,03
3,39
3,44
3,00
3,37
3,43
2,98
3,36
3,41
2,90
3,79
RMSD Exp.
4,25
4,21
4,24
1,97
1,45
1,44
1,89
1,24
1,20
1,86
1,17
1,13
1,85
1,13
1,08
–
3,09
Desvio Max.
2,66
3,07
3,16
1,28
1,17
1,16
1,06
0,94
0,93
0,96
0,84
0,83
0,91
0,78
0,77
–
1,97
Tabela 7: Comparação dos valores de pKa ’s da proteína BPTI em diversas concentrações de sal, alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta
os pKa ’s obtidos pelo serviço H++ e a penúltima os pKa ’s experimentais. A temperatura e a constante dielétrica do solvente foram fixadas em 298,0 K e 80,0, respectivamente.
Dados obtidos utilizando o campo de força GROMOS96.
17 Teste
104
16 Valores
PDB: 4PTI - BPTI
T = 298,0 K / εs = 80,0
Resíduo
εp = 4
ε p = 20
ε p = 40
ε p = 60
ε p = 80
exp.18
H++19
–
εp = 4
I= 0,01M
I=0,1M
I=0,15M
I=0,01M
I=0,1M
I=0,15M
I=0,01M
I=0,1M
I=0,15M
I=0,01M
I=0,1M
I=0,15M
I=0,01M
I=0,1M
I=0,15M
I=0,1M
I=0,15M
N-term
-20,00
-20,00
-20,00
-1,68
-1,02
-0,91
2,29
2,76
2,84
4,08
4,39
4,44
4,76
5,08
5,12
8,10
6,30
Asp-3
3,01
3,54
3,62
2,91
3,45
3,53
2,75
3,35
3,44
2,54
3,19
3,29
2,51
3,16
3,26
3,40
3,45
Glu-7
1,85
2,69
2,85
1,79
2,60
2,74
1,76
2,60
2,75
1,76
2,60
2,74
1,79
2,62
2,76
3,70
5,67
Lys-15
10,26
10,40
10,42
10,20
10,36
10,38
10,17
10,33
10,36
10,16
10,32
10,35
10,15
10,31
10,34
10,60
10,38
Lys-26
10,34
10,37
10,36
10,52
10,49
10,48
10,53
10,51
10,50
10,53
10,51
10,50
10,52
10,51
10,50
10,60
10,42
Lys-41
10,11
10,17
10,17
10,73
10,72
10,71
10,78
10,77
10,76
10,79
10,78
10,77
10,79
10,78
10,77
10,80
10,18
Lys-46
9,21
9,58
9,64
9,59
9,87
9,92
9,71
9,95
9,99
9,78
9,99
10,03
9,83
10,03
10,06
10,60
9,77
Glu-49
3,03
3,54
3,62
3,10
3,64
3,72
3,07
3,62
3,70
3,00
3,58
3,67
2,97
3,56
3,65
3,80
4,16
Asp-50
0,14
1,04
1,22
1,14
1,98
2,14
1,27
2,13
2,28
1,35
2,19
2,34
1,41
2,24
2,39
3,00
2,40
C-term
3,37
3,71
3,75
3,31
3,68
3,73
3,20
3,60
3,66
2,93
3,42
3,49
2,88
3,38
3,46
2,90
3,79
RMSD Exp.
28,37
28,23
28,21
10,24
9,31
9,17
6,53
5,61
5,49
4,99
4,05
3,94
4,43
3,42
3,30
–
3,09
Desvio Max.
28,01
28,01
28,01
9,78
9,12
9,01
5,81
5,34
5,26
4,02
3,71
3,66
3,34
3,02
2,98
–
1,97
Tabela 8: Comparação dos valores de pKa ’s da proteína BPTI em diversas concentrações de sal, alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta
os pKa ’s obtidos pelo serviço H++ e a penúltima os pKa ’s experimentais. A temperatura e a constante dielétrica do solvente foram fixadas em 298,0 K e 80,0, respectivamente.
Dados obtidos utilizando o campo de força AMBER99.
19 Teste
105
18 Valores
106
As Tabelas 9 e 10 exibem, respectivamente, a comparação dos pKa ’s preditos, dos
resíduos lisina (LYS), presentes na calbindina (PBD: 3ICB), pelo PROMETHEUS e pela referência (187), ambos baseados em soluções numéricas da EPBL e a comparação dos pKa ’s dos
resíduos ácido glutâmico (GLU), presentes na mesma proteína, preditos pelo PROMETHEUS
e pela referência (188), este último utilizando simulação pelo método Monte Carlo.
Nestes exemplos, adotamos o campo de força GROMOS96. A temperatura, concentração de sal e a constante dielétrica do solvente foram mantidas constantes, e estão indicadas em
cada tabela. A proteína foi modelada por constantes dielétricas baixa (ε p = 4) e alta (ε p = 77,8
ou 78,5) de acordo com cada tabela, na qual o dielétrico maior possui valor igual à constante
dielétrica do solvente.
Na Tabela 9 calculamos o RMSD e o desvio máximo das predições teóricas em relação
às medidas experimentais, indicados respectivamente por: RMSD Exp. e Desvio Max. Exp.
Na Tabela 10, além destas duas informações, há também uma análise do RMSD dos pKa ’s
preditos pelo PROMETHEUS (PB) e pela referência (188) (MC), indicado por RMSD MC.
Podemos observar nos dados apresentados nestas duas tabelas, boas concordâncias
entre as predições dos pKa ’s, efetuadas pelo PROMETHEUS, e os valores medidos experimentalmente. Além disso, a maioria das previsões do PROMETHEUS, mostraram–se mais
precisas em relação a outros métodos teóricos utilizados para comparação dos resultados. Tal
fato demonstra a eficácia do método (PB) e do campo de força (GROMOS96) utilizados nestas
condições.
PDB: 3ICB - calbindina
I = 0,1M / T = 298,0 K / εs = 78,5
Resíduo
εp = 4
–
ε p = 20
Juffer
(PB)20
PROMETHEUS (PB)
ε p = 78,5
Juffer
(PB)20
PROMETHEUS (PB)
–
Juffer
(PB)20
Experimental20
–
PROMETHEUS (PB)
Nterm
6,34
4,10
7,43
6,80
7,82
7,40
7,20
Lys1
10,70
11,20
11,53
11,20
11,76
11,10
10,60
Lys7
10,88
11,00
11,71
11,00
11,86
11,20
11,40
Lys12
10,45
14,50
11,63
13,20
12,20
12,10
10,00
Lys16
10,64
17,10
11,35
13,20
11,73
12,00
10,10
Lys25
13,00
16,60
12,59
12,90
12,38
12,10
11,80
Lys29
10,77
11,30
11,15
11,70
11,45
11,20
11,00
Lys41
10,37
10,90
10,55
12,40
10,73
10,70
10,90
Lys55
6,25
11,90
12,39
11,10
12,66
11,10
11,40
Lys71
9,94
10,80
10,37
10,60
10,71
10,90
10,70
Lys72
9,99
20,00
11,21
14,10
11,55
12,30
11,00
RMSD Exp.
5,61
13,56
2,67
5,85
3,45
3,22
–
Desvio Max. Exp.
5,16
9,00
1,63
3,20
1,63
2,10
–
Tabela 9: Comparação dos valores de pKa ’s dos resíduos lisina presentes na proteína calbindina, alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta
os pKa ’s medidos experimentalmente. A força iônica, a temperatura e a constante dielétrica do solvente foram fixadas em 0,1M, 298,0K e 78,5, respectivamente. Dados obtidos
utilizando o campo de força GROMOS96.
experimentais obtidos da referência (187) em força iônica igual a 0,1M .
107
20 Valores
108
PDB: 3ICB - calbindina
I = 1M / T = 298,0 K / εs = 77,8
–
PROMETHEUS (PB)
–
Kesvatera
(MC)21
Experimental21
Resíduo
εp = 4
ε p = 20
ε p = 77,8
–
–
Glu4
4,33
4,22
4,18
4,20
3,77
Glu5
3,81
3,78
3,70
3,70
3,40
Glu11
5,56
4,78
4,49
4,10
4,74
Glu17
3,42
3,98
4,26
4,90
3,62
Glu26
4,50
4,24
4,21
3,90
4,08
Asp47
2,49
2,93
3,10
2,50
3,04
Glu48
4,81
4,54
4,38
4,20
4,62
Glu64
4,03
4,03
4,10
3,90
3,84
RMSD Exp.
1,32
0,75
0,93
1,68
–
Desvio Max. Exp.
0,82
0,45
0,64
0,64
–
RMSD MC.
2,26
1,33
1,04
–
–
Tabela 10: Comparação dos valores de pKa ’s dos resíduos ácido glutâmico presentes na proteína calbindina,
alterando-se a constante dielétrica da proteína (ε p ). A última coluna apresenta os pKa ’s medidos
experimentalmente. A força iônica, a temperatura e a constante dielétrica do solvente foram fixadas em 1M,
298,0K e 77,8, respectivamente. Dados obtidos utilizando o campo de força GROMOS96.
A Tabela 11 exibe a comparação dos pKa ’s teóricos obtidos pelo PROMETHEUS e
pelo serviço web PCE (utilizando o campo de força PARSE) e os medidos experimentalmente.
Neste exemplo, fixamos a constante dielétrica do solvente e a temperatura em 80 e 298,0 K, respectivamente. Variamos a concentração de sal e a constante dielétrica da proteína. Os campos
RMSD Exp., RMSD PCE, Desvio Max. Exp. e Desvio Max. PCE, exibem respectivamente,
o RMSD dos dados teóricos em relação às medidas experimentais, o RMSD entre os pKa ’s preditos pelo PROMETHEUS em relação aos pKa ’s preditos pelo PCE, o desvio máximo dos pKa ’s
teóricos em relação aos medidos experimentalmente e o desvio máximo dos pKa ’s preditos pelo
PROMETHEUS em relação aos pKa ’s preditos pelo PCE.
21 Valores
experimentais obtidos da referência (188) em força iônica igual a 1M.
PDB: 3RN3 - ribonuclease A
T = 298,0 K / εs = 80,0
Resíduo
–
εp = 4
I = 0,01M
I = 0,1M
–
ε p = 20
ε p = 40
Experimental22
PARSE - PCE23
I = 0,2M
I = 0,01M
I = 0,1M
I = 0,2M
I = 0,01M
I = 0,1M
I = 0,2M
I = 0,2M
εp = 4
N-terminal
5,82
6,07
6,14
6,55
6,78
6,84
6,64
6,86
6,93
7,60
6,00
His-12
-2,20
-1,14
-0,75
4,76
5,12
5,24
5,55
5,83
5,91
6,50
3,00
His-48
0,14
0,66
0,77
7,22
7,26
7,25
7,16
7,23
7,23
6,30
0,00
His-105
8,32
8,33
8,32
7,22
7,26
7,26
7,06
7,11
7,11
6,60
6,00
His-119
2,52
3,22
3,46
5,70
5,99
6,08
6,08
6,32
6,39
6,85
7,70
Glu-2
1,15
2,17
2,51
1,12
2,14
2,48
1,27
2,24
2,54
2,80
0,60
Glu-9
4,17
4,62
4,74
3,30
3,82
3,96
3,20
3,72
3,87
4,00
4,70
Glu-49
6,59
6,59
6,51
4,58
4,80
4,81
4,16
4,46
4,51
4,70
5,70
Glu-86
4,53
5,08
5,24
3,18
3,85
4,04
2,95
3,60
3,79
4,10
3,00
Glu-111
3,23
3,85
4,03
2,86
3,50
3,69
2,97
3,56
3,73
3,50
3,80
Asp-14
9,69
9,75
9,77
2,41
3,05
3,23
2,12
2,78
2,96
2,00
3,30
Asp-38
1,93
2,86
3,15
1,81
2,72
2,99
1,89
2,76
3,01
3,10
2,90
Asp-53
4,22
4,43
4,45
3,59
3,88
3,94
3,44
3,78
3,84
3,90
4,00
Asp-83
3,60
4,36
4,63
1,07
2,03
2,34
1,14
2,04
2,32
3,50
4,70
Asp-121
-3,43
-2,17
-1,76
-0,30
0,73
1,05
0,44
1,36
1,64
3,10
1,50
C-terminal
0,21
1,00
1,24
1,10
1,83
2,05
1,32
2,04
2,25
2,40
1,70
RMSD Exp.
15,91
14,32
13,86
5,69
3,82
3,38
4,88
3,02
2,62
–
8,33
RMSD PCE
11,53
10,32
10,02
9,19
8,66
8,62
9,19
8,79
8,33
–
–
Desvio Max. Exp.
7,69
7,75
7,77
3,40
2,37
2,05
2,66
1,74
1,46
–
6,30
Desvio. Max. PCE
6,39
6,45
6,47
7,22
7,26
7,25
7,16
7,23
7,23
–
–
Tabela 11: Comparação dos valores de pKa ’s dos resíduos presentes na proteína ribonuclease A (PDB: 3RN3), em várias concentrações de sal, alterando-se a constante
dielétrica da proteína (ε p ). A penúltima coluna apresenta os pKa ’s medidos experimentalmente e a última, os pKa ’s preditos pelo serviço web PCE. A temperatura e a constante
dielétrica do solvente foram fixadas em 298,0K e 80, respectivamente. Dados obtidos utilizando o campo de força GROMOS96.
23 Dados
experimentais obtidos da referência (189) em força iônica igual a 0,2M.
obtidos da referência (79) em força iônica igual a 0,1M.
109
22 Dados
110
A boa concordância com os dados experimentais confere suporte para todas as análises
posteriores24 .
Uma vez que não há na literatura um critério bem definido sobre qual o valor adequado
para a constante dielétrica do interior da proteína e o campo de força ideal para estas contas efetuamos estas análises também, visando propor um critério de escolha para a definição desdes
parâmetros. Iniciamos as análises avaliando a constante dielética da proteína, exibida no próximo tópico. A dependência do campo de força é apresentado no Tópico 7.1.2.2 – Dependência
do campo de força.
7.1.2.1
Dependência da constante dielétrica da proteína
Visando demostrar o efeito da constante dielétrica da proteína, comparamos os pKa ’s
medidos experimentalmente e os preditos pelo PROMETHEUS e pelo H++ em função da constante dielétrica da proteína. As Tabelas 12 e 13 exibem, respectivamente, a comparação dos
pKa ’s da lisozima (2LZT) e BPTI (4PTI) em função da constante dielétrica da proteína. As
predições foram realizadas utilizando o campo de força AMBER99, pois este é o único campo
de força suportado pelo H++.
A Tabela 12 exibe a comparação entre os valores teóricos de pKa ’s, calculados pelo
PROMETHEUS e H++ e os medidos experimentalmente, para a lisozima (PDB: 2LZT). A
temperatura, constante dielétrica do solvente e concentração de sal na solução foram fixadas,
respectivamente, em: 298,0 K, 80 e 0,1M. Variamos a constante dielétrica da proteína de 4 a 80.
Os campos RMSD e Desvio Max., exibem, respectivamente, o RMSD e o desvio máximo dos
pKa ’s teóricos em relação aos experimentais. A Tabela 13 exibe as mesmas análises realizadas
nas mesmas condições experimentais definidas na Tabela 12, para a BPTI (PDB: 4PTI).
Analisando os dados exibidos pela Tabela 12 verificamos que, para os valores de pKa ’s
preditos pelo PROMETHEUS, a precisão dos resultados aumenta conforme a constante dielétrica da proteína aumenta, enquanto que, os valores de pKa ’s preditos pelo H++ apresentam os
melhores resultados quando a constante dielétrica do proteína é definida em 20. Após a adição
dos átomos de hidrogênio na estrutura da proteína, o H++ faz uma otimização na estrutura protéica antes de calcular os pKa ’s. Esta otimização de estrutura ocasiona a criação do arquivo no
formato PQR, pelo H++, diferente daquele criado pelo PROMETHEUS, uma vez que neste não
é realizada nenhuma otimização na estrutura da proteína após a adição dos átomos de hidrogênio. Visto que a conformação da proteína é diferente, os resultados dos valores de pKa ’s dos
24 Além das análises realizadas pelo portal PROMETHEUS, os valores de pK ’s também podem ser utilizados
a
em outros estudos, como por exemplo, folding de proteínas, mudanças conformacionais da proteínas devido alguma
modificação no sistema (mudança de pH, temperatura, força iônica e outros), docking, etc.
111
aminoácidos ionizáveis é afetado. Tais resultados confirmam que a constante dielétrica é um
parâmetro (190).
Resíduo
Nter1
Lys1
Glu7
Lys13
His15
Asp18
Tyr20
Tyr23
Lys33
Glu35
Asp48
Asp52
Tyr53
Asp66
Asp87
Lys96
Lys97
Asp101
Lys116
Asp119
Cter129
RMSD
Desvio Max.
T = 298,0 K / εs = 80,0 / I = 0,1M
εp = 4
ε p = 20
ε p = 40
ε p = 60
ε p = 80
PROMETHEUS
H++∗
PROMETHEUS H++∗
PROMETHEUS H++∗
PROMETHEUS H++∗
PROMETHEUS
-20,00
6,83
-0,88
7,11
2,98
7,18
4,27
7,22
4,89
8,77
9,64
9,74
10,14
9,95
10,30
10,04
10,38
10,10
1,69
3,21
2,40
3,11
2,50
3,14
2,55
3,18
2,60
9,79
10,44
10,26
10,68
10,34
10,73
10,37
10,74
10,39
-1,86
5,52
4,60
5,96
5,30
6,11
5,55
6,27
5,66
0,22
1,44
1,75
2,41
1,98
2,60
2,06
2,68
2,10
13,45
16,72
9,14
10,33
8,89
9,57
8,80
9,36
8,76
9,48
10,62
8,85
9,48
8,74
9,32
8,68
9,18
8,65
7,04
10,98
9,06
10,54
9,41
10,53
9,56
10,54
9,65
3,35
4,98
3,26
4,09
3,06
3,81
2,94
3,69
2,88
-1,81
-0,74
1,47
1,92
1,93
2,37
2,10
2,55
2,19
-0,83
1,94
1,75
3,03
2,10
3,18
2,21
3,19
2,27
25,37
26,37
11,14
12,10
9,72
10,33
9,29
9,86
9,08
-6,60
-2,06
0,06
1,50
1,01
2,05
1,38
2,25
1,58
0,48
0,98
1,67
2,04
1,87
2,25
1,98
2,36
2,04
9,79
11,25
10,91
11,48
10,87
11,44
10,83
11,40
10,80
10,72
10,89
10,96
11,08
10,91
11,13
10,86
11,13
10,82
3,98
4,48
3,04
3,44
2,89
3,28
2,82
3,22
2,77
7,98
9,10
9,51
10,08
9,74
10,23
9,83
10,29
9,88
2,08
3,33
2,24
2,75
2,26
2,69
2,26
2,67
2,25
2,52
3,55
2,59
3,30
2,57
3,22
2,55
3,19
2,54
33,89
16,51
10,10
3,02
7,18
3,94
6,57
4,43
6,39
27,90
14,27
8,78
2,11
4,92
2,39
3,63
5,51
3,01
∗ Valores de pK ’s obtidos a partir do serviço H++, diponível em: http://biophysics.cs.vt.edu/H++/index.php
a
H++∗
7,24
10,44
3,20
10,75
6,33
2,72
9,25
9,13
10,57
3,61
2,65
3,18
9,63
2,37
2,44
11,37
11,11
3,19
10,32
2,66
3,17
4,69
2,59
Experimental25
I = 0,1M
7,90
10,80
2,85
10,50
5,36
2,66
10,30
9,80
10,60
6,20
1,60
3,68
12,10
0,90
2,07
10,80
10,30
4,09
10,40
3,20
2,75
-
Tabela 12: Comparação dos valores de pKa ’s da proteína lisozima obtidos pelo serviço H++ e PROMETHEUS alterando-se a constante dielétrica da proteína (ε p ). A última
coluna apresenta os pKa ’s medidos experimentalmente. Dados obtidos utilizando o campo de força AMBER99.
112
25 Valores
PDB: 4PTI - BPTI
T = 298,0 K / εs = 80,0 / I = 0,1M
Resíduo
εp = 4
ε p = 20
ε p = 40
ε p = 60
Experimental26
ε p = 80
PROMETHEUS
H++∗
PROMETHEUS
H++∗
PROMETHEUS
H++∗
PROMETHEUS
H++∗
PROMETHEUS
H++∗
I = 0,1M
Nter1
-20,00
6,28
-1,02
7,05
2,76
7,20
4,08
7,27
5,08
7,31
8,10
Asp3
3,54
3,38
3,45
3,42
3,35
3,42
2,54
3,41
3,16
3,39
3,40
Glu7
2,69
5,60
2,60
3,60
2,60
3,34
1,76
3,26
2,62
3,22
3,70
Lys15
10,40
10,39
10,36
10,51
10,33
10,5
10,16
10,49
10,31
10,49
10,60
Lys26
10,37
10,43
10,49
10,55
10,51
10,6
10,53
10,62
10,51
10,63
10,60
Lys41
10,17
10,18
10,72
10,98
10,77
10,99
10,79
10,98
10,78
10,97
10,80
Lys46
9,58
9,75
9,87
10,19
9,95
10,27
9,78
10,31
10,03
10,34
10,60
Glu49
3,54
4,08
3,64
3,96
3,62
3,91
3,00
3,88
3,56
3,85
3,80
Asp50
1,04
2,19
1,98
2,47
2,13
2,55
1,35
2,59
2,24
2,61
3,00
Cter58
3,71
3,72
3,68
3,66
3,6
3,63
2,93
3,62
3,38
3,61
2,90
RMSD Exp.
28,23
3,08
9,31
1,49
5,61
1,36
4,05
1,31
3,42
1,28
-
Desvio Max.
28,01
1,82
9,12
1,05
5,34
0,73
3,71
0,72
3,02
0,71
-
∗
Valores de pKa ’s obtidos a partir do serviço H++, diponível em: http://biophysics.cs.vt.edu/H++/index.php
Tabela 13: Comparação dos valores de pKa ’s da proteína BPTI obtidos pelo serviço H++ e PROMETHEUS alterando-se a constante dielétrica da proteína (ε p ). A última
coluna apresenta os pKa ’s medidos experimentalmente. Dados obtidos utilizando o campo de força AMBER99.
113
26 Valores
114
Figura 64: RMSD dos pKa ’s da lisozima (PDB: 2LZT) em função de diferentes valores de EPSIN para o campo
de força AMBER99. A concentração de sal foi variada de 0,01M a 0,15 M. A temperatura e a constante dielétrica
do solvente foram fixadas em 298 K e 80, respectivamente. Os dados experimentais das referências (6–8) foram
usados para o cálculo do RMSD.
Na Tabela 13 é possível verificar que, os valores dos pKa’s preditos, tanto pelo
PROMETHEUS quanto pelo H++, ficam mais precisos conforme a constante dielétrica da proteína aumenta. Uma vez que as proteínas apresentam propriedades eletrostáticas, flexibilidade,
forma, etc., bastante diversifica umas das outras, a constante dielétrica da proteína é um parâmentro que deve ser ajustado em função de cada proteína, de forma que possa reproduzir da
melhor maneira possível, o comportamento destas em solução.
As Figuras 64 e 65 ilustram o RMSD em função da constante dielétrica das proteínas
lisozima (2LZT) e BPTI (PDB: 4PTI), onde é possível observar o comportamento diferente das
curvas, conforme demonstrado nas Tabelas 12 e 13.
115
Figura 65: RMSD dos pKa ’s da BPTI (PDB: 4PTI) em função de diferentes valores de EPSIN para o campo de
força GROMOS96. A concentração de sal foi variada de 0,01M a 0,15 M. A temperatura e a constante dielétrica
do solvente foram fixadas em 298 K e 80, respectivamente. Os dados experimentais das referências (9–12) foram
7.1.2.2
Dependência do campo de força
Conforme dito na Seção 4.7 – Campos de força, campos de força são equações ma-
temáticas que descrevem o comportamento efetivo de um sistema. Cada campo de força foi
parametrizado de uma maneira própria, o que resulta em modelos distintos. Como os resultados são modelos dependentes, comparamos os RMSD’s obtidos para o cálculo dos pKa ’s dos
aminoácidos ionizáveis, utilizando os campos de força GROMOS96 e AMBER99, em relação
aos pKa ’s medidos experimentalmente, para as proteínas lisozima (PDB: 2LZT) e BPTI (PDB:
4PTI), ilustrados nas Figuras 66 e 67, respectivamente.
Note que, a utilização do campo de força GROMOS96, independente da constante dielétrica da proteína, apresenta os melhores resultados (na comparação com dados experimentais)
em relação ao campo de força AMBER99. Dependendo do valor de ε p , esta diferença pode ser
de até 30 unidades de pKa ’s.
Após a validação das predições dos pKa ’s dos aminoácidos ionizáveis, apresentamos
as predições das propriedades eletrostáticas titulação e capacitância das proteínas. A validação
dos pKa ’s dos aminoácidos é necessária pois utilizaremos esses valores como entrada para o
cálculo das propridades eletrostáticas das proteínas.
Sabe-se que grupos ionizáveis alteram os valores das constantes de equilíbrio termodinâmica entre aminoácidos próximos (visinhos) e também entre aminoácidos mais distantes.
116
Figura 66: RMSD dos pKa ’s da lisozima (PDB: 2LZT) em força iônica igual a 0,1M em função de diferentes
valores de EPSIN para os campos de força GROMOS96 e AMBER99. A temperatura e a constante dielétrica do
solvente foram fixadas em 298 K e 80, respectivamente. Os dados experimentais das referências (6–8) foram
Figura 67: RMSD dos pKa ’s da BPTI (PDB: 4PTI) em força iônica igual a 0,1M em função de diferentes valores
de EPSIN para os campos de força GROMOS96 e AMBER99. A temperatura e a constante dielétrica do solvente
foram fixadas em 298 K e 80, respectivamente. Os dados experimentais das referências (9–12) foram usados para
o cálculo do RMSD.
117
Neste nível (Poisson-Boltzmann), este efeito é levado em consideração a fim de tornar os resultados mais precisos, ao contrário do nível de predição analítico, onde as interações entre
os aminoácidos que constituem a proteína, são desprezadas e, qualquer que seja a posição do
aminoácido na estrutura da proteína, este terá sempre o mesmo valor de pKa , de acordo com a
tabela de valores de pKa ’s escolhida .
A mudança dos valores dos pKa ’s dos aminoácidos ionizáveis presentes na estrutura
da proteína está relacionada, entre outros fatores, com as interações de Coulomb. Interações
de Coulomb são interações de longo alcance, dessa forma grupos de aminoácidos ionizáveis
afetam a distribuição de carga na proteína toda. Esta interação desloca os valores de pKa de
cada aminoácido ionizável em várias unidades de pH.
Aminoácidos que estão próximos na seqüência primária da proteína podem não estar
próximos no arranjo tridimensional da proteína, implicando dessa forma em alterações nos
valores de pKa (devido a presença de grupos visinhos ionizáveis) em relação às suas respectivas
posições na estrutura da proteína.
As Figuras 68 e 69 exibem, respectivamente, a comparação entre a titulação ideal
(analítica) e a baseada na estrutura 3D da proteína utilizando PB e MC e a comparação entre a
capacitância ideal (analítica) e a baseada na estrutura 3D da proteína, utilizando PB e MC, para
a calbindina (PDB: 3ICB). Note que, a utilização da estrutura terciária da proteína proporcionou
uma melhora dos resultados, uma vez que o comportamento das curvas de titulação e capacitância, utilizando PB aproxima–se mais da curva de titulação utilizando MC, o qual é considerado
um método mais preciso (e mais caro computacionalmente), do que a curva analítica.
A Figura 70 mostra a comparação entre a curva de titulação medida experimentalmente27 e as teóricas, utilizando o método analítico e PB, empregando os campos de força
GROMOS96 e AMBER99. Fixamos a constante dielétrica da proteína e do solvente em 40
e 80, respectivamente, a temperatura em 298,0 K e a concentração de sal em 0,1M. Neste
exemplo, as curvas de titulação analítica e utilizando a estrutura 3D da proteína (com campo de
força GROMOS96) apresentam boas concordâncias com as medidas experimentais. A partir do
pH 8, a precisão da curva melhora com a utilização da estrutura tridimensional da proteína.
A Tabela 14 exibe uma comparação dos pontos isoelétricos teóricos preditos utilizando
a seqüência primária das proteínas, a estrutura tridimensional e os medidos experimentalmente.
A utilização da estrutura 3D da proteína, para o cálculo dos pI’s teóricos, através da predição
dos valores de pKa ’s, proporcionou uma relativa melhora (melhor concordância com os dados
experimentais) em relação aos cálculos analíticos, nos quais os valores de pKa ’s são obtidos de
27 Medidas
experimentais obtidas da referência (15).
118
Figura 68: Comparação entre a titulação ideal e a titulação baseada na estrutura 3D (PB e MC), para a cabindina
(PDB: 3ICB). pI experimental: 4,5 (13). Os dados de MC foram retirados da referência (14).
Figura 69: Comparação entre a capacitância ideal e a capacitância baseada na estrutura 3D (PB e MC) em função
do pH, para a cabindina (PDB: 3ICB). Os dados de MC foram retirados da referência (14).
119
Figura 70: Comparação das curvas de titulação medidas experimentalmente e predições teóricas, utilizando os
modelos analíticos e PB, empregando os campos de força GROMOS96 e AMBER99, para a lisozima (PDB:
2LZT). A força iônica foi fixada em 0,1M. Os dados experimentais foram obtidos da referência (15).
uma tabela de referência. O campo RMSD exibe o RMSD do método utilizado em relação às
medidas experimentais.
O próximo tópico demonstra o efeito da blindagem eletrostática provocada pela concentração de sal presente na solução.
120
Propriedades de proteínas isoladas
Proteína
pI (ideal)28
pI (PB)29
pI experimental
Lisozima (2LZT)
10,6
11,2
11,1 [Ref. (15)]
Calbindina (3ICB)
4,5
4,4
4,5 [Ref. (13)]
BPTI (4PTI)
10,0
10,3
10,6 [Ref. (170)]
Ribonuclease A (3RN3)
9,4
10,0
9,6 [Ref. (170)]
RMSD
0,81
0,45
–
Tabela 14: Comparação entre os pontos isoelétricos experimentais e os providos pelo PROMETHEUS no nível
de predição analítico e Poisson-Boltzmann.
7.1.2.3
O efeito da força iônica
A maioria dos estudos com proteínas, como por exemplo, determinação da sua estru-
tura tridimensional, interação proteína–proteína, processos de separação de proteínas, simulações computacionais, etc., é realizada com a presença de sal na solução. Visando avaliar o efeito
que a força iônica exerce sobre estas interações, efetuamos o cálculo das curvas de titulação das
proteínas lisozima (PDB: 2LZT) e calbindina (PDB: 3ICB), em várias concentrações de sal,
exibidas pelas Figuras 71 e 72.
Conforme aumenta a concentração de sal na solução, as curvas de titulação obtidas a
partir da estrutura da proteína aproximam–se da curva de titulação calculada analiticamente,
utilizando somente a seqüência primária da mesma.
Este comportamento é observado pois, o sal blinda as interações eletrostáticas que
ocorrem entre os aminoácidos que constituem a proteína. Assim, com as interações cada vez
mais fracas, os aminoácidos exibem um comportamento semelhante como se estivessem em
seqúência primária, na qual não há interações entre os mesmos.
Após a validação das propriedades eletrostáticas das proteínas isoladas, do efeito
dos principais parâmetros nos valores de pKa ’s dos aminoácidos ionizáveis, apresentamos na
próxima seção, o estudo sobre as interações proteína–proteína, avaliando os aspectos físicoquímicos do meio e o mecanismo de regulação de cargas.
28 Dados
obtidos da Tabela 4 para efeito de comparação.
utilizados para o cálculos dos pKa ’s do aminoácidos ionizáveis utilizando Poisson-Boltzmann: ε p
29 Parâmetros
= 40; εs = 80; concentração de sal: 0,01M; temperatura: 298K; campo de força: GROMOS96.
121
Figura 71: Curva de titulação da proteína lisozima (PDB: 2LZT), em várias concentrações de sal. A temperatura,
a constante dielétrica da proteína e a constante dielétrica do solvente foram fixadas em 298 K, 40 e 80,
respectivamente. Campo de força: GROMOS96.
Figura 72: Curva de titulação da proteína calbindina (PDB: 3ICB), em várias concentrações de sal. A
temperatura, a constante dielétrica da proteína e a constante dielétrica do solvente foram fixadas em 298 K, 40 e
80, respectivamente. Campo de força: GROMOS96.
122
7.2
Interação proteína–proteína
O estudo do fenômeno da complexação protéica foi efetuado com base na análise da
variação da energia livre eletrostática - ∆Gele e do segundo coeficiente cruzado de virial - B23 .
Quando ∆Gele é menor que zero, o processo é expontâneo, indicando assim que a reação é
favorável à formação de complexos protéicos. Por outro lado, valores positivos para ∆Gele não
favorecem a formação de complexos protéicos e, quando ∆Gele = 0, o sistema está em equilíbrio.
O ∆Gele é uma medida que depende das condições físico-químicas do meio e das
propriedades das proteínas, as quais destacamos a valência e capacitância. A importância da
capacitância está demonstrada na Subseção - 7.2.1.
O B23 é um critério termodinâmico utilizado para quantificar as interações que ocorrem
entre duas moléculas (151), assim, quando B23 é negativo há atração entre as proteínas, se
positivo, repulsão.
As Figuras 73 e 74 exibem, respectivamente, o ∆Gele (em kB T ) em função da distância de separação r (em Ångström) e o B23 (em mol.ml/g2 ) em função do pH, do complexo
hirundina–trombina (PDB: 4HTC). Nestes exemplos, comparamos o efeito da incorporação do
mecanismo de regulação de cargas na predição do complexo protéico. O pH foi fixado em 8,0
e força iônica igual a 0,01M.
∆Gele (Figura 73) apresenta valores negativos, os quais indicam que o processo é favorável à formação do complexo protéico. Note que, a incorporação do mecanismo de regulação
Figura 73: Comparação do ∆Gele do complexo hirundina–trombina (PDB: 4HTC), com e sem o mecanismo de
regulação de cargas em força iônica igual a 0,01M.
123
Figura 74: Comparação do B23 , do complexo hirundina–trombina (PDB: 4HTC), com e sem o mecanismo de
regulação de cargas em força iônica igual a 0,01M.
de cargas, aumenta a atração entre as proteínas. O mesmo comportamento pode ser observado
no B23 (Figura 74), o qual apresenta valores negativos entre os pH’s 4,5 e 7,5, indicando assim
atração entre as proteínas nesta faixa de pH, também conhecida como janela de complexação
ou cristalização. Para efetuar estas análises procedemos da seguinte forma:
1. O complexo hirundina–trombina é representado no arquivo no formato PDB por 3 cadeias
- L, H e I, onde as cadeias L e H representam a subunidade pequena e grande do polipeptídeo trombina e a cadeia I representa a hirundina. Utilizando a ferramenta split
protein, apresentada na Subseção 6.1.5 – Ferramentas auxiliares desenvolvidas, separamos o complexo 4HTC em dois arquivos distintos, no formato PDB. Um arquivo contendo as informações a respeito das estruturas L e H e outro da estrutura I.
2. Em seguida efetuamos a predição das propriedades eletrostáticas das duas moléculas isoladas representadas pelos arquivos PDB gerados. As Figuras 75 e 76 exibem a curva de
titulação e capacitância para cada subunidade deste complexo. Neste exemplo, os cálculos foram realizados no nível de predição analítico, para o qual foi utilizado a tabela com
valores de pKa ’s de Nozaki and Tanford (2) para obtenção dos valores dos pKa ’s.
Note que, na Figura 75, entre os pH’s 4,5 e 8,5 as proteínas possuem cargas com sinais
opostos, indicando assim atração entre as mesmas, o que possibilita a formação do complexo
protéico nestas condições físico-químicas. A atração é intensificada pela incorporação do mecanismo de regulação de cargas, cuja capacitância é apresentada na Figura 76.
124
Figura 75: Curva de titulação do complexo hirundina–trombina (PDB: 4HTC), separado em duas proteína, em
força iônica nula.
Figura 76: Curva da capacitância em função do pH, do complexo hirundina–trombina (PDB: 4HTC), separado
em duas proteína, em força iônica nula.
125
Figura 77: Curvas de titulação de cada proteína que forma o complexo protético tripsina–inibidor (PDB: 2PTC).
O próximo exemplo ilustra a predição da titulação e capacitância, do complexo protéico tripsina–inibidor (PDB: 2PTC), o qual é dado por duas cadeias: E (tripsina) e I (inibidor
de tripsina). Assim como no exemplo anterior, utilizando a ferramenta “split protein", separamos cada cadeia presente no arquivo PDB, criando dois novos arquivos no formato PDB,
um contendo somente a estrutura referente à cadeia E e outro com a estrutura da cadeia I. As
Figuras 77 e 78 exibem a titulação e a capacitância de cada cadeia individualmente.
Observe na Figura 77 que, entre os pH’s 9,3 e 10,2 as proteínas possuem cargas com
sinais opostos, indicando assim atração eletrostática entre as proteínas nesta faixa de pH. Em
relação à capacitância, esta possui a maior intensidade no pH 10, o que aumenta a força de
atração entre as proteínas neste pH.
Após o cálculo das propriedades eletrostáticas, efetuamos a análise da variação da
energia livre eletrostática do complexo tripsina–inibidor. A Figura 79 exibe a variação da
energia livre eletrostática, a qual apresenta valores negativos, que diminuem em intensidade
conforme as proteínas são afastadas uma da outra. Tal comportamento (∆Gele < 0) indica que
o processo é espontâneo e, portanto a complexação é favorável. Neste exemplo incorporamos o
mecanismo de regulação de cargas, fixamos o pH em 10 e força iônica nula.
Analisando o B23 , do complexo 2PTC, verificamos que este possui valores negativos
entre os pH’s 9,3 e 10,1, ou seja, neste intervalo de pH ocorre a formação de complexos entre as proteínas informadas ao sistema. A literatura nos mostra que a formação do complexo
2PTC ocorre no pH 10,0 (16, 17). Apesar de simplificados, os cálculos realizados no nível de
predição ideal (analítico) são capazes de prever se haverá ou não a formação de um complexo
126
Figura 78: Curvas da capacitância de cada proteína que forma o complexo protético tripsina–inibidor (PDB:
2PTC).
Figura 79: ∆Gele formando o complexo protéico tripsina–inibidor (PDB: 2PTC). O pH foi fixado em 10 e força
iônica nula.
127
Figura 80: B23 formando o complexo protéico tripsina–inibidor (PDB: 2PTC). pH experimental:10 (16, 17).
protéico, inclusive informando ao usuário, em quais condições (pH, força iônica do meio, etc.)
a complexação é mais favorável.
O próximo exemplo ilustra a formação de um complexo anticorpo (lisozima) – antígeno (HyHEL-10 Fab), código PDB: 3HFM. As Figuras 81 e 82 ilustram, respectivamente, o
∆Gele e o B23 . Nestes dois cálculos efetuamos a comparação dos resultados com e sem o mecanismo de regulação de cargas. O pH escolhido para a realização desde cálculo foi 10,6, ponto
isoelétrico da proteína lisozima determinado neste nível de predição (analítico) e força iônica
igual a 0,01M.
Observamos, na Figura 81, que a incorporação do mecanismo de regulação de cargas,
aumenta (em intensidade) a energia de atração entre as proteínas particularmente próximo ao
pI. Pelo fato de uma das proteínas presentes no complexo possuir carga muito pequena neste
pH (10,6)30 , ∆Gele aproxima–se de zero. Com o mecanismo de regulação de cargas, ∆Gele ,
é levemente intensificada, proporcionando a formação do complexo protéico. Considerando
apenas a variação da energia livre eletrostática e as condições físico–químicas apresentadas, a
carga das proteínas deixa de ser o único fator para a complexação, uma vez que a energia de
interação entre elas é muito pequena, e a capacitância das proteínas passa a contribuir mais
significativamente para a formação do complexo protéico.
Na Figura 82, valores negativos do B23 , indicam atração entre as proteínas. Note que, a
incorporação do mecanismo de regulação de cargas aumenta um pouco a atração das proteínas.
A janela de complexação é expandida de 7,2-10,3 para 7,2-10,5.
30 Ponto
isoelétrico da proteína lisozima (PDB: 2LZT) determinado neste nível de predição (analítico).
128
Figura 81: Comparação do ∆Gele do complexo HyHEL-10 Fab–lisozima (PDB: 3HFM), com e sem o
mecanismo de regulação de cargas. O pH e a força iônica foram fixados 10,6 e 0,01M, respectivamente.
Figura 82: Comparação do B23 , do complexo HyHEL-10 Fab–lisozima (PDB: 3HFM), com e sem o mecanismo
de regulação de cargas em força iônica igual a 0,01M.
129
Figura 83: B23 do complexo tripsina–inibidor (PDB: 2PTC), com o mecanismo de regulação de cargas, em
vários regimes de força iônica.
Visando demonstrar o efeito da força iônica na predição na predição de complexos
protéicos, através das análises do ∆Gele e B23 , ilustramos na Figura 83 o cálculo do B23 , do
complexo tripsina–inibidor (PDB: 2PTC), em vários regimes de força iônica. Conforme aumenta a concentração de sal, B23 aproxima-se de zero, como esperado. Íons de sal dissociados
em solução reduzem a energia de interação entre as proteínas. Quanto maior a concentração de
sal presente na solução maior o efeito da blindagem eletrostática. As interações eletrostáticas
que ocorrem entre os aminoácidos que compõem a proteína também são afetadas pela força
iônica. A blindagem eletrostática produzida pela força iônica leva a uma diminuição da energia
livre eletrostática e, conseqüêntemente do B23 , uma vez que este é uma função de ∆Gele .
O próximo exemplo ilustra a formação de um complexo constituído por duas proteínas
lisozima (PDB: 2LZT). A Figura 84 exibe a variação da energia livre eletrostática com e sem o
mecanismo de regulação de cargas, no nível de predição analítico em força iônica nula e 0,01M.
Fixamos o pH em 10,6, próximo ao pI da proteína, quando utilizando este nível de predição.
Devido o aumento da força iônica no meio, o efeito da blindagem eletrostática por
meio da dissociação de íons na solução, diminui a intensidade das interações eletrostáticas
que ocorrem entre as proteínas que formam o complexo. Por outro lado, a incorporação do
mecanismo de regulação de cargas proporcionou um aumento na atração entre as proteínas,
uma vez que, ∆Gele < 0.
A Figura 85 mostra a comparação do ∆Gele para a formação de um complexo protéico constituido por duas lisozimas (PDB: 2LZT), nos níveis de predição analítico e PB. Neste
exemplo, fixamos a concentração de sal em 0,01M, a temperatura em 298K e o pH em 10,6
130
Figura 84: ∆Gele do complexo formado por duas lisozimas (PDB: 2LZT) com e sem o mecanismo de regulação
de cargas, em força iônica nula e 0,01M. O pH, a temperatura e a constante dielétrica do solvente foram fixados
em 10,6, 298,15 K e 78,5, respectivamente.
para os cálculos analíticos e 11,2 para os cálculos utilizando as estruturas 3D das proteínas31 . A
constante dielétrica das proteínas e do solvente foi parametrizada em 40 e 80, respectivamente.
Utilizamos o campo de força GROMOS96 para calcular os pKa ’s dos aminoácidos ionizáveis
em função de sua posição na estrutura da proteína.
É importante salientar que, como as proteínas são iguais, estas possuem a mesma carga
em função do pH. Sendo assim, considerando somente as interações Coulombianas as proteínas
sempre irão apresentar um comportamento repulsivo, independente do pH do meio o qual as
proteínas estão inseridas. Com a incorporação do mecanismo de regulação de cargas, observamos uma possível atração entre as proteínas, uma vez que, ∆Gele < 0.
O emprego das estruturas 3D das proteínas proporcionou uma redução na intensidade
das interações, embora seu comportamento seja qualitativamente semelhante ao do cálculo analítico. Geralmente, nos cálculos analíticos, a predição da titulação e capacitância das proteínas é
superestimada. Conseqüêntemente, há também uma superestiva das demais grandezas que são
função destas propriedades, como por exemplo, ∆Gele e os coeficientes de virial.
Para avaliar o efeito da força iônica, realizamos o cálculo do B2 , no nível de predição
analítico, em várias concentrações de sal. Esta análise é exibida na Figura 86.
B2 diminui, em intensidade, conforme aumenta a concentração de sal na solução, uma
31 Optamos
por efetuar as comparações em dois pHs distintos pois, quando predizemos a curva de titulação da
lisozima utilizando somente a seqüência primária de aminoácidos, esta tem seu pI em 10,6, enquanto que, nos
cálculos utilizando a estrutura 3D, esta proteína tem pI em 11,2. Assim podemos demonstrar para os dois níveis
de predição (analítico e PB), a importância do mecanismo de regulação de cargas.
131
Figura 85: ∆Gele , nos níveis de predição analítico e Poisson-Boltzmann, do complexo formado por duas
lisozimas (PDB: 2LZT) com e sem o mecanismo de regulação de cargas em força iônica igual a 0,01M. A
temperatura, a constante dielétrica da proteína e a constante dielétrica do solvente foram fixadas em 298 K, 40 e
80, respectivamente. O pH foi mantido constante em 10,6 para os cálculos analíticos e 11,2 para os cálculos
utilizando PB. Campo de força: GROMOS96.
Figura 86: B2 de complexação entre duas lisozimas (PDB: 2LZT), com o mecanismo de regulação de cargas, em
vários regimes de força iônica.
132
Figura 87: Comparação do B2 de complexação entre duas lisozimas (PDB: 2LZT), nos níveis de predição
analítico e PB, com o mecanismo de regulação de cargas, com medidas experimentais e outras previsões teóricas.
A força iônica foi fixada em 0,005M. Nos cálculos por PB, ε p foi definido como igual a 40. Os campos de força
estão citados nas legendas das curvas do próprio gráfico. Os dados experimentais foram obtidos da referência
(18).
vez que o sal blinda as interações eletrostáticas, fazendo com que ∆Gele se aproxime de 0 (zero).
Para o pH em torno de 10,6, B2 apresenta valores próximos de zero. Isso se deve ao fato de que,
pelos cálculos analíticos, 10,6 é o ponto isoelétrico da lisozima. Neste ponto não seria possível a
complexação, visto que a carga total das duas proteínas é nula. Por outro lado, com o mecanismo
de regulação de cargas, há uma ligeira atração e B2 é negativo (−2, 4x10−3 mol.ml/g2 ) em força
iônica nula.
As Figuras 87 e 88 exibem a comparação do B2 , provido pelo PROMETHEUS, nos
níveis de predição analítico e PB32 , com medidas experimentais33 e outras previsões teóricas34 ,
para a lisozima, em força iônica iguais a 0,005M e 0,1M.
32 Os
critérios definidos para a configuração dos arquivos auxiliares (.sites, .st, etc.) de acordo com cada campo
de força (GROMOS96 e AMBER99), para a posterior execução dos programas pertencentes ao pacote MEAD
estão definidos nos Apêndices C e D.
33 Dados experimentais obtidos da referência (18).
34 Dados das simulações computacionais pelo método Monte Carlo, obtidos das referências (14, 18).
133
Figura 88: Comparação do B2 de complexação entre duas lisozimas (PDB: 2LZT), nos níveis de predição
analítico e PB, com o mecanismo de regulação de cargas, com medidas experimentais e outras previsões teóricas.
A força iônica foi fixada em 0,1M. Nos cálculos por PB, ε p foi definido como igual a 40. Os campos de força
estão citados nas legendas das curvas do próprio gráfico. Os dados experimentais foram obtidos da referência
(18).
Note que, comparados com os dados experimentais e predições teóricas por simulações
Monte Carlo35 , em baixa força iônica (Figura 87), a precisão dos resultados aumenta quando
passamos do nível analítico para o nível PB, assim como o custo computacional, de N para 2N .
Ao redor do pI (10,6 – 11,2), há boas concordâncias entre os dados experimentais e os preditos utilizando os dois níveis de predição (analítico e Poisson-Boltzmann), proporcionando desta
forma a utilização da seqüência primária da proteína, como fonte inicial de informação para
o estudo das propriedades eletrostáticas de proteínas e predição de complexos protéicos com
um baixo custo computacional. Para um estudo mais detelhado em outros regimes de pHs, os
cálculos com as estruturas 3D das proteínas apresentaram resultados equivalentes aos da simulação pelo método Monte Carlo, com a vantagem de possuir um menor custo computacional em
relação ao MC. Além disso, é possível incorporar outras interações físicas em todos os níveis,
tornando as previsões mais realistas.
Com o aumento da força iônica do meio (Figura 88), o B2 predito analiticamente se
aproxima do obtido com base nas estruturas 3D das proteínas. Este comportamento é devido à
blindagem eletrostática ocasionada pelos íons do sal dissociados na solução. Uma vez que, a
energia de interação (∆Gele ) é calculada com base nas propriedades eletrostáticas das proteínas,
esta se aproxima de zero em altos regimes de força iônica, independente do nível de predição
35 Em
simulações computacionais utilizando o método Monte Carlo, o sistema teórico aproxima–se do sistema
experimental, através da incorporação de íons explicitos na solução e mudanças conformacionais nas proteínas
duante a fase de cálculos. Além disso, outras interações físicas são computadas, como por exemplo, interações de
van der Waals, dipolos induzidos e outros.
134
Figura 89: Comparação do B2 de complexação entre dois quimotripsinogênios (PDB: 1CHG), nos níveis de
predição analítico e PB, com o mecanismo de regulação de cargas, com medidas experimentais e outras previsões
teóricas. A força iônica foi fixada em 0,005M. Nos cálculos por PB, ε p foi definido como igual a 40. As cargas
foram definidas de acordo com o campo de força AMBER99. Os dados experimentais foram obtidos da
referência (18).
(analítico ou PB). Conseqüêntemente B2 se aproxima de zero em altas concentrações de sal, já
que este é uma função de ∆Gele .
As Figuras 89 e 90 apresentam a comparação entre o B2 predito pelo PROMETHEUS
e por outras previsões teóricas36 e medidas experimentais37 de um complexo protéico formado
por duas proteínas quimotripsinogênio (PDB: 1CHG).
Assim como no exemplo anterior (Figuras 87 e 88) há um aumento da precisão dos
resultados quando partimos do nível analítico para o nível PB. Em ambas as comparações, a
força iônica foi fixada em 0,005M e 0,01M, as predições realizadas com base nas estruturas
3D das proteínas são bastante semelhantes às obtidas por simulação MC. Tal fato demonstra
que, apesar da simplificação do modelo, as predições utilizando PB são tão precisas quanto às
utilizando MC, além de apresentarem um baixo custo computacional em relação ao MC.
Embora os cálculos realizados com a estrutura 3D da proteína melhorem a precisão dos resultados, em relação ao cálculos utilizando somente a seqüência primária da proteína, pelas aproximações assumidas em nossos modelos, não é possível afirmar que as proteínas formarão um complexo protéico, uma vez que B2 possui sempre valores maiores ou
igual a zero em altas concentrações de sal. Podemos sugerir apenas que, em baixa força iônica, o segundo coeficiente de virial indica a possível formação de um complexo protéico,
36 Dados
37 Dados
das simulações computacionais pelo método Monte Carlo, obtidos das referências (14) e (18).
experimentais obtidos da referência (18).
135
Figura 90: Comparação do B2 de complexação entre dois quimotripsinogênios (PDB: 1CHG), nos níveis de
predição analítico e PB, com o mecanismo de regulação de cargas, com medidas experimentais e outras previsões
teóricas. A força iônica foi fixada em 0,01M e 0,005. Nos cálculos por PB, ε p foi definido como igual a 40. As
cargas foram definidas de acordo com o campo força AMBER99. Os dados experimentais foram obtidos da
referência (18).
em um intervalo de pH (janela de cristalização ou complexação), geralmente ao redor do
pI das proteínas. Predições de outros complexos protéicos podem ser vistas em material
complementar disponível em: http://glu.fcfrp.usp.br/tulio/dissertacao/
protein-protein_interaction.pdf
No futuro, a incorporação de outras interações (por exemplo, van der Waals) melhorará as previsões aqui apresentadas. Moon et al. (99), exibe a formação de complexos protéicos
compostos por duas proteínas lisozimas (PDB: 2LZT) em várias condições experimentais. Porém em seu trabalho, outras interações são consideradas, como por exemplo, o potencial de
dispersão de Hamaker38 . Esta interação não é considerada no preditor PROMETHEUS, pois
está fora do escopo desse trabalho. Assim visando apenas demonstrar o efeito deste tipo de
interação, exibimos na Figura 91 o B2 com a incorporação da constante de Hamaker, a qual,
neste exemplo, foi assumida como igual a 8,0 kT , de acordo com a referência (99), sem parametrização específica para o modelo usado pelo PROMETHEUS.
38 O
potencial de dispersão é proporcional à constante de Hamaker, a qual é sempre atrativa entre dois corpos
similares. A constante de Hamaker é uma função da composição da proteína e da natureza química do solvente
(191, 192).
136
Figura 91: Comparação do B2 , com e sem o potencial de dispersão de Hamaker, de complexação entre duas
lisozimas (PDB: 2LZT), com o mecanismo de regulação de cargas e força iônica nula.
7.2.1
Mecanismo de regulação de cargas
A interação entre duas proteínas carregas é guiada diretamente por interações de
Coulomb (106, 107, 193). A carga das proteínas é obtida a partir dos aminoácidos ionizáveis
e varia em função do pH (119). Porém, quando uma outra proteína (B) carregada aproxima-se
da proteína (A), esta tem sua carga alterada (aumentada). Esta alteração é explicada pelo mecanismo de regulação de cargas (194), o qual é medido através da “capacitância das proteínas”
(5).
A capacitância é uma propriedade, que as proteínas possuem, de adquirirem carga
em função do equilíbrio ácido-base. Esta propriedade é dependente do pH, concentração de
sal e número de resíduos ionizáveis presentes na proteína. Visando demonstrar o efeito do
mecanismo de regulação de cargas, efetuamos a complexação entre duas proteínas calbindinas
(PDB:3ICB) no qual definimos as condições físico-químicas próximas ao pI (4,5) das mesmas.
A Figura 92 exibe um comparativo de ∆Gele , com e sem esse mecanismo.
Observamos que, o ∆Gele em função da distância de separação entre as duas proteínas
(calbindinas) é nula, quando não consideramos o mecanismo de regulação de cargas. Neste
resultado, a energia livre é calculada valendo-se apenas das interações de Coulomb. Como o
pH foi fixado em 4,5, as proteínas estão ao redor do pI, onde a carga líquida das mesmas é zero
e portando a energia de interação entre elas é nula. Por outro lado, nestas mesmas condições
físico-químicas, quando calculamos ∆Gele , com o mecanismo de regulação de cargas, observamos que a energia de interação entre as proteínas aumenta (em intensidade), proporcionando
137
Figura 92: Comparação do ∆Gele com e sem o mecanismo de regulação de cargas. O pH foi fixado em 4,5 e
força iônica nula.
desta forma a formação de um complexo protéico, uma vez que ∆Gele < 0.
138
7.3
O portal MOLESA - análise estrutural de complexos de
proteínas
Através do portal MOLESA, podemos efetuar o cálculo da freqüência de contatos entre
pares de resíduos de aminoácidos específicos (i e j) em uma determinada distância de separação
r utilizando a função gi j (r)∗ (Equação 1.1 definida na Subseção 1.4.2 - Estratégia 2: Análise
de propriedades estruturais para a construção de potenciais estatísticos), para um determinado
conjunto de complexos de proteína extraídos do PDB. A Tabela 15 exibe os códigos PDBs,
separados por conjuntos, dos complexos de proteínas selecionados para serem utilizados no
cálculo da freqüência de contato entre os resíduos de aminoácidos presentes em cadeias distintas
da proteína. A escolha de todos os conjuntos foi feita com base em trabalhos que seguem esta
mesma abordagem (131, 195–197). A última linha da tabela informa a quantidade de complexos
contida em cada conjunto.
O conjunto controle foi selecionado para ser o de referência para esses cálculos, pois
tal conjunto é constituído por complexos de proteínas que foram resolvidos por cristalografia de
raios X com resolução de 2,5 Å ou melhor, proporcionando mais confiabilidade na determinação
da estrutura protéica. Entre os códigos PDB’s listados no conjunto controle estão complexos:
antígeno–anticorpo, proteína–inibidor, proteína–proteína e outros. Nesta avaliação optamos
pela diversidade de conjuntos, sendo assim, nenhum complexo se repete entre os conjuntos.
139
Conjunto
Conjunto 1
Conjunto 2
Conjunto 3
Conjunto 4
Conjunto 5
1ABI
1BUN
2GST
2CLR
1BBZ, 1BTH,
1MHC, 1OAK, 1QLE,
1AXI
1MSB
1HBS
1A2K
1CJR, 1DHK,
1SHD, 1TBR, 1VAD,
1CGI
2SCP
1BMQ
1AVA
1F58, 1GUX,
1YCQ, 2MTA, 4ER4,
1CHO
1HHJ
1FCD
1B33
1JHL, 1MCT,
1A94, 1AYA, 1BGX,
1CSE
1NCA
1AD9
1BOG
1NSG, 1QFU,
1C3Q, 1CN3, 1EAI,
1DKZ
2SIC
2CNL
1D4V
1SGP, 1STF,
1FC2, 1IAI, 1KIG,
1DVF
1BJ3
2CDR
1EKB
1UGH, 1YAG,
1MKX, 1OSP, 1QMZ,
1FDL
4AAH
1ALY
1GGI
2JEL, 1A3R,
1SLU, 1TCO, 1VPP,
1FLE
1MLC
1AQD
1LGB
1BC5, 1BVN,
1YCS, 2PCC, 1ACB,
1IGC
1FIN
1B2S
1NOC
1CKA, 1DKX,
1AZS, 1BII, 1CA0,
1MEL
1BLX
1QAV
1FAK, 1HIA,
1CXZ, 1EAY, 1IAK,
1NMB
1EFU
1SBB
1JRH, 1MDA,
1LCJ, 1MPA, 1OSZ,
1TEC
1GC1
1SPP
1NSN, 1QJA,
1QO0, 1SM3, 1TGS,
1TPA
1IKN
1TZE
1SHA, 1STR,
1VRK, 1ZFP, 2PRG,
1VFB
1LFD
1WWW
1UUG, 1YCP,
1AK4, 1AZZ, 1BJ1,
2PTC
1NMC
1A2X
2MIP, 3PRO,
1CA9, 1D2Z, 1EER,
2TPI
1PYT
1AVG
1A4Y, 1AY7,
1IBR, 1LCK
2SEC
1RSU
1BAI
1BE9, 1BXI,
2SNI
1SBP
1BT6
1CM1, 1FBI,
2TGP
1WQ1
1CJF
1HLT, 1JXP
referência
3HFL
1EVH
3HFM
1GUA
3SGB
1IBT
4HTC
1LPB
4INS
1SRN
4SGB
1UCY
4TPI
1X11
7HVP
2IGF
3ERD
1A2Y
28∗
10∗
20∗
∗ Quantidade
30∗
40∗
50∗
de complexos em cada conjunto.
Tabela 15: Códigos PDBs dos complexos protéicos utilizados no cálculo da freqüência de contato em função da
distância de separação entre os resíduos de aminoácidos presentes em cadeias distintas da proteína.
A inserção dos complexos no nosso banco de dados foi feita com base no protocolo
descrito na Subseção 6.2.1 – Funcionamento do portal MOLESA. Em suma, obtivemos as estruturas protéicas do PDB e procedemos com os testes de consistência já descritos. Optamos
140
Figura 93: Freqüência de contatos entre os resíduos ALA–ALA para as proteínas dos conjuntos 3, 4, 5 e
controle. A normalização das curvas seguiu o critério 1. Os conjuntos estão especificados nas legendas no interior
do gráfico.
por não adicionar os átomos de hidrogênio nas estruturas, pois algumas delas contêm erros,
por exemplo, estruturas com átomos faltantes (3PRO, 1BE9, 3ERD), resíduos desconhecidos
(2MTA, 1A94, 1B33), e outros. Assim, as lacunas encontradas nas estruturas impedem o correto funcionamento dos programas pdb2gmx e pdb2pqr, utilizados para prover os átomos de
hidrogênio nas estruturas das proteínas. Além disso, a inserção de átomos de hidrogênio depende de uma série de parâmetros, tais como: campo de força utilizado para prover as cargas e
raios dos aminoácidos ionizáveis, constante dielétrica adotada para a proteína (ε p ), temperatura
do sistema, etc. Visando fixar um padrão para a realização dos cálculos da freqüência de contatos, de modo que todas as proteínas analisadas contenham a mesma qualidade de informações,
decidimos por não inserir os átomos de hidrogênio nas estruturas.
Após a seleção de todas as estruturas, efetuamos o cálculo da distância de separação
entre os resíduos e inserimos todos os resultados no nosso banco de dados. Em seguida calculamos a freqüência de contatos entre pares específicos de resíduos para todas as combinações
entre os 20 aminoácidos existentes na natureza, os quais estão apresentados na Tabela 4. Variamos o r (distância de separação entre os resíduos) de 0 a 100 Å, com um ∆r igual a 5 Å.
As Figuras 93–95 ilustram os gráficos da freqüência de contatos, gi j (r)∗ , em função da distância de separação r, entre os resíduos ALA–ALA, GLU–GLU e ILE–VAL pertencentes aos
complexos protéicos contidos nos conjuntos 3, 4 e 5, exibidos na Tabela 15, utilizando o critério de normalização 1. Cada gráfico apresenta uma comparação entre os conjuntos e o conjunto
controle.
141
Figura 94: Freqüência de contatos entre os resíduos GLU–GLU para as proteínas dos conjuntos 3, 4, 5 e
controle. A normalização das curvas seguiu o critério 1. Os conjuntos estão especificados nas legendas no interior
do gráfico.
Figura 95: Freqüência de contatos entre os resíduos ILE–VAL para as proteínas dos conjuntos 3, 4, 5 e controle.
A normalização das curvas seguiu o critério 1. Os conjuntos estão especificados nas legendas no interior do
gráfico.
142
Figura 96: PFM obtido a partir da freqüência de contatos entre os resíduos ALA-ALA presentes nas proteínas
pertencentes aos conjunto 3, 4, 5 e controle. A normalização foi feita pelo critério 1.
Nestes exemplos assumimos um raio médio de 20 Å para cada proteína. Dessa forma
para garantir que os resíduos que estão presentes nas extremidades opostas entre as duas proteínas sejam “contabilizados”, realizamos os cálculos entre as distâncias de separação até um valor
máximo de 100 Å. Os valores para a distância máxima de separação e ∆r devem ser definidos
em função do conjunto de proteínas escolhido para análise.
Note que, as distâncias de separação entre os aminoácidos, no complexos protéicos
avaliados, apresentam uma distribuição uniforme, onde a maior freqüência de contatos entre
os resíduos ALA–ALA (Figura 93) ocorre na distância de separação ao redor de 8 Å, entre os
resíduos GLU–GLU em torno de 15 Å (Figura 94) e entre 5 e 12 Å para os contatos ILE–VAL
(Figura 95).
As Figuras 96 – 98 exibem o PFM em função da distância de separação r obtido a
partir da correlação de pares entre os resíduos ALA–ALA, GLU–GLU e ILE–VAL, presentes
nas proteínas pertencentes aos conjuntos 3, 4, 5 e conjunto controle, exibidos na Tabela 15,
normalizado pelo critério de normalização 1.
Visando demonstrar as diferenças entre os critérios de normalização utilizados neste
trabalho, exibimos nas Figuras 99 – 101 o PFM obtido a partir da freqüência de contatos entre os resíduos ALA–ALA, GLU–GLU e ILE–VAL, presentes nas proteínas pertencentes aos
conjuntos 3, 4, 5 e conjunto controle, exibidos na Tabela 15, normalizado pelo critério de normalização 2.
Note que, o comportamento das curvas obtidas pelos critérios de normalização 1 e
143
Figura 97: PFM obtido a partir da freqüência de contatos entre os resíduos GLU-GLU presentes nas proteínas
Figura 98: PFM obtido a partir da freqüência de contatos entre os resíduos ILE-VAL presentes nas proteínas
144
Figura 99: PFM obtido a partir da freqüência de contatos entre os resíduos ALA-ALA presentes nas proteínas
Figura 100: PFM obtido a partir da freqüência de contatos entre os resíduos GLU-GLU presentes nas proteínas
145
Figura 101: PFM obtido a partir da freqüência de contatos entre os resíduos ILE-VAL presentes nas proteínas
2, são qualitativamente equivalentes. As curvas foram apenas transladadas, de acordo com a
definição de cada normalização. A Figura 102 mostra a comparação do PFM obtido a partir
da freqüência de contatos entre os resíduos ALA–ALA presentes nas proteínas pertencentes ao
conjunto controle utilizando os dois critérios de normalização.
146
Figura 102: Comparação entre os critérios de normalização 1 e 2 no cálculo do PFM entre os resíduos
ALA–ALA presentes nas proteínas pertencentes ao conjunto controle.
Para uma melhor comparação entre os resultados obtidos, exibimos na Tabela 16 a
relação dos erros (entre os conjuntos de teste39 e conjunto controle) para os dados normalizados
utilizando os métodos de normalizações 1 e 2 e na Tabela 17, a relação das quantidades totais e
de cada aminoácido presentes nos conjuntos (1, 2, 3, 4, 5 e controle) de proteínas, exibidos na
Tabela 15. A Equação 7.1 exibe como o erro foi calculado.
N
Xi2j =
[(pz (r)controle − pz (r)teste )]2
N
z=1
∑
(7.1)
onde pz (r)controle é a freqüência de contatos entre os resíduos i e j pertencentes ao conjunto
controle na distância r; pz (r)teste é a freqüência de pares entre os resíduos i e j pertencentes ao
conjunto de testes na distancia r; N é o número de divisões realizadas na distância total. Neste
trabalho adotamos que a distância máxima é igual a 100 Å a qual foi divida em 20 partes iguais
de 5 Å cada uma. Xi2j nos apresenta o erro de uma determinada interação i, j. Para obtermos o
erro total de todas as interações entre os aminoácidos, utilizamos a Equação 7.2.
i=20 j=20
2
XTotal
=
∑ ∑
Xi2j
(7.2)
i=1 j=1
onde i e j representam os 20 aminoácidos naturais; Xi2j é o erro entre um par i, j específico e
2
XTotal
é o erro do conjunto de testes em relação ao conjunto controle, ou seja, a soma dos erros
39 Chamamos
aqui, para efeito didático, cada conjunto de proteínas como “conjunto de testes”, com exceção do
conjunto controle, exibidos na Tabela 15.
147
de todas as observações entre os aminoácidos i e j.
X2
Conjunto
Normalização 1 Normalização 2
Conjunto 1
0,202
0,835
Conjunto 2
0,210
0,966
Conjunto 3
0,205
1,138
Conjunto 4
0,180
1,006
Conjunto 5
0,176
0,891
Tabela 16: Relação dos conjuntos de proteínas e os respectivos erros encontrados em relação ao conjunto
controle, exibidos na Tabela 15.
Conjunto controle
Conjunto 1
Conjunto 2
Conjunto 3
Conjunto 4
Conjunto 5
CYS 274 (2,73)
CYS 141 (2,17)
CYS 262 (1,91)
CYS 283 (1,79)
CYS 507 (2,72)
CYS 514 (1,8)
GLN 485 (4,83)
GLN 234 (3,6)
GLN 436 (3,17)
GLN 739 (4,68)
GLN 821 (4,4)
GLN 1.192 (4,18)
ILE 529 (5,26)
ILE 293 (4,51)
ILE 779 (5,67)
ILE 888 (5,62)
ILE 891 (4,77)
ILE 1.377 (4,83)
SER 1.162 (11,56)
SER 557 (8,57)
SER 948 (6,89)
SER 1.206 (7,64)
SER 1.728 (9,25)
SER 2.016 (7,07)
VAL 710 (7,06)
VAL 418 (6,43)
VAL 1.010 (7,35)
VAL 1.001 (6,34)
VAL 1.161 (6,22)
VAL 2.083 (7,3)
GLY 1.010 (10,05)
GLY 547 (8,41)
GLY 955 (6,95)
GLY 1.246 (7,89)
GLY 1.601 (8,57)
GLY 2.142 (7,51)
PRO 425 (4,23)
PRO 312 (4,8)
PRO 698 (5,08)
PRO 694 (4,39)
PRO 842 (4,51)
PRO 1.437 (5,04)
LYS 453 (4,51)
LYS 365 (5,61)
LYS 796 (5,79)
LYS 899 (5,69)
LYS 907 (4,86)
LYS 1.556 (5,46)
THR 764 (7,6)
THR 445 (6,84)
THR 919 (6,68)
THR 938 (5,94)
THR 1.260 (6,75)
THR 1.830 (6,42)
PHE 261 (2,6)
PHE 260 (4, 0)
PHE 574 (4,17)
PHE 635 (4,02)
PHE 686 (3,67)
PHE 1.156 (4,05)
ALA 705 (7,01)
ALA 438 (6,74)
ALA 956 (6,95)
ALA 1136 (7,19)
ALA 1.335 (7,15)
ALA 2.010 (7,05)
HIS 162 (1,61)
HIS 166 (2,55)
HIS 396 (2,88)
HIS 353 (2,24)
HIS 367 (1,97)
HIS 706 (2,48)
MET 123 (1,22)
MET 131 (2,01)
MET 236 (1,72)
MET 333 (2,11)
MET 251 (1,34)
MET 545 (1,91)
ASP 421 (4,19)
ASP 372 (5,72)
ASP 848 (6,17)
ASP 1.022 (6,47)
ASP 979 (5,24)
ASP 1.631 (5,72)
GLU 380 (3,78)
GLU 356 (5,47)
GLU 919 (6,68)
GLU 920 (5,83)
GLU 1.049 (5,62)
GLU 1.806 (6,33)
LEU 680 (6,77)
LEU 459 (7,06)
LEU 1.088 (7,91)
LEU 1.217 (7,71)
LEU 1.561 (8,36)
LEU 2.506 (8,79)
ARG 319 (3,17)
ARG 293 (4,51)
ARG 666 (4,84)
ARG 794 (5,03)
ARG 862 (4,62)
ARG 1.400 (4,91)
TRP 177 (1,76)
TRP 161 (2,48)
TRP 189 (1,37)
TRP 267 (1,69)
TRP 330 (1,77)
TRP 469 (1,64)
ASN 552 (5,49)
ASN 305 (4,69)
ASN 606 (4,41)
ASN 623 (3,95)
ASN 890 (4,77)
ASN 1.131 (3,97)
TYR 459 (4,57)
TYR 250 (3,84)
TYR 469 (3,41)
TYR 597 (3,78)
TYR 645 (3,45)
TYR 1.014 (3,56)
10,051 *
6,503 *
13,750 *
15,791 *
18,673 *
28,521 *
∗ Quantidade
total de resíduos em cada conjunto. Valores entre parênteses indicam a porcentagem.
Tabela 17: Quantidade de cada resíduo presente nos conjuntos de proteínas exibidos na Tabela 15.
Note que há uma distribuição uniforme da quantidade de aminoácidos de um determinado tipo em todos os conjuntos apresentados na Tabela 17. No futuro, estas informações
poderão ser utilizadas para avaliar a importância que cada aminoácido exerce na proteína e na
formação de complexos protéicos.
148
8
DISCUSSÃO
Conforme proposto, este projeto tem como objetivo gerar conhecimentos tanto na área
da física de biomoléculas quanto na área da ciência da computação. Por isso visando uma
melhor organização dividiremos nossa discussão em duas partes: 1) enfoque computacional e
2) enfoque físico; descritos a seguir.
8.1
Enfoque computacional
Banco de dados: Após um estudo de alguns sistemas gerenciadores de banco de da-
dos (SGBD) - analisamos soluções livres e proprietárias - optamos pela adoção do PostgreSQL
8.3. Esta decisão foi tomada por este ser um banco de dados de uso gratuito, multiplataforma,
robusto e apresentar de forma bastante consistente um efetivo sistema de backup e restore das
informações. A utilização de banco de dados para prover os dados necessários para o cálculo
de propriedades eletrostáticas de proteínas, armazenar informações sobre a validação das estruturas de proteínas e freqüência de contato dos aminoácidos entre as proteínas estudadas para
posteriormente gerar os potenciais estatísticos, proporcionou um grande ganho de velocidade ao
acesso a estes dados, além da organização e relacionamento das informações; aqui sendo gerenciadas por um sistema gerenciador de banco de dados. A Tabela 18 exibe uma comparação entre
o uso de banco de dados e arquivos texto no que diz respeito à organização, armazenamento e
recuperação da informação.
Enquanto que em um arquivo texto as informações precisam ser obtidas (lidas) linha
por linha para serem processadas posteriormente, no banco de dados toda informação é retornada em um único acesso ao banco. Com todos os dados carregados uma única vez na memória1
do computador as outras operações ocorrem quase que instantaneamente, sendo este tempo, o
tempo que o processador leva para acessar esses dados em memória. Outros dois fatores que
influenciam bastante o tempo de acesso aos dados são: a) acesso ao disco é muito mais lento
que acesso a memória, pois a leitura no disco é feito por uma unidade mecânica (uma espécie
1 Memória
RAM (Randon Access Memory), uma placa com circuitos integrados acoplada à placa mãe (motherboard) do computador.
149
Funcionalidades
Organização dos dados
Recuperação dos dados
Expansão
Escalabilidade
Atomicidade
Sistema de Banco de dados
Os dados são armazenados
em tabelas as quais podem
ser relacionadas umas com
as outras, sendo gerenciadas
pelo SGBD.
Os dados solicitados são
providos pelo sistema gerenciador de banco de dados.
Grande flexibilidade. Tabelas adicionais podem ser inseridas no modelo relacional.
O banco de dados pode
ser distribuído em diversos
computadores a fim de se
obter uma melhor distribuição dos dados.
O SGBD garante que as operações sejam executadas por
completo. Caso houver alguma falha de hardware os
dados são retornados ao seu
estado anterior mais recente.
Arquivo texto
O gerenciamento e manipulação dos dados são de responsabilidade do desenvolvedor.
Acesso seqüencial feito linha após linha.
Limitado ao arquivo ou conjunto de arquivos.
Limitado ao tempo de aceso
para a leitura do arquivo.
Não é possível garantir a
integridade das operações
caso houver alguma falha de
hardware.
Tabela 18: Comparativo entre o uso de banco de dados e arquivos texto a respeito da organização,
armazenamento e recuperação de dados.
de braço mecânico com uma ponta magnética para leitura das informações), enquanto que na
memória, o acesso aos dados é realizado por meio de circuitos lógicos integrados. b) localidade
de acessos, onde os dados que são armazenados na memória do computador estão próximos
uns dos outros evitando dessa maneira um cache miss ou gaps em memória cache2 (detalhes de
como são feitos os acessos aos diversos níveis hierárquicos da memória do computador são omitidos, pois exigem um estudo mais detalhado sobre arquiteturas e organização de computadores
– maiores informações podem ser entradas na referência (198)).
Saídas: Após algumas análises percebemos que seria mais eficaz que os resultados
gerados pela aplicação fossem flexíveis o bastante a ponto de permitir, para cada usuário, uma
maneira própria que o mesmo poderia escolher para visualizar as informações geradas pela aplicação, além da opção padrão adotada pelos portais. Esta flexibilidade foi conseguida de maneira
bastante simples, através da criação de arquivos texto. No preditor básico de complexação, o
2 Memória
localizada no interior ou no mesmo chip da UCP (Unidade Central de Processamento), seu tamanho,
organização, algoritmos de acesso e substituição dos dados variam conforme o modelo e família do processador.
150
Figura 103: Modelo do arquivo de informações criado após a conclusão do processamento da ferramenta “Single
protein properties”, para o cálculo da titulação ideal da proteína β -lactoglobulina bovina (PDB: 1BEB).
arquivo texto gerado contém as informações das coordenadas que são utilizados para construção dos gráficos, além disso, informações detalhadas como temperatura, pH, tabela utilizada
para os valores experimentais de pKa ’s, também estão contidas em tais arquivos, permitindo
desta forma que o “experimento” possa ser reproduzido pelo usuário. Tais arquivos podem ser
salvos (download) diretamente do portal, proporcionando assim que o usuário crie gráficos à
sua maneira. A Figura 103 exibe um exemplo do arquivo de informações criado pela ferramenta
“Single protein properties”, provida pelo portal PROMETHEUS, utilizando o nível de predição
ideal para o cálculo da titulação da proteína β -lactoglobulina bovina (PDB: 1BEB).
151
Na análise do potencial estatístico, os resultados são exibidos diretamente no portal
e, assim como no preditor básico de complexação, há a possibilidade de salvar um arquivo
texto contendo as informações a respeito dos potenciais. Tais arquivos contêm o conjunto de
estruturas de proteínas solicitadas pelo usuário, a lista de aminoácidos das diferentes cadeias, a
distância de separação entre os mesmos e outras informações.
A criação de arquivos textos, disponíveis aos usuários, proporciona os seguintes benefícios:
• Novos dados: qualquer sistema operacional possui algum tipo de editor de texto, permitindo assim que as informações providas por nossas ferramentas sejam ajustadas a fim de
atender as necessidades dos diferentes perfis de usuários;
• Flexibilidade: a fonte de informação para a maioria dos programas de computador utilizados para criação de gráficos provêm de arquivos texto, permitindo de tal forma que o
usuário utilize um programa de sua preferência para reproduzir os gráficos gerados por
nossas ferramentas;
• Informação: as informações a respeito das análises providas pelos portais ficam à disposição dos usuários, proporcionando aos mesmos, a reprodução e controle das análises
realizadas pelos portais.
Após analisarmos alguns programas para criação de gráficos como, por exemplo,
JFreeChart (199), Origin (200) e outros, adotamos o gnuplot (184). O gnuplot possui muitas
vantagens (dentro do nosso contexto) em relação aos programas analisados, entre elas podemos destacar: a) vasta documentação disponível (em livros, internet, fóruns de discussão entre
outros), b) qualidade das imagens e grande poder de personalização de cada um dos gráficos
gerados; c) tamanho em bytes do gráfico gerado, em torno de 5 a 10 Kbytes. Esse é um fator
crítico em aplicações disponíveis na internet, pois permitirá o bom desempenho da aplicação,
em relação do fornecimento das imagens (gráficos), mesmo quanto utilizada por usuários que
dispõem de recursos computacionais muito precários, como por exemplo, o acesso a internet
por modem – através de linha telefônica. Apesar do minúsculo tamanho do arquivo, a qualidade
da imagem não é prejudicada.
Cálculos e ferramentas desenvolvidas: Os portais web foram desenvolvidos utilizando o modelo MVC (Model View Control). Este modelo de desenvolvimento de software
proporciona grande flexibilidade à aplicação desenvolvida, pois o conjunto dos dados (Model),
as operações executadas sobre os dados (Control) e a interface gráfica utilizada para efetuar
a interação com o usuário (View) trabalham de forma independente uns dos outros. Assim
152
Figura 104: Ilustração do modelo MVC (Model View Control) utilizado no desenvolvimento dos portais web.
qualquer alteração ou substituição de um componente não afeta o funcionamento de outro. A
Figura 104 exibe o modelo MVC adotado como padrão de desenvolvimento dos portais web
onde utilizamos o PostgreSQL para prover, armazenar e organizar os dados disponíveis durante
o processamento (Model); Python e outras ferramentas utilizadas durante o processo de cálculo
(Control); e Java para fazer a interface e interação com os usuários (View).
Este modelo permitirá que os portais web desenvolvidos neste projeto interajam com
outras fontes de dados e outros serviços web sem a necessidade de qualquer alteração das classes
responsáveis pelo processamento dos dados. Tal flexibilidade foi conseguida graças ao desenvolvimento de um método, na classe FcfrpPDB, chamado getStructure que realiza a interface
entre a fonte de dados e as tarefas de processamento, tornando transparente para o sistema a
forma de aquisição dos dados a serem processados. A Figura 105 ilustra a organização do
sistema em relação à origem da fonte de dados que serão processados.
Figura 105: Organização do sistema em relação à origem da fonte de dados que serão processados.
153
O método getStructure é responsável pela obtenção das informações a repeito das
estruturas e seqüência primária das proteínas, independente de sua origem (arquivo no formato
PDB, FASTA, banco de dados, etc.), e pela criação de uma estrutura de dados desenvolvida
e padronizada para ser utilizada pelos portais. Esta estrutura é então utilizada como fonte de
dados para as diversas ferramentas providas pelos portais.
O funcionamento do método getStructure, para uma solicitação de processamento a
partir do código PDB de uma proteína ou complexo que não está presente em nossa base de
dados, ocorre da seguinte forma:
1. O usuário solicita o processamento de uma determinada estrutura através de seu código
PDB;
2. O sistema verifica se a estrutura solicitada está presente na base de dados local;
3. Estrutura não encontrada na base de dados local:
3.1 O sistema obtém a estrutura do banco de dados de proteínas (PDB);
3.2 Realiza a checagem desta estrutura verificando se esta possui resíduos desconhecidos, ausência de átomos, etc. (teste de consistência);
3.3 Insere as informações sobre a estrutura da proteína, juntamente com o resultado do
teste de validação, em tabelas apropriadas no banco de dados local;
4. O sistema cria uma estrutura de dados, através do método getStructure, a qual é submetida para o processamento;
5. Ao término do processamento, o sistema exibe para o usuário uma página web contendo
o resultado do processamento.
O método getStructure proporciona grande flexibilidade ao portal no sentido de interagir com outras ferramentas e serviços web pois, a única alteração a ser feita no portais é
no método getStructure. Uma vez que a organização dos dados a serem processados depende
de sua origem, basta implementar o protocolo de organização dos dados (da fonte externa) no
método getStructure para que este seja capaz de criar a estrutura utilizada pelos portais na
realização das análises. A partir desta estrutura todo o processamento é trivial para o sistema.
Definição da linguagem adotada: Comparando Java com outras linguagens de
programação, voltadas para web, como .Net (dotNet) (201), PHP (202), ASP (203), Ruby (204)
154
e outras, Java mostra-se superior a todas elas (no quesito portabilidade), pois permite não só a
construção de aplicações voltadas para web (JEE – Java Enterprise Edition) como também aplicações desktop (JSE – Java Standard Edition) e o desenvolvimento de aplicações que executam
em processadores de pequeno porte (JME – Java Micro Edition) como celulares, por exemplo.
Tais características permitem o desenvolvimento de aplicações para os mais diversificados ambientes e plataformas computacionais. O sucesso de Java está em sua robustez, permitindo a
criação de programas de computador cada vez mais seguros, e flexibilidade, permitindo sua
execução em diferentes plataformas por meio dos bytecodes3 que são interpretados pelas máquinas virtuais Java (JVM – Java Virtual Machine) implementadas para cada tipo de sistema
operacional, seguindo a filosofia: “Escreva uma vez, execute em qualquer lugar”. Detalhes sobre funcionamento de toda arquitetura Java bem como suas diversas especificações podem ser
encontradas na referência (205). Outra vantagem que Java exerce sobre as outras linguagens é
a grande quantidade de métodos já implementados e o uso exclusivo de programação orientada
a objetos, permitindo o uso extremo de reaproveitamento de código, padronização e controle
de acessos a métodos, objetos e variáveis, tendo como único pré-requisito a presença de um
compilador Java (JDK – Java Development Kit) utilizado para compilar o código fonte. A soR o framework Microsoft DotNet
R tem o mesmo princípio de
lução proposta pela Microsoft,
funcionamento do Java, ou seja, uma camada intermediária entre os códigos compilados e o
R perde em portabilidade, pois só funciona
programa executável, porém a solução da Microsoft
R Diante de tamanhas possibilidades adotamos o Java para realizar a
em sistemas Windows.
interação com o usuário, através do desenvolvimento de uma interface voltada para web. Neste
contexto fizemos o uso de Servlets, Bean e páginas JSP. Como demonstrado pela Figura 104
nenhum processamento é realizado em Java, apenas a interface com o usuário. Apesar do seu
indiscutível poder de portabilidade, o processamento de operações aritméticas em Java é mais
lento que em outras linguagens de programação como C/C++, Fortran e Python. Isto se deve ao
fato de como o código da linguagem foi projetado, além do desempenho particular de cada máquina virtual Java. Neste contexto escolhemos como linguagem de programação, para realizar
todo o processamento, Python, por ser esta uma linguagem que tem sido utilizada largamente na
solução de problemas biomoleculares (veja, por exemplo, o Biopython), possuir métodos eficazes para a solução de cálculos aritméticos como, por exemplo, métodos para calcular integrais,
exponenciais, etc., através do uso de bibliotecas desenvolvidas exclusivamente para este fim
como scipy e numpy, com algoritmos implementados C/C++ (visando o ganho de eficiência e
3 Os
bytecodes são criados após a compilação do código fonte java. Uma vez criados, os bytecodes podem ser
interpretados por qualquer Máquina Virtual Java (JVM – Java Virtual Machine). Cada sistema operacional possui
uma implementação da sua própria JVM, possibilitando uma abstração de arquiteturas de hardware e software,
permitindo que o mesmo código java compilado seja executado nos mais diversificados ambientes, desde celulares
e desktops a cluters e mainframes.
155
performance) e por apresentar rápida curva de aprendizagem.
Funcionamento dos portais: Assim que o usuário submete uma estrutura para análise, um servlet é responsável por receber o código da estrutura de interesse (código PDB da
proteína) e o código da operação a ser realizada (cálculo da titulação ideal de uma proteína, cálculo da predição de um complexo protéico, cálculo dos potenciais estatísticos, etc.). De posse
destas informações o servlet requisita para a classe python responsável, o processamento de tais
informações. A classe realiza o processamento e devolve o controle da aplicação para o servlet
que, por sua vez, direciona o usuário para a página que contém a saída esperada. O gráfico, o
arquivo de saída exibido para o usuário e o conteúdo da pagina JSP4 são gerados dinamicamente
e administrados pelo servlet, de tal forma que o processamento de um usuário não interfira no
resultado final de outro usuário. As tarefas que são realizadas desde a definição do conjunto de
parâmetros até a resposta do sistema para o usuário, são dividas entre diversos componentes e
aplicações. Segue a descrição, de uma forma bastante simplificada, dos principais componentes
envolvidos em um processamento solicitado pelo usuário:
1. Servlet: É o gerente da aplicação. Os servlets são responsáveis por obter os dados dos
usuários assim como determinar as análises que o usuário deseja realizar, ou seja, qual
operação (titulação ideal de uma proteína, criação de um arquivo no formato PQR, etc.)
será realizada sobre os dados;
2. Python: Subordinado aos servlets, as classes desenvolvidas em Python são quem efetuam
todo o processamento sobre os dados. Após o processamento, o Python devolve os dados,
assim como todas as mensagens de erros encontradas durante o processo de cálculo, para
os servlets, os quais decidem qual será o destino dos dados processados.
3. Gnuplot: Responsável pela criação dos gráficos que são exibidos para o usuário. Todas
as informações que estarão contidas nos gráficos são criadas pelas classes em Python,
restando ao gnuplot, apenas a tarefa de representá–los graficamente.
4. Paginas JSP: São as “porta-vozes” dos servlets durante a interação com usuário. A
interação com o usuário ocorre através das páginas JSP e todas as informações obtidas
pelo usuário através das páginas JSP são encaminhadas para os sevlets decidirem quem
irá processar tais informações (classes python) ou onde o resultado de um determinado
processamento será exibido (páginas JSP).
4 Java
Server Pages (JSP) é uma tecnologia utilizada no desenvolvimento de aplicações para web. Esta tecnologia permite ao desenvolvedor de páginas para internet produzir aplicações dinâmicas.
156
8.1.1
Análise da complexidade de algoritmos
Visando uma melhor compreensão da relação custo computacional em função do ta-
manho do problema efetuamos uma análise da complexidade de alguns algoritmos desenvolvidos neste projeto. Esta análise pode ser utilizada também para verificar a qualidade dos
algoritmos desenvolvidos e verificar se é viável o estudo em larga escala das propriedades
eletrostáticas e estruturais das proteínas em busca por preditores de complexos protéicos. Os
pseudocódigos exibidos nos Algoritmos 2 e 3 ilustram como é efetuado o cálculo das cargas
das proteínas.
Algoritmo 2: Pseudocódigo do algoritmo utilizado para realizar o cálculo do grau de
dissociação de um próton (αi ) de um aminoácido i.
função: ObtemAlfaAminoacido(phDaSolucao, pkaExperimental):
pot = pow(10, (phDaSolucao - pkaExperimental));
retorne pot/(1 + pot);
Algoritmo 3: Pseudocódigo utilizado para calcular a carga líquida de uma proteína.
para cada aminoacido presente na proteína faça
se o aminoácido for ácido então
carga = ObtemAlfaAminoacido(phSolução, pkExperimental)*(-1)
senão se o aminoácido for básico então
carga = 1 - ObtemAlfaAminoacido(phSolução, pkExperimental)
senão
carga = 0.0
cargaTotal = cargaTotal + carga
retorne cargaTotal
Analisando o pseudocódigo apresentado pelo Algoritmo 2 observamos o seguinte comportamento:
1. Há uma operação primitiva5 para realizar a subtração entre o pH da solução e o pKa
experimental de cada aminoácido ionizável: (phDaSolucao – pkaExperimental); uma
operação primitiva para realizar a operação de potenciação: (pow(10, (phDaSolucao pkaExperimental))); e uma operação primitiva para atribuir tal resultado à variável “pot”;
2. Há uma operação primitiva para realizar a soma de 1 e variável “pot”: 1 + pot; uma
operação primitiva para dividir o valor da variável “pot” por esta primeira operação rea5 Operações
primitivas são as operações básicas de um algoritmo. Por exemplo, operações de atribuição, soma,
subtração, etc. Ao contarmos o número de chamadas às funções primitivas estamos contando a eficiência do
algoritmo, podendo assim fazer comparações entre algoritmos para o mesmo problema e decidir qual o mais
eficiente. Através de análises mais precisas do número de operações primitivas executadas pelo algoritmo podemos
obter a sua complexidade.
157
lizada: pot/(1 + pot); e uma operação primitiva para retornar o valor obtido pela função
ObtemAlfaAminoacido.
Portanto, analisando o pseudocódigo apresentado pelo Algoritmo 2, este algoritmo
possui um custo computacional que varia com 6N, onde N representa o tamanho do problema
e 6 é a quantidade de operações primitivas executadas. Como o cálculo da carga da proteína
não depende somente do cálculo da constante de dissociação de um próton, mas também do
pseudocódigo apresentado pelo Algoritmo 3, efetuamos a análise da complexidade do mesmo,
descrita a seguir:
1. Há uma operação primitiva quando o aminoácido for básico “1 - ObtemAlfaAminoacido”
ou quando for ácido “ObtemAlfaAminoacido*(-1)”; uma operação primitiva para atribuir
o valor advindo da função “ObtemAlfaAminoacido” para a variável “carga”. Note que
quando o aminoácido não for básico nem ácido apenas a operação de atribuição é realizada. Entretanto para a análise da complexidade devemos observar sempre o “pior caso”.
2. Há uma operação primitiva para realizar a soma: “cargaTotal + carga”, onde “cargaTotal”
é a carga da proteína e “carga” é a carga de um aminoácido. Há uma operação primitiva
para atribuir tal soma para a variável “cargaTotal” e uma para retornar o valor da carga de
uma proteína: “retorne cargaTotal”.
Assim o pseudocódigo apresentado pelo Algoritmo 3 possui um custo computacional
que varia com 5N, considerando que 5 é a quantidade de operações primitivas executadas. Dessa
forma podemos concluir que o custo total para o cálculo da carga líquida de uma proteína,
realizado através do nível de predição ideal, é função de 30N (6N x 5N).
Ao executar as operações em larga escala o termo constante torna-se desprezível.
Dessa forma, a análise da complexidade deste algoritmo, demonstra que o mesmo é O(N),
ou seja, o custo computacional cresce proporcionalmente com a quantidade de aminoácidos
presentes na proteína. Tal análise pode ser utilizada para prever o tempo de processamento que
será necessário para efetuar a predição das propriedades eletrostáticas das proteínas.
Uma vez que o custo computacional cresce linearmente em função do tamanho vs.
quantidade das proteínas que são analisadas, o algoritmo possui desempenho suficiente para
que as operações sejam executadas em larga escala. O tempo de processamento pode ser estimado em função do poder computacional disponível para efetuar os processamentos.
158
8.2
Enfoque físico
a) Equilíbrio Iônico: Observa-se uma grande semelhança em todas as curvas de titulação, apresentadas na Subseção 6.1.2 - Propriedades dos aminoácidos isolados (Single
amino acid properties), onde a valência ideal do aminoácido diminui conforme o aumento do pH. Aminoácidos e proteínas apresentam notáveis propriedades ácido-base. Os
α-aminoácidos quando isolados possuem dois ou, para aqueles com cadeias laterais ionizáveis, três grupos ionizáveis. As propriedades dos aminoácidos permitem algumas
generalizações sobre seu comportamento ácido-base. Primeiro, todos os aminoácidos
com apenas um grupo α-amino, um grupo carboxila e um grupo R que não se ioniza,
possuem curvas de titulação que se assemelham à da alanina, exibida na Figura 55. Segundo, aminoácidos com grupo R ionizável possuem curvas de titulação mais complexas,
com três estágios de ionização possíveis. As curvas de titulação para os aminoácidos
desse tipo são exibidos pelas Figuras 11 e 57, onde podemos observar o comportamento
de aminoácidos que são ácidos e básicos, respectivamente.
O pH no qual uma molécula não apresenta carga elétrica líquida é conhecido como seu
ponto isoelétrico, pI. Assim, observamos um comportamento semelhante entre as curvas
de titulação dos aminoácidos, onde em pH abaixo do pI, os aminoácidos apresentam
valência positiva e acima do pI, negativa.
Quando o pH da solução possui valores abaixo do pI do aminoácido, átomos de hidrogênio presentes na solução ligam-se com o grupo básico do aminoácido (COO− ). Com
isso, o resíduo fica positivamente carregado neste ambiente, conseqüentemente aumentando sua valência. Por outro lado, quando o pH da solução possui valores mais elevados
do que o pI do aminoácido, átomos de hidrogênio do grupo ácido do aminoácido (+ H3 N)
são dissociados na solução, tornando o resíduo negativamente carregado.
b) Propriedades eletrostáticas em proteínas – preditor básico de complexos: As curvas
de titulação dos α-aminoácidos isolados, obtidas a partir dos cálculos, realizados pelas
ferramentas desenvolvidas neste projeto, exibem seus respectivos valores de pKa . Entretanto em polipeptídios e proteínas, devido ao grande número de aminoácidos ionizáveis
presentes em sua estrutura bem como sua configuração espacial, este comportamento é
raramente apresentado. Como resultado da influência eletrostática de grupos carregados
na vizinhança, além do efeito de sal e íons móveis na solução, o pKa de cada grupo ionizável é deslocado em varias unidades de pH a partir de seu valor no aminoácido isolado.
Essas diferenças entre valores de pKa dos aminoácidos ionizáveis presentes na proteína
e quando os mesmos estão isolados são computadas utilizando-se o programa MEAD.
159
Por esta não ser uma análise trivial iremos abordá-la detalhadamente na Subseção 8.2.1 Critérios para a predição dos pKa ’s dos aminoácidos ionizáveis.
Com base nos valores de pKa ’s, utilizando a ferramenta “Protein-protein interaction”,
provida pelo portal PROMETHEUS, é possível ter uma previsão da formação de um
complexo protéico (entre duas proteínas), a partir de suas propriedades eletrostáticas (titulação e capacitância), em dois níveis de predição: 1) utilizando apenas a seqüência
primária de cada proteína onde os cálculos são realizados analiticamente e os valores de
pKa ’s são obtidos de alguma tabela de referência (Nozaki e Tanford ou Creighton), ou
2) através da estrutura tridimensional das proteínas, empregando soluções numéricas da
EPBL para computar os valores de pKa ’s dos aminoácidos ionizáveis de acordo com sua
localização na estrutura 3D da proteína. A ferramenta realiza os cálculos de acordo com
os parâmetros físico-químicos definidos pelo usuário e é capaz de identificar em quais
condições (pH, concentração de sal, etc.) a complexação será mais favorável. A predição
é realizada através da análise de ∆Gele e B2 .
O ∆Gele pode ser adotado como um critério conveniente da espontaneidade para processos. Se ∆Gele é negativo, o processo é espontâneo; se positivo, o processo é dito não
natural; e se ∆Gele é igual a zero, o sistema está em equilíbrio (206).
Ressaltamos que neste primeiro momento estamos calculando apenas interações de
Coulomb do tipo carga-carga com a possibilidade de incluirmos o mecanismo de regulação de cargas. Futuramente esta ferramenta será ampliada permitindo incorporar outras
contribuições, como, por exemplo, as interações de van der Walls, que podem ser tão
importantes quanto as eletrostáticas.
O B2 é uma propriedade física que representa a integral do potencial intermolecular sobre
a distância de separação entre duas biomoléculas em questão. O cálculo preciso das
energias de interação entre moléculas de proteínas é uma tarefa que apresenta alto custo
computacional, principalmente porque tais sistemas apresentam uma geometria complexa
e uma irregular distribuição de cargas. O segundo coeficiente de virial é um indicador útil
das interações totais que ocorrem entre duas moléculas e é muito utilizado para descrever
a agregação entre proteínas, compreendendo o efeito predominante das interações entre
elas. Se B2 (ou B23 ) é positivo, o sistema é repulsivo; e se negativo, é atrativo (14, 99,
207). O valor de B2 é dependente de quais interações são incluídas em ∆Gele (ver Equação
5.17).
c) Análise da freqüência de contatos: Para a determinação da freqüência de contatos, selecionamos aleatoriamente algumas proteínas, cujos códigos PDB são exibidos na Tabela
15. O conjunto controle foi selecionado com base na referência (130). Optamos pela
160
realização dos cálculos a partir do centro geométrico dos resíduos por: 1) minimizar o
custo computacional, uma vez que as coordenadas de cada átomo constituinte do resíduo
são omitidas e apenas as coordenadas do centro geométrico deste são consideradas; 2) a
cadeia lateral R de alguns aminoácidos, como a arginina e histidina, é longa e o uso do
centro geométrico para tais resíduos proporciona uma melhor descrição do seu tamanho.
Analisando os diversos gráficos normalizados (Figuras 96, 97 e outras), gerados após o
cálculo do PFM, encontramos um padrão satisfatório entre o conjunto controle e o conjunto de testes6 . Tal observação indica uma constituição consistente do conjunto controle,
garantindo a diversidade do mesmo e as perspectivas de uso para extração das informações ai contidas.
No futuro, a construção dos conjuntos de proteínas poderá ser realizada de forma mais
criteriosa, por exemplo, os conjuntos poderão ser divididos por família de proteínas, função biológica, quantidade de resíduos, etc. A quantidade de complexos presentes em
cada um dos conjuntos será objeto de estudo. Um dos fatores a ser analisado para tal
escolha será o próprio critério de análise, uma vez que a quantidade de informações presentes no banco de dados, em relação ao cálculo das distâncias de separação entre todos
os resíduos presentes em cadeias distintas do complexo, cresce explosivamente. Para um
conjunto inicial de 180 complexos protéicos presentes no nosso banco de dados (informação obtida em 22/05/2010), há mais de 26 milhões de possíveis interações entre os
resíduos constituintes de tais complexos.
Nossos resultados futuros serão confrontados com alguns mapas de contato existentes
na literatura como, por exemplo, os encontrados por Miyazawa e Jernigan (112, 113) e
resultados de simulações Monte Carlo.
8.2.1
Critérios para a predição dos pKa ’s dos aminoácidos ionizáveis
Por depender de muitos parâmetros, não há na literatura um critério definido e fun-
damentado do protocolo mais adequado para a predição dos pKa’s em função da posição
do aminoácido na estrutura da proteína através da solução numérica da EPBL. Diversos métodos numéricos podem ser empregados para a solução da EPBL, dentre os quais destacamos o método das diferenças finitas. Este método está implementado em diversos pacotes de programas cuja função é calcular os pKa ’s de cada aminoácido, como por exemplo,
o MEAD (Macroscopic Electrostatics with Atomic Detail) e o UHBD (University of Houston Brownian Dynamics). Optamos por utilizar o MEAD v.2.2.7 para o cálculo dos pKa ’s
6 Conjunto
de testes: conjunto 1, 2, 3, 4, e 5 exibidos na Tabela 15.
161
uma vez que este pacote é utilizado por vários outros serviços web (20, 79), possuir boas
concordâncias com dados experimentais (8, 144) e por ser gratuito (disponível em: ftp:
//ftp.scripps.edu/electrostatics/), embora seja pobre em documentação, referente à sua utilização e não apresentar protocolos bem definidos para a configuração dos
arquivos auxiliares utilizados nos diversos cálculos das propriedades eletrostáticas de biomoléculas. Para minimizar este déficit de documentação, uma pequena explicação do funcionamento
do MEAD, arquivos de configurações necessários e parâmetros exigidos para a utilização dos
diversos programas nele contidos, é apresentada no Apêndice C.
8.2.1.1
Validação dos dados iniciais
Visando a familiarização com o pacote MEAD, iniciamos nossos estudos reproduzindo
alguns trabalhos da literatura (20, 122). Pela disponibilidade de informações a respeito dos arquivos de configuração utilizados pelos programas contidos no pacote MEAD, primeiro, reproduzimos os resultados da referência (122), onde seguimos fielmente todos os dados do autor. Os
arquivos de configuração para a execução dos comandos foram obtidos de um dos exemplos que
acompanham o pacote MEAD v.2.2.7 (localizado no diretório “MEAD/examples/lysozyme”).
Após a confirmação dos nossos resultados avaliamos a influência do parâmetro epsave_oldway
disponível para o programa multiflex do pacote MEAD.
Apesar do autor não deixar claro quais foram todos os procedimentos utilizados para a
criação dos arquivos de configuração, a reprodução deste trabalho foi importante, pois através
dela podemos: 1) avaliar o funcionamento dos diversos programas contidos no pacote MEAD;
2) entender como tais programas funcionam e a influência de cada parâmetro utilizado para a
execução dos mesmos; e 3) propor melhorias, em relação a forma como os arquivos devem ser
configurados, além de demonstrar o correto funcionando do portal PROMETHEUS, quando o
usuário optar por realizar os cálculos a partir da estrutura 3D da proteína.
A configuração dos arquivos para a utilização do MEAD é um fator crucial para a
obtenção correta dos resultados. Para demonstrar a importância da definição dos arquivos de
configuração, realizamos uma comparação entre os valores de pKa ’s obtidos utilizando os arquivos de configuração do exemplo (lysozyme) disponível junto com a distribuição do MEAD e
os valores de pKa ’s obtidos quando utilizamos os arquivos de configuração, para as cargas dos
átomos (arquivos .st), do trabalho da referência (208). A Tabela 19 exibe a comparação realizada entre os valores de pKa ’s obtidos do exemplo do MEAD, os providos pelo PROMETHEUS
e os obtidos utilizando os arquivos de configuração da referência (208).
162
Resíduo pKout(Bashford)7
N Term
6,4
His 15
4,0
Glu 7
2,1
Glu 35
6,3
Asp 18
3,1
Asp 48
1,0
Asp 52
7,0
Asp 66
1,7
Asp 87
1,2
Asp 101
7,9
Asp 119
3,2
Tyr 20
14,0
Tyr 23
11,7
Tyr 53
20,8
Lys 1
9,6
Lys 13
11,6
Lys 33
9,6
Lys 96
10,4
Lys 97
10,6
Lys 116
9,9
C Term
2,3
RMSD
pKout(PROMETHEUS)8
6,4
4,0
2,1
6,4
3,1
1,0
7,0
1,7
1,2
7,9
3,2
14,0
11,7
20,8
9,5
11,6
9,6
10,4
10,5
9,9
2,3
0,1810
pkout(Juffer)9
6,8
4,0
2,3
4,9
2,7
2,5
7,3
1,8
2,2
8,4
3,6
11,3
11,2
23
10,1
13,2
9,6
11,6
11,1
0,0
2,7
11,0111
Tabela 19: Comparação dos valores de pKa ’s da proteína lisozima (distribuído junto com o pacote MEAD) e os
providos pelo PROMETHEUS com o parâmetro epsave_oldway.
Analisando os resultados obtidos é visível a importância da “correta" configuração dos
arquivos no formato st (arquivo onde se define os estados de ionização do aminoácido isolado).
Note que, apenas alterando as configurações das cargas dos átomos presentes nos arquivos no
formato st, houve uma diferença significativa entre os resultados obtidos pelo trabalho de Juffer
e colaboradores e PROMETHEUS, em relação ao de Bashford & Karplus. Verificamos também a correta reprodução, por nossa aplicação, do trabalho de referência (Bashford), tornando
evidente o correto funcionamento dos programas utilizados. Neste exemplo executamos os
programas multiflex e redti da seguinte forma:
7 Valores
de pKa ’s obtidos da referência (122).
obtidos pelo PROMETHEUS, utilizando todos os arquivos de configuração do exemplo “lysozyme”,
distribuído junto com o pacote MEAD v.2.2.7.
9 Arquivos de configuração obtidos da referência (208).
10 RMSD entre os valores de pK ’s obtidos pelo portal PROMETHEUS e pelo exemplo do MEAD (Bashford
a
(122)), após a execução do programa redti.
11 RMSD entre os valores de pK ’s obtidos utilizando os arquivos de configuração adotados pela referência
a
(208) em relação ao resultado obtido utilizando os arquivos de configuração adotados por Bashford & Karplus
(122), após a execução do programa redti.
8 Valores
163
Resíduo pKout(Bashford)12
N Term
6,4
His 15
4,0
Glu 7
2,1
Glu 35
6,3
Asp 18
3,1
Asp 48
1,0
Asp 52
7,0
Asp 66
1,7
Asp 87
1,2
Asp 101
7,9
Asp 119
3,2
Tyr 20
14,0
Tyr 23
11,7
Tyr 53
20,8
Lys 1
9,6
Lys 13
11,6
Lys 33
9,6
Lys 96
10,4
Lys 97
10,6
Lys 116
9,9
C Term
2,3
RMSD
pKout(PROMETHEUS)13
6,6
4,4
2,0
6,0
2,7
0,6
7,0
1,1
0,8
7,8
3,2
13,8
11,6
20,6
9,6
11,7
9,8
10,5
10,7
9,9
2,1
1,1215
pkout(Juffer)14
6,7
4,6
2,0
4,5
2,3
2,2
7,3
1,2
1,8
8,4
3,6
11,5
11,3
23,2
10,0
13,5
9,5
12,1
11,1
10,1
2,7
5,0816
Tabela 20: Comparação dos valores de pKa ’s da proteína lisozima, distribuído junto com o pacote MEAD e os
providos pelo PROMETHEUS sem o parâmetro epsave_oldway.
multiflex -epsin 4.0 -epsave_oldway -ionicstr 0.1 tric
redti tric
onde tric é o nome da estrutura da proteína utilizada. Informações detalhadas sobre os diversos
parâmetros para a execução dos programas pertencentes ao pacote MEAD, podem ser encontradas no Apêndice C.
Uma vez validado o funcionamento dos programas, iniciamos uma série de testes visando avaliar e efeito de cada parâmetro durante a realização dos cálculos, assim como buscar
a melhor forma para a configuração de cada arquivo utilizado para o cálculo dos pKa ’s. Inici12 Valores
de pKa ’s obtidos da referência (122).
de pKa ’s obtidos pelo PROMETHEUS, utilizando todos os arquivos de configuração do exemplo
“lysozyme”, distribuído junto com o pacote MEAD.
14 Arquivos de configuração obtidos da referência (208).
15 RMSD entre os valores de pK ’s obtidos pelo portal PROMETHEUS e pelo exemplo do MEAD, após a
a
execução do programa redti.
16 RMSD entre os valores de pK ’s obtidos utilizando os arquivos de configuração adotados pela referência (208)
a
em relação ao resultado obtido utilizando os arquivos de configuração adotados por Bashford & Karplus (122).
13 Valores
164
amos nossos testes investigando o efeito do parâmetro -epsave_oldway disponível na execução
do programa multiflex. A Tabela 20 exibe a comparação realizada entre os valores de pKa ’s
obtidos do exemplo disponibilizado junto com o MEAD, os calculados pelo PROMETHEUS
e citados na referência (208), em relação a não utilização deste parâmetro. Para obtenção dos
resultados, executamos os programas da seguinte forma:
multiflex -epsin 4.0 -ionicstr 0.1 tric
redti tric
onde tric é o nome da estrutura da proteína utilizada. Note que a ausência do parâmetro epsave_oldway produziu resultados diferentes em relação ao resultado obtido anteriormente
(Tabela 19). Dessa forma, os trabalhos atuais devem ser realizados sem essa opção.
Veja nos Apêndices C e D os detalhes de cada parâmentro que pode ser utilizado nos
programas disponíveis no pacote MEAD, os arquivos de configuração necessários para execução de tais programas e os critérios adotados para a configuração das cargas parciais e raio de
cada átomo em função do campo de força escolhido.
165
9
CONCLUSÃO E TRABALHOS
FUTUROS
Este trabalho visa o desenvolvimento de preditores de complexação proteína–proteína,
através da análise das propriedades eletrostáticas (PROMETHEUS) em diferentes níveis preditivos (analítico e Poisson-Boltzmann) e estruturais (MOLESA), que possam ser empregados em
larga escala.
Pelo lado mais físico, discutimos a importância do meio onde as proteínas se encontram. Sal e pH são dois fatores cruciais que regem a possibilidade de formação de complexos,
incluindo a possibilidade de formação de complexos entre proteínas com cargas de mesmo sinal.
Desenvolvemos uma nova interface web para ferramentas tradicionais da área e um
novo preditor que permitiu bons resultados, quando testado em sistemas onde as interações
predominantes são de origem eletrostática. É interessante destacar a possibilidade de se prever a
complexação de algumas proteínas empregando apenas a seqüência primária1 delas, indicando
que em muitos sistemas a complexação é guiada pelas interações de longo alcance com as
proteínas funcionando como se fossem partículas coloidais (interações não específicas).
Analisando as freqüências de contatos entre os aminoácidos dos diversos conjuntos
de proteínas, percebemos um comportamento parecido entre o conjunto controle e os demais.
Além disso observamos uma semelhança na quantidade de aminoácidos de um determinado
tipo presentes em todos os conjuntos de proteínas.
O desenvolvimento dos portais PROMETHEUS e MOLESA é útil para o estudo e
entendimento das contribuições eletrostáticas na formação de complexos e permitindo que se
explore também as contribuições das demais interações fundamentais. Além disso, pode ser
aplicado em diferentes problemas, do estudo de sistemas específicos a previsão de condições de
cristalização e a nascente área de Interactoma Molecular.
1 Em
sistemas onde as interações eletrostáticas são as predominantes, modelos simplificados com base na
seqüência primária das proteínas apresentam resultados tão bons quanto outros mais complexos como, por
exemplo, as simulações computacionais (PB e MC) que utilizam a estrutura 3D da proteína. Além disso,
a quantidade de seqüências primárias disponíveis é muito maior do que as estruturas 3D (veja em http:
//www.ncbi.nlm.nih.gov/), destacando assim a importância em se ter um preditor inicial de complexos
protéicos com base apenas na seqüência primária das proteínas.
166
A flexibilidade dos portais permite que novos níveis de predição sejam adicionados aos
mesmos, como por exemplo, o nível 2 ou nível de predição baseado na estrutura 3D da proteína,
utilizando Monte Carlo, a inclusão de outras interações físicas, etc.
Com o acréscimo do estudo dos potenciais estatísticos integrados ao portal MOLESA,
e a sua capacidade de se relacionar com outros serviços (70, 89, 127), teremos um ambiente bastante diversificado para o estudo de sistemas biomoleculares. Por exemplo, a partir das seqüências primárias de duas proteínas será possível prever se elas formarão um complexo, ou ainda
com base na estrutura 3D da proteína, identificar o padrão de disposição entre seus resíduos,
tornando os portais web uma referência ao estudo destes sistemas, além de gerar conhecimentos
nas áreas afins à Biologia Computacional, Física, Bioquímica Molecular e outras, bem como
um ambiente de relacionamento comum entre os profissionais das mais diversas áreas do saber.
9.1
Perspectivas de Trabalho Futuro
As ferramentas computacionais desenvolvidas neste projeto constituem um passo ini-
cial na busca pelo entendimento das interações físicas fundamentais dos sistemas biológicos.
Há ainda um longo caminho a ser percorrido, tanto para que se quantifique a real contribuição
de cada uma destas interações, como também para que o preditor cumpra suas finalidades com
maior porcentagem de acerto. Alguns trabalhos a serem futuros:
1. PROMETHEUS:
• Possibilidade de utilização de pKa ’s obtidos de outras fontes, como dados experimentais (por exemplo PropKa) ou outros métodos teóricos;
• Criação de scripts com todos os passos utilizados pelo usuário para que o mesmo
possa repetir sua simulação apenas re-submetendo esse script, quer original, quer
modificado;
• Adição de outros campos de força para cálculos de propriedades eletrostáticas das
proteínas;
• Integração do portal com outros serviços (p.ex. Mohline);
• Calibração do modelo para incorporação de outras interações importantes, como as
de van der Walls;
• Extender os níveis de predição, permitindo cálculos mais confiáveis para o preditor
de complexos, por exemplo, MC;
167
• Uso de scripts para lidar com conjuntos grandes de proteínas, permitindo análises metodológicas mais completas, quantificação das diferentes interações em
conjuntos de proteínas e aplicação desta ferramenta em vários problemas, como
previsão das condições de cristalização, efeitos de mutação, Interactoma Molecular, etc.;
• Extensão para sistemas proteína-polieletrólito, proteína-peptídeo e proteínamembrana.
2. MOLESA:
• Definição dos critérios de normalização das freqüências de contatos obtidas;
• Análise da quantidade de aminoácidos de um determinado tipo nos conjuntos de
complexos protéicos, buscando identificar a importância de cada um no processo
de complexação;
• Construção de novos conjuntos de complexos protéicos dividos por famílias de
proteínas e função biológica para posterior análise das freqüências de contatos e
potenciais estatísticos;
• Comparação dos potencias estatísticos com os obtidos através de observações em
trajetórias de simulações com diferentes Hamiltonianas, tanto no nível de MM,
como BO.
• Teste dos potenciais estatísticos para previsão da complexão.
168
REFERÊNCIAS
1 LEHNINGER, A.; COX, M.; NELSON, D. L. Principles of biochemistry. W.H. Freeman,
New York, 2008.
2 NOZAKI, Y.; TANFORD, C. Examination of titration behavior. Methods in Enzymology,
v. 11, p. 715–734, 1967.
3 TEIXEIRA, A. A. R.; LUND, M.; DA SILVA, F. L. B. Fast Proton Titration Scheme for
Multiscale Modeling of Protein Solutions. Journal of Chemical Theory and Computation, 6,
n. 10, p. 3259–3266, OCT 2010.
4 DA SILVA, F. L. B.; JÖNSSON, B. Polyelectrolyte-protein complexation driven by charge
regulation. Soft Matter, 5, n. 15, p. 2862–2868, 2009.
5 LUND, M.; JÖNSSON, B. On the charge regulation of proteins. Biochemistry, 44, n. 15, p.
5722–5727, APR 19 2005.
6 KURAMITSU, S.; HAMAGUCHI, K. Analysis of the acid-base titration curve of hen
lysozyme. Journal of Biochemistry, 87, n. 4, p. 1215–1219, 1980.
7 BARTIK, K.; REDFIELD, C.; DOBSON, C. Measurement of the individual pK(a) values
of acidic residues of hen and turkey lysozymes by 2-dimensional H-1-NMR. Biophysical
Journal, 66, n. 4, p. 1180–1184, APR 1994.
8 YOU, T.; BASHFORD, D. Conformation and hydrogen ion titration of proteins: A
continuum electrostatic model with conformational flexibility. Biophysical Journal, 69, n. 5, p.
1721–1733, NOV 1995.
9 BROWN, L. R. et al. A study of the lysyl residues in the basic pancreatic trypsin inhibitor
using nuclear magnetic resonance at 360 mhz. European Journal of Biochemistry, v. 62, n. 1,
p. 103–107, 1976.
10 BROWN, L. R. et al. The influence of a single salt bridge on static and dynamic features of
the globular solution conformation of the basic pancreatic trypsin inhibitor. European Journal
of Biochemistry, v. 88, n. 1, p. 87–95, 1978.
11 ANTOSIEWICZ, J.; MCCAMMON, J. A.; GILSON, M. K. Prediction of pH-dependent
properties of proteins. Journal of Molecular Biology, 238, n. 3, p. 415–436, MAY 6 1994.
12 RICHARZ, R.; WUTHRICH, K. High-field C-13 nuclear magnetic-resonance studies at
90.5 MHZ of basic pancreatic trypsin-inhibitor. Biochemistry, 17, n. 12, p. 2263–2269, 1978.
13 GROSS, M.; KUMAR, R.; HUNZIKER, W. Expression in escherichia-coli of full-length
and mutant rat-brain calbindin D28 - comparison with the purified native protein. Journal Of
Biological Chemistry, 263, n. 28, p. 14426–14432, OCT 5 1988.
169
14 LUND, M.; JÖNSSON, B. A mesoscopic model for protein-protein interactions in
solution. Biophysical Journal, 85, n. 5, p. 2940–2947, NOV 1 2003.
15 HAYNES, C.; SLIWINSKY, E.; NORDE, W. Structural and electrostatic properties of
globular-proteins at a polystyrene water interface. Journal of Colloid and Interface Science,
164, n. 2, p. 394–409, MAY 1994.
16 MARQUART, M. et al. The geometry of the reactive site and of the peptide groups
in trypsin, trypsinogen and its complexes with inhibitors. Acta Crystallographica Section
B-Structural Science, 39, n. AUG, p. 480–490, 1983.
17 RUHLMANN, A. et al. Structure of complex formed by bovine trypsin and bovine
pancreatic trypsin-inhibitor - crystal-structure determination and stereochemistry of contact
region. Journal of Molecular Biology, 77, n. 3, p. 417–436, 1973.
18 VELEV, O.; KALER, E.; LENHOFF, A. Protein interactions in solution characterized by
light and neutron scattering: Comparison of lysozyme and chymotrypsinogen. Biophysical
Journal, 75, n. 6, p. 2682–2697, DEC 1998.
19 MEADTOOLS v.1.4: MEAD-based tools to run binding simulations of protons and/or
electrons, acessado em agosto/2009. Disponível em: <http://www.itqb.unl.pt/
simulation>.
20 GORDON, J. et al. H++: a server for estimating pK(a)’s and adding missing hydrogens to
macromolecules. Nucleic Acids Research, 33, n. Suppl. 2, p. W368–W371, JUL 1 2005.
21 LIU, H. et al. Prediction of the isoelectric point of an amino acid based on GA-PLS
and SVMs. Journal of Chemical Information and Computer Sciences, 44, n. 1, p. 161–167,
JAN-FEB 2004.
22 VOET, D.; VOET, J. Biochemistry. J. Wiley & Sons, New York, v. 2, 2004.
23 ERCIM News - Bioinformatics Biocomputing, acessado em Abril/2008. Disponível em:
<http://www.ercim.org/publication/Ercim_News/enw43/>.
24 SUNYAEV, S. Biocomputing enters its adolescence. Genome Biology, v. 6, p. 325, 2005.
25 KORUGA, D. Biocomputing. System Sciences, 1991. Proceedings of the Twenty-Fourth
Annual Hawaii International Conference on, p. 269–275 vol.1, Jan 1991.
26 WOLYNES, P. Computational biomolecular science. Proceedings of the National
Academy of Sciences of the United States of America, 95, n. 11, p. 5848, MAY 26 1998.
27 DA SILVA, F. L. B. Interações fundamentais responsáveis pela formação de complexos
moleculares de interesse em ciências farmacêuticas e em biotecnologia. 2007. Tese de Livre
Docência, Universidade de São Paulo, 2007.
28 COHEN, J. Bioinformatics - an introduction for computer scientists. Acm Computing
Surveys, 36, n. 2, p. 122–158, JUN 2004.
29 DANDEKAR, T.; KONIG, R. Computational methods for the prediction of protein folds.
Biochimica Et Biophysica Acta-Protein Structure And Molecular Enzymology, v. 1343, p.
1–15, 1997.
170
30 WINTHER, O.; KROGH, A. Teaching computers to fold proteins. Physical Review E, 70,
n. 3, Part 1, SEP 2004.
31 PETERSEN, T. et al. Prediction of protein secondary structure at 80% accuracy.
Proteins-Structure Function and Genetics, 41, n. 1, p. 17–20, OCT 1 2000.
32 ZHAO, X. Advances on protein folding simulations based on the lattice HP models with
natural computing. Applied Soft Computing, 8, n. 2, p. 1029–1040, MAR 2008.
33 DOMINGUES, F.; KOPPENSTEINER, W.; SIPPL, M. The role of protein structure in
genomics. Febs Letters, 476, n. 1-2, p. 98–102, JUN 30 2000.
34 HEINEMANN, U. et al. An integrated approach to structural genomics. Progress in
Biophysics & Molecular Biology, 73, n. 5, p. 347–362, 2000.
35 GOLDSMITH-FISCHMAN, S.; HONIG, B. Structural genomics: computational methods
for structure analysis. Protein Science, 12, n. 9, p. 1813–1821, SEP 2003.
36 GAASTERLAND, T. Structural genomics: bioinformatics in the driver’s seat. Nature
Biotechnology, 16, n. 7, p. 625–627, JUL 1998.
37 MOMJIAN, B. Postgresql: introduction and concepts. Addison-Wesley, New York, 2001.
38 LEA, C. PHP MySQL website programming problem, design, solution. Apress, Berkeley,
2002.
39 DEITEL, P.; DEITEL, H. Java: how to program. Prentice Hall, New York, 2007.
40 DOWNEY, T. Web development with java using hibernate, jsps and servlets. Springer,
London, 2007.
41 SCHULZ-GASCH, T.; STAHL, M. Scoring functions for protein-ligand interactions: a
critical perspective. Drug Discovery Today: Technologies, v. 1, n. 3, p. 231 – 239, 2004.
42 BERMAN, H. et al. The Protein Data Bank. Nucleic Acids Research, 28, n. 1, p. 235–242,
JAN 1 2000.
43 BLOMBERG, N. et al. Classification of protein sequences by homology modeling and
quantitative analysis of electrostatic similarity. Proteins-Structure Function And Genetics, 37,
n. 3, p. 379–387, NOV 15 1999.
44 TAN, Y. H.; HUANG, H.; KIHARA, D. Statistical potential-based amino acid similarity
matrices for aligning distantly related protein sequences. Proteins-Structure Function and
Bioinformatics, 64, n. 3, p. 587–600, AUG 15 2006.
45 CRIPPEN, G. Easily searched protein folding potentials. Journal of Molecular Biology,
260, n. 3, p. 467–475, JUL 19 1996.
46 KUNDROTAS, P. J.; ALEXOV, E. Electrostatic properties of protein-protein complexes.
Biophysical Journal, 91, n. 5, p. 1724–1736, SEP 2006.
47 SAKAE, Y.; OKAMOTO, Y. Optimization of protein force-field parameters with the
Protein Data Bank. Chemical Physics Letters, 382, n. 5-6, p. 626–636, DEC 15 2003.
171
48 REDFERN, O. C.; DESSAILLY, B.; ORENGO, C. A. Exploring the structure and function
paradigm. Current Opinion in Structural Biology, v. 18, n. 3, p. 394 – 402, 2008.
49 BERMAN, H. et al. The Protein Data Bank. Acta Crystallographica Section D-Biological
Crystallography, 58, n. Part 6 Sp. Iss. 1, p. 899–907, JUN 2002.
50 TATENO, Y. et al. DNA data bank of Japan at work on genome sequence data. Nucleic
Acids Research, 26, n. 1, p. 16–20, JAN 1 1998.
51 BENSON, D. A. et al. GenBank. Nucleic Acids Research, 36, n. Sp. Iss. SI, p. D25–D30,
JAN 2008.
52 MODA, T. L. et al. PK/DB: database for pharmacokinetic properties and predictive in
silico ADME models. Bioinformatics, 24, n. 19, p. 2270–2271, OCT 1 2008.
53 BERMAN, H. et al. The nucleic-acid database - a comprehensive relational database of
3-dimensional structures of nucleic-acids. Biophysical Journal, 63, n. 3, p. 751–759, SEP
1992.
54 SPJUTH, O. et al. Bioclipse: an open source workbench for chemo- and bioinformatics.
BMC Bioinformatics, 8, FEB 22 2007.
55 ZAINOL, Z. et al. A system to integrate and manipulate protein database using bioperl
and XML. Proceedings of World Academy of Science, Engineering and Technology, VOL 6, p.
217–220, 2005.
56 STAJICH, J. et al. The bioperl toolkit: Perl modules for the life sciences. Genome
Research, 12, n. 10, p. 1611–1618, OCT 2002.
57 HOLLAND, R. C. G. et al. BioJava: an open-source framework for bioinformatics.
Bioinformatics, 24, n. 18, p. 2096–2097, SEP 15 2008.
58 COCK, P. J. A. et al. Biopython: freely available Python tools for computational molecular
biology and bioinformatics. Bioinformatics, 25, n. 11, p. 1422–1423, JUN 1 2009.
59 MURZIN, A. et al. SCOP - a structural classification of proteins database for the
investigation of sequences and structures. Journal of Molecular Biology, 247, n. 4, p. 536–540,
APR 7 1995.
60 NESHICH, G. et al. STING Millennium: a web-based suite of programs for comprehensive
and simultaneous analysis of protein structure and sequence. Nucl. Acids Res., v. 31, n. 13, p.
3386–3392, 2003.
61 CUFF, A. L. et al. The CATH classification revisited-architectures reviewed and new ways
to characterize structural divergence in superfamilies. Nucleic Acids Research, 37, n. Sp. Iss.
SI, p. D310–D314, JAN 2009.
62 PROTEIN Data Bank Contents Guide: Atomic Coordenate Entry Format Description.
2006. Disponível em: <http://www.wwpdb.org/documentation/format3.0.
1-dif.pdf>.
63 OSGUTHORPE, D. Ab initio protein folding. Current Opinion in Structural Biology, 10,
n. 2, p. 146–152, APR 2000.
172
64 HOOFT, R. et al. Errors in protein structures. Nature, 381, n. 6580, p. 272, MAY 23 1996.
65 UPPSALA Software Factory, acessado em dezembro/2009. Disponível em: <http:
//alpha2.bmc.uu.se/~gerard/manuals/>.
66 HOOFT, R.; SANDER, C.; VRIEND, G. Verification of protein structures: Side-chain
planarity. Journal of Applied Crystallography, 29, n. Part 6, p. 714–716, DEC 1 1996.
67 SACCENTI, E.; ROSATO, A. The war of tools: how can NMR spectroscopists detect
errors in their structures? Journal of Biomolecular NMR, 40, n. 4, p. 251–261, APR 2008.
68 VRIEND, G.; SANDER, C. Quality-control of protein models - directional atomic contact
analysis. Journal of Applied Crystallography, 26, n. Part 1, p. 47–60, FEB 1 1993.
69 VRIEND, G. WHAT IF - a molecular modeling and drug design program. Journal of
Molecular Graphics, 8, n. 1, p. 52–&, MAR 1990.
70 DOLINSKY, T. et al. PDB2PQR: an automated pipeline for the setup of PoissonBoltzmann electrostatics calculations. Nucleic Acids Research, 32, n. Suppl. 2, p.
W665–W667, JUL 1 2004.
71 DOLINSKY, T. J. et al. PDB2PQR: expanding and upgrading automated preparation of
biomolecular structures for molecular simulations. Nucleic Acids Research, 35, n. Suppl. S, p.
W522–W525, JUL 2007.
72 LI, H.; ROBERTSON, A.; JENSEN, J. Very fast empirical prediction and rationalization
of protein pK(a) values. Proteins-Structure Function and Bioinformatics, 61, n. 4, p. 704–721,
DEC 1 2005.
73 BAS, D. C.; ROGERS, D. M.; JENSEN, J. H. Very fast prediction and rationalization of
pK(a) values for protein-ligand complexes. Proteins-Structure Function And Bioinformatics,
73, n. 3, p. 765–783, NOV 15 2008.
74 WEINER, P.; KOLLMAN, P. AMBER - assisted model-building with energy refinement
- a general program for modeling molecules and their interactions. Journal of Computational
Chemistry, 2, n. 3, p. 287–303, 1981.
75 WANG, J.; CIEPLAK, P.; KOLLMAN, P. How well does a restrained electrostatic
potential (RESP) model perform in calculating conformational energies of organic and
biological molecules? Journal of Computational Chemistry, 21, n. 12, p. 1049–1074, SEP
2000.
76 DUAN, Y. et al. A point-charge force field for molecular mechanics simulations of proteins
based on condensed-phase quantum mechanical calculations. Journal Of Computational
Chemistry, 24, n. 16, p. 1999–2012, DEC 2003.
77 BASHFORD, D. Macroscopic electrostatics with atomic detail (MEAD): Applications to
biomacromolecules. Biomacromolecules: From 3-D Structure to Applications, p. 53–68, 1997.
78 LYSKOV, S.; GRAY, J. J. The RosettaDock server for local protein-protein docking.
Nucleic Acids Research, 36, n. Suppl. S, p. W233–W238, JUL 2008.
173
79 MITEVA, M.; TUFFERY, P.; VILLOUTREIX, B. PCE: web tools to compute protein
continuum electrostatics. Nucleic Acids Research, 33, n. Suppl. 2, p. W372–W375, JUL 1
2005.
80 BAKER, N. Poisson-Boltzmann methods for biomolecular electrostatics. Methods in
Enzymology, 383, p. 94–118, 2004.
81 BAKER, N. Biomolecular applications of Poisson-Boltzmann methods. Reviews in
Computational Chemistry, 21, p. 349–379, 2005.
82 SAYYED-AHMAD, A.; MIAO, Y.; ORTOLEVA, P. Poisson-Boltzmann theory of
bionanosystems. Communications in Computational Physics, 3, n. 5, p. 1100–1116, MAY
2008.
83 SITKOFF, D.; SHARP, K.; HONIG, B. Accurate calculation of hidration free-energies
using macroscopic solvent models. Journal Of Physical Chemistry, 98, n. 7, p. 1978–1988,
FEB 17 1994.
84 SITKOFF, D.; BENTAL, N.; HONIG, B. Calculation of alkane to water solvation free
energies using continuum solvent models. Journal of Physical Chemistry, 100, n. 7, p.
2744–2752, FEB 15 1996.
85 JENSEN, L. J. et al. STRING 8-a global view on proteins and their functional interactions
in 630 organisms. Nucleic Acids Research, 37, n. Sp. Iss. SI, p. D412–D416, JAN 2009.
86 QIN, S.; ZHOU, H.-X. meta-PPISP: a meta web server for protein-protein interaction site
prediction. Bioinformatics, 23, n. 24, p. 3386–3387, DEC 15 2007.
87 KANTARDJIEV, A. A.; ATANASOV, B. P. PHEPS: web-based pH-dependent protein
electrostatics server. Nucleic Acids Research, 34, n. Sp. Iss. SI, p. W43–W47, JUL 1 2006.
88 TINA, K. G.; BHADRA, R.; SRINIVASAN, N. PIC: protein interactions calculator.
Nucleic Acids Research, 35, n. Suppl. S, p. W473–W476, JUL 2007.
89 CAVALCANTI, M. et al. Structural genomic workflows supported by web services. 14TH
International Workshop on Database and Expert Systems Applications, PROCEEDINGS, p.
45–49, 2003.
90 CAVALCANTI, M. et al. Managing structural genomic workflows using Web services.
Data & Knowledge Engineering, 53, n. 1, p. 45–74, APR 2005.
91 YE, A. Q. Complexation between milk proteins and polysaccharides via electrostatic
interaction: principles and applications - a review. International Journal of Food Science and
Technology, v. 43, n. 3, p. 406–415, 2008.
92 SELKOE, D. J. Folding proteins in fatal ways. Nature, v. 426, n. 6968, p. 900–904, DEC
2003.
93 DOBSON, C. M. Protein folding and misfolding. Nature, v. 426, n. 6968, p. 884–890,
DEC 2003.
94 DEVLIN, T. M. Textbook of biochemistry with clinical correlations. Wiley-Liss, Hoboken,
NJ, 2006.
174
95 CHITI, F.; DOBSON, C. M. Protein misfolding, functional amyloid, and human disease.
Annual Review of Biochemistry, v. 75, n. 1, p. 333–366, 2006.
96 WEBER, P. Physical principles of protein crystallization. Advances in Protein Chemistry,
41, p. 1–36, 1991.
97 GIEGE, R. et al. Crystallogenesis of biological macromolecules. biological, microgravity
and other physico-chemical aspects. Progress in Crystal Growth and Characterization of
Materials, v. 30, n. 4, p. 237 – 281, 1995.
98 NARAYANAN, J.; LIU, X. Protein interactions in undersaturated and supersaturated
solutions: a study using light and x-ray scattering. Biophysical Journal, v. 84, n. 1, p. 523 –
532, 2003.
99 MOON, Y. et al. Protein-protein interactions in aqueous ammonium sulfate solutions.
lysozyme and bovine serum albumin(BSA). Journal of Solution Chemistry, 29, n. 8, p.
699–717, MAR 2000.
100 ALOMIRAH, H. F.; ALLI, I. Separation and characterization of [beta]-lactoglobulin and
[alpha]-lactalbumin from whey and whey protein preparations. International Dairy Journal,
v. 14, n. 5, p. 411 – 419, 2004.
101 TANFORD, C. Physical chemistry of macromolecules. John Wiley Sons, New York,
1961.
102 PACE, C. N.; GRIMSLEY, G. R.; SCHOLTZ, J. M. Protein ionizable groups: pK values
and their contribution to protein stability and solubility. Journal of Biological Chemistry,
v. 284, n. 20, p. 13285–13289, 2009.
103 STRYKER, M.; BERTOLINI, M.; HAO, Y. Blood fractionation: proteins. Advances in
biotechnological processes, v. 4, p. 276–336, 1985.
104 JERVIS, L.; PIERPOINT, W. Purification technologies for plant proteins. Journal of
Biotechnology, v. 11, n. 2-3, p. 161 – 198, 1989.
105 LAMBERT, P.; MEERS, J. The production of industrial enzymes. Philosophical
Transactions of the Royal Society of London Series B-Biological Sciences, 300, n. 1100, p.
263–282, 1983.
106 ISRAELACHVILI, J. N. Intermolecular and surface forces. Academic Press, San Diego,
1992.
107 JÖNSSON, B.; LUND, M.; DA SILVA, F. L. B. Electrostatics in macromolecular
solutions. Food Colloids: Self-assembly and Material Science, 302, p. 129–154, 2007.
108 DA SILVA, F. L. B.; OLIVARES-RIVAS, W.; COLMENARES, P. J. Basic statistics and
variational concepts behind the reverse Monte Carlo technique. Molecular Simulation, 33, n. 8,
p. 639–647, 2007.
109 MCGREEVY, R. L.; PUSZTAI, L. Reverse monte carlo simulation: a new technique for
the determination of disordered structures. Molecular Simulation, v. 1, p. 359–367, 1988.
110 LYBRAND, T. Ligand protein docking and rational drug design. Current Opinion in
Structural Biology, 5, n. 2, p. 224–228, APR 1995.
175
111 FRIEDMAN, H. Electrolyte-solutions at equilibrium. Annual Review of Physical
Chemistry, 32, p. 179–204, 1981.
112 MIYAZAWA, S.; JERNIGAN, R. Estimation of effective interresidue contact energies
FROM protein crystal-structures - quasi-chemical approximation. Macromolecules, 18, n. 3, p.
534–552, 1985.
113 MIYAZAWA, S.; JERNIGAN, R. Residue-residue potentials with a favorable contact
pair term and an unfavorable high packing density term, for simulation and threading. Journal
of Molecular Biology, 256, n. 3, p. 623–644, MAR 1 1996.
114 MASSO, M. Accurate prediction of stability alterations in single-site protein mutants
based on a novel computational mutagenesis. Biophysical Journal, n. Suppl. S, p. 217A, JAN
2007.
115 KARLIN, S.; ALTSCHUL, S. Methods for assessing the statistical significance of
molecular sequence features by using general scoring schemes. Proceedings of the National
Academy of Sciences of the United States of America, 87, n. 6, p. 2264–2268, MAR 1990.
116 THOMAS, P.; DILL, K. Statistical potentials extracted from protein structures: How
accurate are they? Journal of Molecular Biology, 257, n. 2, p. 457–469, MAR 29 1996.
117 BENNAIM, A. Statistical potentials extracted from protein structures: Are these
meaningful potentials? Journal of Chemical Physics, 107, n. 9, p. 3698–3706, SEP 1 1997.
118 HONIG, B. Protein folding: from the Levinthal paradox to structure prediction. Journal
of Molecular Biology, 293, n. 2, p. 283–293, OCT 22 1999.
119 GARCIAMORENO, B. Probing structural and physical basis of protein energetics linked
to protons and salt. Methods in Enzymology, 259, p. 512–538, 1995.
120 MATTHEW, J. et al. pH-dependent processes in proteins. CRC Critical Reviews in
Biochemistry, 18, n. 2, p. 91–197, 1985.
121 SHARP, K. Electrostatic interactions in macromolecules. Current Opinion in Structural
Biology, 4, n. 2, p. 234–239, APR 1994.
122 BASHFORD, D.; KARPLUS, M. pKas of ionizable groups in proteins - atomic detail
from a continuum electrostatic model. Biochemistry, 29, n. 44, p. 10219–10225, NOV 6 1990.
123 NICHOLLS, A.; HONIG, B. A RAPID finite-difference algorithm, utilizing successive
over-relaxation to solve the Poisson-Boltzmann equation. Journal of Computational Chemistry,
12, n. 4, p. 435–445, MAY 1991.
124 NICHOLLS, A.; SHARP, K.; HONIG, B. Protein folding and association - insights from
the interfacial and thermodynamic properties of hydrocarbons. Proteins-Structure Function
and Genetics, 11, n. 4, p. 281–296, 1991.
125 NICHOLLS, A.; BHARADWAJ, R.; HONIG, B. GRASP - graphical representation and
analysis of surface-properties. Biophysical Journal, 64, n. 2, Part 2, p. A166, FEB 1993.
126 MADURA, J. et al. Electrostatics and diffusion of molecules in solution - simulations with
the university-of-houston brownian dynamics program. Computer Physics Communications,
91, n. 1-3, p. 57–95, SEP 1995.
176
127 SPOEL, D. Van der et al. GROMACS: Fast, flexible, and free. Journal of Computational
Chemistry, 26, n. 16, p. 1701–1718, DEC 2005.
128 TANAKA, H. A. S. S. Medium-and long-range interaction parameters between amino
acids for predicting three-dimensional structures of proteins. Macromolecules, v. 9, p. 945–950,
1976.
129 SIPPL, M. Calculation of conformational ensembles from potentials of mean force - an
approach to the knowledge-based prediction of local structures in globular-proteins. Journal of
Molecular Biology, 213, n. 4, p. 859–883, JUN 20 1990.
130 JIANG, L. et al. Potential of mean force for protein-protein interaction studies.
Proteins-Structure Function and Genetics, 46, n. 2, p. 190–196, FEB 1 2002.
131 SU, Y. et al. An improved method of potential of mean force for protein-protein
interactions. Chinese Science Bulletin, v. 53, p. 1145–1151, 2008.
132 DAHIREL, V. et al. Toward the description of electrostatic interactions between globular
proteins: potential of mean force in the primitive model. Journal of Chemical Physics, 127,
n. 9, SEP 7 2007.
133 TAYLOR, N.; SMITH, R. The World Wide Web as a graphical user interface to program
macros for molecular graphics, molecular modeling, and structure-based drug design. Journal
of Molecular Graphics & Modelling, 14, n. 5, p. 291–&, OCT 1996.
134 GERT Vriend home page, acessado em dezembro/2008. Disponível em: <http:
//swift.cmbi.ru.nl/gv/start/index.html>.
135 ALLEN, J. P. Biophysical chemistry. wiley-blackwell, Oxford, 2008.
136 BECKER, E. D. High resolution nmr: theory and chemical applications. Academic Press,
San Diego, 2000.
137 DA SILVA, F. L. B. Statistical mechanics studies of aqueous solutions and biomolecular
systems. Lund University: Sweden, 2000.
138 FRIEDMAN, H. L. Ion-ion and ion-solvent interactions - introduction. Faraday
Discussions, v. 64, p. 7–15, 1977.
139 FRENKEL, D.; SMIT, B. Understanding molecuar simulation: from algorihthms to
applications. Academic Press, San Diego, 2002.
140 FOGOLARI, F.; BRIGO, A.; MOLINARI, H. The Poisson-Boltzmann equation for
biomolecular electrostatics: a tool for structural biology. Journal of Molecular Recognition,
15, n. 6, p. 377–392, NOV-DEC 2002.
141 VLACHY, V. Ionic effects beyond Poisson-Boltzmann theory. Annual Review of Physical
Chemistry, 50, p. 145–165, 1999.
142 MCQUARRIE, D. A. Statistical mechanics. University Science Books, Sausalito, Calif.,
2000.
177
143 FONSECA, F.; FRANCO, A. Study of complex charge distributions in an electrolyte
using the Poisson-Boltzmann equation by lattice-Boltzmann method. Microelectronics Journal,
39, n. 11, p. 1224–1225, NOV 2008.
144 BASHFORD, D. Macroscopic electrostatic models for protonation states in proteins.
Frontiers In Bioscience, 9, p. 1082–1099, MAY 2004.
145 SOARES, T.; FERREIRA, R. Applications of the Poisson-Boltzmann equation to the
calculation of pH-dependent properties in proteins. QUIMICA NOVA, 27, n. 4, p. 640–647,
JUL-AUG 2004.
146 LU, B. Z. et al. Recent progress in numerical methods for the Poisson-Boltzmann
equation in biophysical applications. Communications in Computational Physics, 3, n. 5, p.
973–1009, MAY 2008.
147 DAVIS, M.; MCCAMMON, J. Electrostatics in biomolecular structure and dynamics.
Chemical Reviews, 90, n. 3, p. 509–521, MAY 1990.
148 WARWICKER, J.; WATSON, H. Calculation of the electric-potential in the active-site
cleft due to alpha-helix dipoles. Journal of Molecular Biology, 157, n. 4, p. 671–679, 1982.
149 BROOKS, B. et al. CHARMM - a program for macromolecular energy, minimization,
and dynamics calculations. Journal of Computational Chemistry, 4, n. 2, p. 187–217, 1983.
150 ROUX, B.; SIMONSON, T. Implicit solvent models. Biophysical Chemistry, 78, n. 1-2,
p. 1–20, APR 5 1999.
151 HILL, T. L. Statistical mechanics: principles and selected applications. New York, 1987.
152 NIJBOER, B.; VANHOVE, L. Radial distribution function of a gas of hard spheres and
the superposition approximation. Physical Review, 85, n. 5, p. 777–783, 1952.
153 TRZESNIAK, D.; KUNZ, A.-P. E.; GUNSTEREN, W. F. van. A comparison of methods
to compute the potential of mean force. Chemphyschem, 8, n. 1, p. 162–169, JAN 8 2007.
154 LEACH, A. R. Molecular modelling: principles and applications. Prentice Hall, England,
2001.
155 GUNSTEREN, W. F. Biomolecular simulation: The GROMOS96 manual and user guide.
1996.
156 CHRISTEN, M. et al. The GROMOS software for biomolecular simulation:
GROMOS05. Journal of Computational Chemistry, 26, n. 16, p. 1719–1751, DEC 2005.
157 TAN, C.; YANG, L.; LUO, R. How well does Poisson-Boltzmann implicit solvent agree
with explicit solvent? A quantitative analysis. Journal of Physical Chemistry B, 110, n. 37, p.
18680–18687, SEP 21 2006.
158 SVENSSON, B.; JÖNSSON, B.; WOODWARD, C. Electrostatic contributions to the
binding of Ca2+ in calbindin mutants: A monte carlo study. Biophysical Chemistry, v. 38,
n. 1-2, p. 179 – 183, 1990.
159 DE CARVALHO, S. J. Estudo metodológico dos aspectos eletrostáticos da interação
ligante-biomolécula. 2003. Dissertação de Mestrado, Universidade Estadual Paulista, 2003.
178
160 OOSTENBRINK, C. et al. Validation of the 53A6 GROMOS force field. European
Biophysics Journal With Biophysics Letters, 34, n. 4, p. 273–284, JUN 2005.
161 HESS, B. et al. GROMACS 4: algorithms for highly efficient, load-balanced, and
scalable molecular simulation. Journal of Chemical Theory and Computation, 4, n. 3, p.
435–447, MAR 2008.
162 DUNFIELD, L.; BURGESS, A.; SCHERAGA, H. Energy parameters in polypeptides .8.
Empirical potential-energy algorithm for conformational-analysis of large molecules. Journal
of Physical Chemistry, 82, n. 24, p. 2609–2616, 1978.
163 GUNSTEREN, W. F.; BERENDSEN, H. J. C. Groningen molecular simulation
(GROMOS) library manual. 1987.
164 SORENSEN, S. Enzyme studies - note II - the measurement and the significance of
hydrogenic concentrate in enzymatic processes. Biochemische Zeitschrift, 21, p. 131–304,
1909.
165 HE, Y.; XU, J.; PAN, X.-M. A statistical approach to the prediction of pK(a) values in
proteins. Proteins-Structure Function and Bioinformatics, 69, n. 1, p. 75–82, OCT 2007.
166 SPITZNER, N. et al. Ionization properties of titratable groups in ribonuclease T-1
- I. pK(a) values in the native state determined by two-dimensional heteronuclear NMR
spectroscopy. European Biophysics Journal With Biophysics Letters, 30, n. 3, p. 186–197,
2001.
167 LAURENTS, D. et al. Charge-charge interactions are key determinants of the pK values
of ionizable groups in ribonuclease Sa (pI=3.5) and a basic variant (pI=10.2). Journal of
Molecular Biology, 325, n. 5, p. 1077–1092, JAN 31 2003.
168 LEE, A. C.; CRIPPEN, G. M. Predicting pK(a). Journal of Chemical Information and
Modeling, 49, n. 9, p. 2013–2033, SEP 2009.
169 THURLKILL, R. et al. pK values of the ionizable groups of proteins. Protein Science,
15, n. 5, p. 1214–1218, MAY 2006.
170 PATRICKIOS, C.; YAMASAKI, E. Polypeptide amino-acid-composition and isoelectric
point .2. comparison between experiment and theory. Analytical Biochemistry, 231, n. 1, p.
82–91, OCT 10 1995.
171 CREIGHTON, T. E. Proteins: structures and molecular properties. W. E. Freeman and
Company, New York, 1993.
172 LUND, M.; TRULSSON, M.; PERSSON, B. Faunus: An object oriented framework for
molecular simulation. Source Code for Biology and Medicine, v. 3, n. 1, p. 1, 2008.
173 APOSTOL, T. M. Calculus, vol. 2: Multi-variable calculus and linear algebra with
applications. John Wiley & Sons, New York, 1969.
174 PAN, X.-Y.; ZHANG, Y.-N.; SHEN, H.-B. Large-scale prediction of human proteinprotein interactions from amino acid sequence based on latent topic features. Journal of
Proteome Research, v. 9, n. 10, p. 4992–5001, 2010.
179
175 YU, C.-Y.; CHOU, L.-C.; CHANG, D. Predicting protein-protein interactions in
unbalanced data using the primary structure of proteins. BMC Bioinformatics, v. 11, n. 1,
p. 167, 2010.
176 CHEN, P.; LI, J. Sequence-based identification of interface residues by an integrative
profile combining hydrophobic and evolutionary information. BMC Bioinformatics, v. 11, n. 1,
p. 402, 2010.
177 SILVA, A.; GOMIDE, C. Metodologia e projeto de software orientados a objetos. Érica,
São Paulo, 2003.
178 MICHAEL, B.; JAMES, R. Object-oriented modeling and design with uml. Pearson
Education, Upper Saddle River, NJ, 2005.
179 DOUGLAS, K.; DOUGLAS, S. Postgresql: the comprehensive guide to building,
programming, and administering postgresql databases. Sams publishing, Indianopolis, 2006.
180 PGADMIN III, acessado em maio/2009. Disponível em: <http://www.pgadmin.
org/docs/1.8/index.html>.
181 LAURIE, B.; LAURIE, P. Apache: the definitive guide. O’Reilly, Sebastopol, 2003.
182 BRITTAN, J.; DARWIN, I. F. Tomcat: the definitive guide. O’Reilly, Sebastopol, 2007.
183 FLAIG, R. M. Bioinformatics programming in python: a practical course for beginners.
Pasteur Institute, 2008.
184 GNUPLOT home page, acessado em outubro/2008. Disponível em: <http:
//www.gnuplot.info>.
185 MACKERELL, A. et al. All-atom empirical potential for molecular modeling and
dynamics studies of proteins. Journal of Physical Chemistry B, 102, n. 18, p. 3586–3616, APR
30 1998.
186 WILKINS, M. R. et al. Protein identification and analysis tools in the expasy server. 2-D
Proteome Analysis Protocols, Humana Press Inc, v. 112, p. 531–552, 1999.
187 JUFFER, A.; VOGEL, H. pK(a) calculations of calbindin D-9k: Effects of Ca2+ binding,
protein dielectric constant, and ionic strength. Proteins-Structure Function And Genetics, 41,
n. 4, p. 554–567, DEC 1 2000.
188 KESVATERA, T. o. et al. Ionization behavior of acidic residues in calbindin D9k.
Proteins: Structure, Function, and Genetics, v. 37, n. 1, p. 106–115, 1999.
189 ANTOSIEWICZ, J.; MCCAMMON, J. A.; GILSON, M. K. The determinants of pKa’s
in proteins. Biochemistry, v. 35, n. 24, p. 7819–7833, jan. 1996.
190 DE CARVALHO, S.; FENLEY, M.; DA SILVA, F. L. B. Protein-ion binding process on
finite macromolecular concentration. A Poisson-Boltzmann and Monte Carlo study. Journal of
Physical Chemistry B, 112, n. 51, p. 16766–16776, 2008.
191 NIR, S. Van der waals interactions between surfaces of biological interest. Progress in
Surface Science, v. 8, n. 1, p. 1 – 58, 1977.
180
192 ISHIKAWA, Y.; KATOH, Y.; OHSHIMA, H. Colloidal stability of aqueous polymeric
dispersions: Effect of ph and salt concentration. Colloids and Surfaces B-Biointerfaces,
Elsevier Science Bv, v. 42, n. 1, p. 53–58, abr. 2005.
193 PERUTZ, M. Electrostatic effects in proteins. Science, 201, n. 4362, p. 1187–1191, 1978.
194 KIRKWOOD, J.; SHUMAKER, J. Forces between protein molecules in solution arising
from fluctuations in proton charge and configuration. Proceeding of the National Academy of
Science of the United States of America, 38, n. 10, p. 863–871, 1952.
195 LIN, M. S.; FAWZI, N. L.; HEAD-GORDON, T. Hydrophobic potential of mean force as
a solvation function for protein structure prediction. Structure, 15, n. 6, p. 727–740, JUN 2007.
196 NEGI, S. S.; BRAUN, W. Statistical analysis of physical-chemical properties and
prediction of protein-protein interfaces. Journal of Molecular Modeling, 13, n. 11, p.
1157–1167, NOV 2007.
197 LIANG, S. et al. Construction of protein binding sites in scaffold structures. Biopolymers,
54, n. 7, p. 515–523, FEB 2000.
198 STALLINGS, W. Computer organization and architecture : designing for performance.
Prentice Hall, Upper Saddle River, 2003.
199 JFREECHART, acessado em dezembro/2008. Disponível em: <http://www.
jfree.org/jfreechart/>.
200 ORIGIN. Novembro 2008. Disponível em: <http://www.originlab.com/>.
201 MICROSOFT dot net, acessado em julho/2008. Disponível em: <http:
//www.microsoft.com/net/>.
202 PHP: Hypertext Processor, acessado em maio/2008. Disponível em: <http:
//www.php.net/>.
203 ASP: Application Service Provider, acessado em julho/2008. Disponível em:
<http://www.aspbrasil.com.br/>.
204 RUBY, acessado em maio/2008. Disponível em: <http://www.ruby-lang.org/
pt>.
205 SUN microsystems / ORACLE, acessado em junho/2010. Dezembro. Disponível em:
<http://br.sun.com/>.
206 CHANG, R. Physical chemistry with applications to biological systems. University
Science Books, Sausalito, Calif., p. 659, 2000.
207 NEAL, B.; ASTHAGIRI, D.; LENHOFF, A. Molecular origins of osmotic second virial
coefficients of proteins. Biophysical Journal, 75, n. 5, p. 2469–2477, NOV 1998.
208 JUFFER, A.; ARGOS, P.; VOGEL, H. Calculating acid-dissociation constants of
proteins using the boundary element method. Journal of Physical Chemistry B, 101, n. 38, p.
7664–7673, SEP 18 1997.
181
209 GNU General Public License, acessado em maio/2010. Disponível em: <http:
//www.gnu.org/copyleft/gpl.html>.
210 ARCHONTIS, G.; SIMONSON, T. Proton binding to proteins: A free-energy component
analysis using a dielectric continuum model. Biophysical Journal, 88, n. 6, p. 3888–3904, JUN
2005.
211 SHAM, Y.; CHU, Z.; WARSHEL, A. Consistent calculations of pK(a)’s of ionizable
residues in proteins: Semi-microscopic and microscopic approaches. Journal of Physical
Chemistry B, 101, n. 22, p. 4458–4472, MAY 29 1997.
212 CZODROWSKI, P. et al. Development, validation, and application of adapted
PEOE charges to estimate pK(a) values of functional groups in protein-ligand complexes.
Proteins-Structure Function And Bioinformatics, 65, n. 2, p. 424–437, NOV 1 2006.
182
APÊNDICE A -- Avaliação dos serviços disponíveis
na web
Este apêndice exibe algumas ferramentas diposníveis na web, as quais possibilitam o
tratamento de moléculas biológicas. Vizando familiarizar o leitor com as principais características desses sistemas, assim como suas limitações, efetuamos testes e avaliamos o desempenho
da ferramenta. Um sumário é descrito a seguir:
a) PDB2PQR (70, 71): O tempo de resposta é bastante satisfatório, em torno de 30 segundos
para a proteína calbindina (3ICB) utilizando o campo de força CHARMM (185). Uma
das limitações apresentadas por esta ferramenta é que ela não é capaz de criar o arquivo
PQR quando a estrutura está incompleta (faltando átomos). Veja, por exemplo, a resposta
que o sistema nos apresenta quando solicitamos a criação um arquivo PQR com uma
estrutura (4HTC) que não possui alguns átomos: “ValueError: Too few atoms present to
reconstruct or cap residue GLY H 246 in structure! This error is generally caused by
missing backbone atoms in this protein; you must use an external program to complete
gaps in the protein backbone.”.
b) H++ (20): Possui uma interface web amigável, assim como o tempo de resposta, qualidade das imagens e interatividade com o usuário. Assim como o PDB2PQR, o H++ não
realiza os cálculos para estruturas incompletas. Veja a resposta do sistema para a mesma
estrutura testada no PDB2PQR: “The following error message may help you identify the
location of the error in the PDB/PQR input file FAILURE: Sequence discontinuity occured between residues 217 and 219 at the line ATOM 2079 N GLY H 219 62.239 17.448
60.532 1.00 27.99 N”.
c) WHATIF (69, 134): Embora sua interface gráfica seja bastante rudimentar e um pouco
confusa, o WHATIF é um pacote bastante completo para análises de estruturas de biomoléculas. O pacote é divido em módulos (classes), os quais possuem várias ferramentas
(links). Fizemos um teste com a ferramenta disponível no link “Add Protons to the Structure” da classe “Hidrogen (Bonds)”. Embora a estrutura testada (código PDB: 4HTC)
183
apresente erros, o WHATIF foi capaz de adicionar os átomos de hidrogênio à estrutura.
Ao final do processamento dois arquivos foram exibidos: hadded.pdb e htopo.log. O primeiro apresenta o arquivo PDB com os átomos de hidrogênio adicionados; o segundo,
o arquivo de topologia utilizado para inserção dos átomos de hidrogênio com base no
campo de força GROMOS.
d) RosettaDock (78): O uso da ferramenta é bastante simples, porém muito dependente do
usuário. Por exemplo, é necessário enviar para a ferramenta o arquivo PDB a ser processado. A ferramenta não obtém a estrutura da proteína diretamente do PDB, como
faz a ferramenta que desenvolvemos. O RosettaDock não consegue selecionar automaticamente os modelos da estrutura (quando esta é resolvida por NMR), o usuário precisa
editar o arquivo PDB, deixando apenas o modelo a ser trabalhado e assim submeter o
arquivo ao servidor, enquanto que na nossa ferramenta o usuário apenas informa qual o
modelo (através do número do modelo: 0, 1, ... N) o qual gostaria de trabalhar. Não inclui
o mecanismo de regulação de cargas, que é fundamental para a complexação em alguns
regimes de pHs.
e) PCE (79): A cada dez segundos a página de resposta solicita uma atualização automática
para obter o resultado. Este fato exibe uma pequena imprecisão em relação ao tempo
estimado para o processamento além de gerar tráfego desnecessário na rede. Assim como
no PDB2PQR e H++, não é possível realizar o estudo quando a estrutura da proteína
não está completa. A submissão da estrutura de código PDB 4HTC resultou a seguinte
mensagem: “Computation aborted - Missing backbone atoms for residue GLY246H: CA”.
184
APÊNDICE B -- Descrição das principais classes
desenvolvidas
Este apêndice tem como objeto prover uma pequena descrição das principais classes
desenvolvidas e suas funções, focando principalmente na organização do código e metodologia
orientada a objetos. Nenhum código fonte será exibido. Futuramente estaremos disponibilizando as classes sob os termos da GNU (209).
1. FcfrpPDBDatabase: Esta classe tem por finalidade criar, a partir de um conjunto de
resultados (resultSet), as estruturas de dados que serão utilizadas pela aplicação. Ela
funciona como uma interface entre os dados disponíveis no nosso banco de dados e os
dados que estarão disponíveis para serem manipulados pela aplicação, permitindo que a
aplicação seja independente da fonte de dados.
2. FcfrpAminoTopol: Contém a especificação da topologia de cada resíduo, por exemplo,
a quantidade de átomos de cada resíduo no seu estado isolado. Esta classe é utilizada
durante a fase de validação de uma estrutura.
3. FcfrpValidation: Classe responsável por validar uma estrutura. Esta classe verifica se há
resíduos e/ou átomos faltantes, se há átomos duplicados e se há resíduos desconhecidos.
Para cada problema encontrado é criado uma lista que contém os detalhes dos erros, por
exemplo, a posição no campo SEQRES do arquivo PDB de um resíduo ausente no campo
ATOM do arquivo PDB.
4. FcfrpConfig: Classe responsável pela configuração da aplicação. Os parâmetros de
configuração ficam armazenados em um arquivo texto que pode ser editado conforme
as preferências do usuário. Por exemplo, é possível definir em qual diretório será salvo
os arquivos advindos do PDB, os arquivos utilizados pelo MEAD, e outros.
5. FcfrpPDBBIO: Responsável por criar um arquivo no formato PDB, a partir de informações obtidas do banco de dados local. Tal arquivo pode ser compartilhado com diversos
185
usuários e/ou sistemas de computação da mesma forma como um arquivo PDB original e
com as vantagens de já possuir sua estrutura validada por nosso teste de consistência bem
como os átomos de hidrogênio.
6. FcfrpPDBParser: Classe responsável por criar uma estrutura de dados (Parser) a partir
dos dados disponíveis no banco de dados local. Este Parser cria uma estrutura de dados
igual a estrutura de dados criada pelo Parser do Biopython. Isso proporciona algumas
flexibilidades para nossa aplicação: 1) possibilidade de utilizar a estrutura provida pelo
Biopython tanto para dados contidos em arquivos no formato PDB, quando para os dados
disponíveis no nosso banco de dados; 2) qualquer aplicação que já utiliza o Biopython
para manipulação de estrutura de proteínas poderá utilizar o nosso Parser sem efetuar
nenhuma modificação em seu código, e com a vantagem de, em nosso Parser, já existir além dos átomos de hidrogênios, a estrutura validada; 3) no nosso Parser, além das
informações sobre os átomos da estrutura, estão também presentes as informações dos
campos SEQRES do arquivo PDB. Esta funcionalidade proporciona a manipulação das
informações sobre a seqüência primária da proteína, de forma bastante simples da mesma
forma que o Biopython proporciona ao campo ATOM. Esta opção não está disponível no
Biopython v.1.52.
7. FcfrpPDB: Classe responsável por gerenciar, valendo-se de outras classes base, a criação
correta do Parser da estrutura da proteína a ser trabalhada. Alguns métodos dessa classe
são: remoção de heteroátomos, adição de átomos de hidrogênio, verificação se a estrutura
solicitada pelo usuário já se encontra no nosso banco de dados, etc.
8. FcfrpGromacs: Classe responsável pela configuração dos arquivos necessários para que
o programa pdb2gmx, disponível no pacote de dinâmica molecular GROMACS v.4.0.5,
crie o arquivo PQR, que posteriormente será utilizado pelo MEAD v.2.2.7.
9. FcfrpStatisticalPotential: Classe responsável pela execução das operações necessárias
para se obter os potenciais estatísticos. Tais operações consistem em: definir o centro
geométrico dos resíduos de cada cadeia e executar o cálculo das distancias entre todos os
resíduos de cadeias distintas. Ao fim da execução desta classe, o resulto é armazenado
no banco de dados o qual será posteriormente analisado para construção dos potenciais
estatísticos.
10. FcfrpPQR: Classe responsável pela criação do arquivo PQR, utilizando os programas
distribuídos junto com o pacote GROMACS v.4.0.5, como: pdb2gmx e grompp. A
classe faz uso de outras classes, como por exemplo, FcfrpGromacs que cria os arquivos
de configuração.
186
11. FcfrpExecuteProgram: Classe responsável pela execução dos diversos comandos para
utilização dos programas de terceiros como o MEAD, pdb2gmx e outros. O objetivo
desta classe é padronizar as saídas das execuções dos diversos programas bem como suas
mensagens caso ocorra algum erro.
12. FcfrpFile: Classe desenvolvida para facilitar a manipulação de arquivos textos. Esta
classe possui implementações próprias para abrir, salvar, ler, etc. um arquivo texto.
13. FcfrpInsertPDB2Database: Classe responsável por inserir, nas tabelas apropriadas do
banco de dados desenvolvido, as informações contidas nos campos SEQRES, ATOM e
SSBOND presentes no arquivo PDB.
14. FcfrpInsertPDBErrorDetails2Database: Classe responsável por inserir, nas tabelas apropriadas do banco de dados desenvolvido, os erros encontrados pela classe
“FcfrpValidation” durante a fase de verificação da consistência da estrutura.
15. FcfrpShowErrorsDatails: Classe responsável pela exibição (para o usuário do sistema)
dos erros encontrados pela classe “FcfrpValidation” durante a fase de validação da estrutura. As mensagens podem ser exibidas no “terminal” 1 , no portal web ou direcionadas
para um arquivo texto, conforme a necessidade do usuário.
16. FcfrpStatisticalPotentialDatabase: Classe responsável por inserir, nas tabelas apropriadas do banco de dados desenvolvido, os resultados dos cálculos das distâncias de separação (realizados pela classe “FcfrpStatisticalPotential”) entre todos os aminoácidos
presentes em cadeias distintas das proteínas que formam o complexo.
1 Terminal:
ambiente presente nos sistemas operacionais da família UNIX, no qual é possível acessar a Shell do
sistema operacional.
187
APÊNDICE C -- Descrição dos programas auxiliares
utilizados
A ênfase do trabalho é colocada nos preditores. No uso do PROMETHEUS, precisamos dos pKa ’s que poderiam ser obtidos experimentalmente ou de qualquer outra abordagem
teórica. Pelo enfoque físico e a conseqüênte necessidade de explorar as interações fundamentais
em Biofísica, optamos por obtê-los de cálculos eletrostáticos, aproveitando programas disponíveis na literatura (MEAD, pdb2pqr e GROMACS). Para manipular arquivos no formato PDB,
usamos o Biophyton.
C.1
MEAD
Macroscopic Electrostatics with Atomic Detail (77) é um pacote de programas livres
escritos na linguagem de programação C++, disponível em: ftp://ftp.scripps.edu/
electrostatics/, que pode ser redistribuído e/ou modificado, respeitando os termos da
GNU (General Public License). A linguagem de programação escolhida provê ao software
características da metodologia de desenvolvimento orientado a objetos, a qual se destaca por ter
uma melhor organização do código-fonte e, portanto propõe uma maior facilidade de estensão
e reutilização de código.
MEAD é um conjunto de programas para o cálculo de propriedades eletrostáticas em
moléculas no qual o solvente e o interior da molécula possuem diferentes constantes dielétricas. O potencial eletrostático é determinado pela equação de Poisson-Boltzmann em sua forma
linear.
Para a utilização do pacote MEAD é necessário possuir os seguintes arquivos, descritos
abaixo:
1. Arquivo PQR: O arquivo no formato PQR é criado a partir de um arquivo no formato
PDB. No arquivo PQR encontram-se apenas os campos ATOM advindos do arquivo PDB
188
Figura 106: Exemplo de um arquivo no formato PQR, mostrando o primeiro aminoácido de uma proteína.
e eventualmente alguns campos REMARK. Este campo é utilizado para prover informações a respeito do critério de criação do arquivo PQR, como por exemplo, o campo de
força escolhido e a ferramenta utilizada para criação do arquivo PQR. Nos campos ATOM
do arquivo PQR, além das coordenadas de cada átomo, estão presentes também os raios
e as cargas (parciais) de cada um de acordo com o campo de força. A Figura 106 ilustra
um exemplo de arquivo no formato PQR.
2. Arquivo sites: Neste arquivo está presente uma lista de todos os aminoácidos ionizáveis
e a posição de cada um deles na estrutura da proteína. O arquivo no formato sites é
construído a partir de um arquivo no formato PQR ou PDB. A Figura 107 ilustra um
exemplo do arquivo de configuração sites. Cada linha contém o número do aminoácido na
primeira coluna e o nome do arquivo onde estarão especificados os estados de ionização
deste na segunda coluna. Por exemplo, o primeiro resíduo é um N-terminal, cujos estados
protonado e deprotonado são especificados no arquivo NTlys.st. Note que por ser uma
lisina (LYS), tem um segundo grupo ionizável especificado em lysNT o qual é tratado de
189
Figura 107: Exemplo de um arquivo de configuração no formato sites.
forma distinta a uma lisina (por exemplo, a de número 13) do meio da proteína.
3. Arquivos st: Para cada resíduo ionizável presente no arquivo sites, é criado um arquivo
com o mesmo nome correspondente ao nome dado para o resíduo ionizável no arquivo
sites. No arquivo st de cada resíduo encontram-se a relação de átomos que compõem
tal resíduo, a distribuição de cargas entre eles e o valor experimental do pK do resíduo
isolado.
A nomenclatura utilizada para os átomos assim como as cargas parciais de cada um deles,
depende do campo de força utilizado. No exemplo ilustrado pela Figura 108, utilizamos
o campo de força AMER99 para prover as cargas nos estados protonados e deprotonados,
assim como a nomenclatura de cada átomo pertencente ao aminoácido ácido glutâmico.
Figura 108: Exemplo de um arquivo de configuração no formato st do aminoácido ácido glutâmico (GLU). Neste
exemplo utilizamos o campo de força AMBER99 para prover as cargas e os raios de cada átomo.
190
Figura 109: Exemplo de um arquivo de configuração no formato mgm.
Para a execução do programa multiflex é desejável que a diferença entre a soma das cargas
parciais de todos os átomos no estado protonado e a soma das cargas de todos os átomos
no estado deprotonado, seja igual a 1.
4. Arquivo ogm e mgm: Esses arquivos contêm as especificações para o cubo (“caixa
de simulação") que será utilizado durante a resolução da equação linear de PoissonBolztamman pelo método das diferenças finitas, empregado pelo pacote MEAD. O arquivo no formato ogm especifica as características do cubo para uma macromolécula,
enquanto o arquivo no formato mgm especifica o cubo para um modelo composto. A
Figura 109 exibe o exemplo de um arquivo de configuração no formato mgm, no qual a
caixa de simulação está posicionada no centro geométrico da proteína e foi dividida em
41 cubos de 8 Å3 , inicialmente. Utilizando uma política de focagem o tamanho dos cubos
foi reduzido para 2 e 0,5 Å3 .
Os programas distribuídos juntos com o pacote MEAD necessitam de alguns parâmetros para sua correta execução. Segue abaixo a descrição dos parâmetros utilizados pelos
programas e logo após, a descrição de cada programa pertencente ao pacote MEAD.
191
1. Parâmetros utilizados para execução dos programas:
-epsin: Valor da constante dielétrica no interior da molécula. Geralmente tem valores
que variam entre 2,0 e 8,0 (190, 210, 211). Embora outros valores são encontrados na
literatura (187, 208) e haja muita polêmica no tema (190).
-epsext: Valor da constante dielétrica no exterior da molécula, ou seja, o solvente. Seu
valor mais comum é 80, que denota a constante dielétrica da água em temperatura igual a
298 K.
-ionicstr: Valor da concentração de sal (em mol) presente na solução. Geralmente seu
valor varia entre 0,1 e 1,0 mol, embora seja possível a utilização dos programas em altas
concentrações de sal, por exemplo, 10 mols.
-blab: Este parâmetro pode ser configurado em: blab1, blab2 e blab3. Ele controla a
quantidade de informações que serão exibidas na saída padrão durante a execução do
programa, normalmente o monitor do computador, sendo o blab3 o mais informativo.
name: Nome do arquivo de entrada que será utilizado pelo programa.
2. Programas e formas de execução:
• multiflex: A partir de informações contidas no arquivo PQR e dos vários arquivos
de configuração (descritos anteriormente), o programa multiflex resolve a EPBL,
calculando o potencial eletrostático da proteína em função da distribuição de íons
na solução e prepara os arquivos necessários para que os valores dos pKa ’s sejam
calculados pelo programa redti.
Arquivos de entradas: .pqr, .sites, .st, .ogm e .mgm.
Arquivos de saídas: .g, .summ, .pkint e .potat.
Exemplo de sintaxe: multiflex –ionicstr 0.1 –epsin 4 2LZT
Este exemplo executa o programa multiflex para a lisozima, em força iônica igual a
0,1M e constante dielétrica do interior da proteína igual a 4.
• redti: A partir de informações contidas nos arquivos .g, .summ e .pkint, calcula
o pKa de cada aminoácido ionizável em função da sua posição na estrutura da
proteína.
Arquivos de entrada: .g, .summ e .pkint.
Arquivo de saída: .pkout.
Exemplo de sintaxe: redti 2LZT
192
C.2
Biopython
O projeto Biopython (58) é uma associação internacional de desenvolvedores de
ferramentas computacionais para Biologia Molecular em Python. O site oficial é http:
//www.biopython.org e é uma fonte de módulos, scripts e links para desenvolvedores
de programas em linguagem Python para pesquisa em Ciências Biológicas.
O projeto Biopython em si tem muitas funcionalidades, entre elas:
1. Interpreta vários formatos de arquivos comumente utilizados em bioinformática em estruturas de dados Python. Incluem-se entre os formatos suportados:
• Arquivos de saída do BLAST;
• ClustalW;
• FASTA;
• GenBank;
• PubMed e Medline;
• Arquivos Expasy (Enzimas, Prodoc, Prosite);
• SCOP;
• Rebase;
• UniGene;
• SwissProt.
2. Códigos que trabalham com serviços on-line (Expasy, NCBI);
3. Interfaces para ClustalW e Blast;
4. Classe que lida com seqüências;
5. Ferramentas para trabalhos rotineiros com seqüências: transcrição, tradução e cálculos de
massa molecular;
6. Código para classificação de dados;
7. Código para lidar com alinhamentos;
8. Integração com BioSQL, um esquema padronizado de bancos de dados para seqüências
biomoleculares;
9. Documentação do próprio projeto.
193
Concentramos nossa atenção na classe PDBParser presente no módulo PDB, distribuído junto com o Biopython v.1.52. A classe PDBParser produz um objeto que lida com a
estrutura tridimensional da proteína e que pode ser manipulado de forma conveniente. A Figura 110 ilustra o diagrama de classes UML da estrutura de dados criada pelo Biopython. Em
suma, uma estrutura (proteína), é representa da seguinte forma: uma estrutura é formada por
um conjunto de modelos. Cada modelo é formado por um conjunto de cadeias onde cada cadeia
é constituída por um conjunto de resíduos e estes por sua vez por um conjunto de átomos.
Com base nesse tratamento estrutural, vários métodos foram desenvolvidos com o intuito de tornar possível a manipulação de estruturas advindas do PDB de uma forma simples e
rápida, dispensando a priori qualquer conhecimento a respeito de manipulação de arquivos no
formato PDB, sendo a única exigência, um pequeno conhecimento da linguagem de programação Python e da estrutura e métodos do pacote Biopython.
Apesar de toda a praticidade que o Biopython proporciona em relação à obtenção das
informações do arquivo PDB, este ainda é limitado, pois a estrutura criada pelo Biopython
é alimentada somente com as informações contidas nos campos ATOM do arquivo PDB. Por
exemplo, não é possível verificar quais resíduos de aminoácidos estão faltando, pois não se tem a
informação a respeito da estrutura primária da proteína. Visando minimizar essa deficiência, nós
implementamos na classe FcfrpPDBParser, uma estrutura capaz de trabalhar com os dados da
seqüência primária da proteína (campo SEQRES do arquivo PDB) de maneira bastante simples,
Figura 110: Estrutura gerada pela classe PDBParser, obtida do tutorial do Biopython v.1.52.
194
dispensando qualquer tipo de conhecimento do usuário a respeito de manipulações de arquivos.
Algumas funcionalidades disponíveis por nossa implementação são:
• Capacidade de recuperar todos os aminoácidos de uma determinada cadeia;
• Informações sobre a quantidade de um determinado aminoácido em toda proteína ou
somente em uma determinada cadeia;
• Informações sobre a quantidade de cadeias presentes no complexo protéico;
• Capacidade de saber qual aminoácido está em uma determinada posição da seqüência
primária;
• Etc.
C.3
GROMACS
GROningen MAchine for Chemical Simulations (127, 161) é um pacote para simulação
de dinâmica molecular originalmente desenvolvido na universidade de Groningen, atualmente
expandido e mantido por diferente instituições, incluindo a Universidade de Uppsala (http:
//www.uu.se/en/) e Universidade de Stockholm (http://www.su.se/english/) e
pelo instituto Max Planck (http://www.mpip-mainz.mpg.de/) para pesquisa de polímeros.
Utilizamos o programa pdb2gmx distribuído junto com o pacote GROMACS para adicionar hidrogênios nas estruturas de proteínas. O pdb2gmx lê um arquivo no formato PDB,
adiciona os hidrogênios à macromolécula e gera as coordenadas no formato .gro (arquivos no
formato Gromos87 que podem ser usados para prover as trajetórias dos átomos durante uma
dinâmica molecular) e um arquivo de topologia no formato .top (uma extensão ao arquivo de
topologia que contém uma descrição completa de todas as interações que ocorrem entre os átomos e as partículas no sistema). Esses arquivos podem ser processador pelo programa grompp,
distribuído junto com o pacote de simulação de dinâmica molecular GROMACS v.4.0.5, para
gerar um arquivo no formato .tpr (arquivo que contém a estrutura inicial para a simulação).
O pdb2gmx constrói cada resíduo de aminoácido com base no arquivo .rtp (arquivo
contendo a topologia de cada aminoácido). Dessa forma as entradas atômicas para um determinado resíduo são obtidas rigorosamente deste arquivo.
O programa editconf juntamente com a opção –mead, cria um arquivo no formato pqr,
o qual pode ser posteriormente processado pelo programa MEAD, possibilitando a realização
195
de diversos cálculos de propriedades eletrostáticas em proteínas.
C.4
PDB2PQR
PDB2PQR (70, 71) é um conjunto de programas desenvolvidos em linguagem Python
que realiza muitas tarefas comuns de preparação de estruturas de proteínas, permitindo que
estas possam ser utilizadas em cálculos que utilizam o modelo contínuo. Uma das principais
funções desta ferramenta é converter um arquivo no formato PDB para um arquivo no formato
PQR utilizando o campo de força escolhido pelo usuário. Os campos de força atualmente
suportados pelo PQD2PQR são: AMBER (74, 75), CHARMM (185), PARSE (83), PEOEPB
(212) e TYL06 (179). A criação do arquivo no formato PQR inclui as seguintes tarefas:
• Adição de um número limitado de átomos ausentes em biomoléculas;
• Determinação dos pKa ’s (utilizando a ferramenta PROPKA (72));
• Adição dos átomos de hidrogênio seguindo o critério do campo de força escolhido;
• Otimização dos contatos de hidrogênio;
• Provê as cargas e os raios de cada átomo presente na estrutura, de acordo com os critérios
do campo de força escolhido pelo usuário.
Além de disponível para download em:
http://sourceforge.net/
projects/pdb2pqr/, há também uma versão web do PDB2PQR disponível em: http:
//pdb2pqr-1.wustl.edu/pdb2pqr/, onde é possível gerar e obter o arquivo no formato PQR, de uma estrutura de proteína, a partir de um conjunto de configurações escolhido
pelo usuário.
196
APÊNDICE D -- Criação dos arquivos no formato st
em função do campo de força
Arquivos no formato st são arquivos que contêm os átomos e as cargas parciais no
estado protonado e deprotonado de cada aminoácido ionizável, presente na proteína. Para o
cálculo dos valores de pKa ’s dos aminoácidos, utilizando o pacote MEAD, aconselha-se que, a
diferença entre a soma das cargas de todos os átomos no estado protonado e soma das cargas de
todos os átomos no estado deprotonado, seja igual a 1 (um).
A configuração das cargas parciais e nomenclatura de cada átomo dependem do
campo de força utilizado. Os portais desenvolvidos utilizam os campos de força AMBER99
e GROMOS96 v.53A6. No futuro, vários campos de força podem sem integrados.
A seguir exibimos os arquivos no formato st dos resíduos ionizáveis, os quais são
utilizados para a predição dos valores de pKa ’s de acordo com a estrutura da proteína.
D.1
Arquivos no formato st criados com base no campo de
força GROMOS96 v.53A6
A criação dos arquivos no formato st apresentados pela Figura 111 foi realizada
seguindo o mesmo protocolo da ferramenta MeadTools v.1.4 desenvolvida por Antonio M.
Baptista (19), empregando o campo de força GROMOS96 v.53A6.
197
Figura 111: Arquivos no formato st utilizando o campo de força GROMOS96, conforme proposto pela
referência (19).
a Válido
para qualquer aminoácido no início da cadeia (α-carboxil).
b Válido
para qualquer aminoácido no fim da cadeia (N-terminal).
198
D.2
Arquivos no formato st criados com base no campo de
força AMBER99
A criação dos arquivos no formato st apresentados pelas Figuras 112 e 113 foi realizada
seguindo o mesmo protocolo da referência (20), empregando o campo de força AMBER99.
Figura 112: Arquivos no formato st utilizando o campo de força AMBER99, conforme proposto pela referência
(20).
a Válido
para qualquer aminoácido no início da cadeia (α-carboxil).
199
Figura 113: Arquivos no formato st utilizando o campo de força AMBER99, conforme proposto pela referência
(20).
b Válido para qualquer aminoácido no fim da cadeia (N-terminal).
Note que o campo força GROMOS96 atribui carga apenas para alguns átomos, enquanto que o AMBER99 define carga para a maioria dos átomos pertencentes aos aminoácidos.
A redução da quantidade de átomos carregados, de acordo com o GROMOS96, reduz o custo
computacional necessário para realizar a predição dos pKa ’s e ao mesmo tempo não compromete a qualidade dos resultados obtidos, uma vez que, desde o início do seu desenvolvimento,
esse campo de força foi “calibrado” para trabalhar com biomoléculas em solução, especialmente
proteínas.
Após a criação dos arquivos no formato .st, verificamos se todos os átomos presentes
nos arquivos no formato .st estão presentes também no arquivo no formato .pqr. Caso algum
átomo do arquivo .st não esteja presente no arquivo .pqr, este átomo é excluído do arquivo .st
e suas cargas no estado protonado e deprotonado são distribuidas igualmente entre todos os
átomos restantes no arquivo .st.

Master Dissertation (in portuguese) - fcfrp

Transcrição

Documentos relacionados

Sua melhor amiga de todas as manhãs: A Proteína A proteína é o

ALBUMINA

Prática 3. Visualização de Proteínas

Belplus 60 - Grupo Beltec

PROTEÍNAS

NUTRIÇÃO E BIOENERGÉTICA

Pratica 1- PDB Chimera

Evolução no repertório de proteínas

Universidade Federal de Santa Catarina

sites de bioinformática - Rodrigo Mendes