Uso de métodos computacionais para identificação de epítopos em

Transcrição

Uso de métodos computacionais para identificação de epítopos em
Uso de métodos computacionais para identificação de epítopos
em metaloproteases (Snake Venom MetalloProteases –SVMPs)
e neurotoxinas (NTx) de venenos de serpentes
Edgar Ernesto Gonzalez Kozlova
Orientação:Prof. Dr.Carlos Chavez Olórtegui
Co-Orientação:Prof. Dr. Ricardo Andrez Machado de Ávila
Universidade Federal de Minas Gerais
Instituto de Ciências Biológicas
Programa de Pós-Graduação em Bioinformática
Avenida Presidente Antônio Carlos, 6627 – Pampulha
31270-901 - Belo Horizonte – MG
Março 2016
Para minha família,
Agradecimentos
Primeiramente, gostaria de expressar meus agradecimentos ao meu orientador Prof. Dr.
Carlos Chávez-Olórtegui pela oportunidade de fazer o doutorado com sua equipe, assim como o seu
contínuo auxílio e paciência que teve comigo durante todo esse tempo. Seus conselhos me serviram
de guia para entender melhor o processo do desenvolvimento científico, a importância de detalhes e
regras para se realizar uma boa pesquisa.
À Prof. Dra. Liza Felicori e ao meu co-orientador Prof. Dr. Ricardo A. Machado de Ávila por terem
me tratado de forma tão acolhedora desde o início. Sou eternamente grato, pois eles sugeriram várias
hipóteses que tornaram esta tese possível. Sem eles esta pesquisa não teria se encaminhado na
direção certa. Seus constantes apoios permitiram com que eu chegasse neste objetivo e entendesse
um pouco os epítopos e o fascinante mecanismo das interações anticorpo-antígeno.
Aos membros do Instituto de Ciências Biológicas, Prof. Dr. Vasco, Prof. Dr. Miguel, Prof. Dr. Jader,
Prof. Dra. Glória, Prof. Dr. Evanguedes, Prof. Dr. Salas, ao técnico Jamil pelo grande apoio. Às
secretárias Sheila e Ana Paula, que facilitaram os processos administrativos.
Aos Prof. Dr. Loic Cerf e Prof. Augusto dos Santos, por me introduzir e orientar as metodologias de
mineração de dados alem das interessantes discussões a respeito da importância dos dados biológicos
no ambiente da computação.
Dedico esta tese aos meus pais, Jose Gonzalez e Irina Kozlova, que me orientaram durante minha
vida. Agradeço pelo grande amor e apoio que sempre me deram, além de me darem liberdade para a
conquista de uma profissão de meu interesse.
À Bárbara Rossi, um agradecimento muito especial. Ela trouxe muita alegria para meu coração e deu
todo o apoio que precisei para nunca ficar triste mesmo estando distante da minha família.
Ao Benjamin pela amizade e companheirismo durante todo o doutorado pelos bons momentos que
tivemos jogando videogames, jogos de mesa e tomando caipirinhas.
A todos os meus amigos e colegas da UFMG, incluindo a família do Labimq, que providenciou tudo
o que precisei para o desenvolvimento desta tese e me mostrar um pouco da cultura Mineira.
Uso de métodos computacionais para identificação de epítopos em
metaloproteases (snake venom metalloproteases –SVMPs) e
neurotoxinas (NTx) de venenos de serpentes
Edgar Ernesto Gonzalez Kozlova
Universidade Federal de Minas Gerais
Instituto de Ciências Biológicas
Programa de Pós-Graduação em Bioinformática
Avenida Presidente Antônio Carlos, 6627
Pampulha 31270-901
Belo Horizonte, MG
Resumo
Os anticorpos são proteínas que pertencem na família de imunoglobulinas, principalmente
secretadas por células plasmáticas. Estas são um componente importante para o sistema imunitário
humoral, permitindo identificar e neutralizar antígeno sem posições específicas chamadas epítopos.A
identificação destes é uma etapa importante, laboriosa e experimentalmente custosa no
desenvolvimento de vacinas, soroterápicos, diagnósticos. O uso de métodos computacionais para
identificação de epítopos permite auxiliar e orientar os métodos experimentais além de proporcionar
informações bio/físico-químicas e evolutivas dos mesmos.Nesta tese exploramos e analisamos os
epítopos lineares de células B obtidos da literatura (PubMed)e bases de dados (IEDB eBCPred) para
duas famílias de proteínas, metalaproteases (snake venom metalloproteases-SVMPs) e neurotoxinas
(NTx). Avaliamos nesses epítopos as propriedades bio/físico-químicas (PCP), a estrutura secundária
predita (PSS) e a combinação de ambas (PCP + PSS). Comparamos o desempenho de vários
algoritmos de mineração de dados, incluindo máquina de suporte de vetores (SVM), classificador
Bayer ingênuo (NBC), árvore de decisão (DT), kmeans (KM) e regressão linear múltipla (MLR).
Através da análise com DT foi possível separar os epítopos de SVMPs e NTx,mostrando que cada
família protéica possui características PCP e PSS diferentes. Além disso, proteínas de uma mesma
família possuem propriedades semelhantes. Estas propriedades particulares de cada família(SVMPs
ou NTx), permitiu classificá-las como epítopos quando comparadas com sequências aleatórias de
resíduos de aminoácidos. Posteriormente, usamos três proteínas SVMPs - P1 para validar nosso
método: BaP1 uma SVMP do Bothrops asper, Atroxlysine (Atr-I) da serpente Bothrops atrox e
Leucurolysine-a (Leuc-a) da serpente Bothrops leucurus. Comparamos nossos resultados com os
programas de predição de epítopos ABCPred, Bepipred, TEPRF e com a metodologia experimental
SPOT- síntese. Consequentemente, nosso algoritmo mostrou resultados estatisticamente mais
precisos, respeito destes preditores, quando comparados com o método experimental. Por fim
sintetizamos um peptídeo de 15aa baseado em uma região da Atr-I identificada exclusivamente por
nosso algoritmo. Utilizamos ele para produzir anticorpos que mostraram ser capazes de neutralizar o
efeito hemorrágico da Atr-I. Nossos resultados apresentam uma nova alternativa para identificação
computacional de epítopos em neurotoxinas e metaloproteases de venenos de serpentes.
Abstract
The antibodies are proteins that belong to the immunoglobin family, mainly secreted by
plasma cells. They are an important component for the humoral immune system, that allow to
identify and neutralize antigens in specific positions called epitopes. The identification of these is an
important, difficult and experimentally expensive step in the development of vaccines, serum-therapy
and diagnostics. The use of computational methods to identify epitopes help to guide experimental
techniques besides of bringing information regarding the bio/physical properties and evolutionary
data of epitopes. The current thesis explore and analyze linear B cell epitopes obtained from
literature (PubMed) and databases (IEDB e BCPred) for two protein families, snake venom
metalloproteases (SVMPs) e neurotoxins (NTx). We focused on the bio/physical-chemical (PCP) and
secondary structure properties (PSS), individually and merged (PCP+PSS) of these epitopes. We also
compared the performance of several data mining algorithms including support vector machine
(SVM), Naive Bayes classifier (NBC), decision tree (DT), Kmeans (KM) and multiple linear
regression (MLR). The analysis with DT allowed to separate the epitopes from SVMPs and NTx,
showing that each family posses unique PCP and PSS properties. Also, the different characteristics
between these two protein families enable to classify them as epitopes when compared with random
protein sequences. Therefore, we used three SVMPs-P1 to validate our computational method: BaP1
a SVMP from the snake Bothrops asper, Atroxlysine (Atr-I) from Bothrops atrox and Leucurolysinea (Leuc-a) from Bothrops leucurus. We compared our results with the epitope prediction software
ABCPred, Bepipred, TEPRF and with the experimental technique SPOT-synthesis. Consequently,
our algorithm showed more accurate results when compared with the other predictors in relation to
the immunobloting results. Finally, we synthesized a peptide of 15aa based on a computationally
identified region from Atr-I with our algorithm. We used this peptide to produce antibodies in mice
that showed to be capable of neutralize the hemorrhagic effect of Atr-I. Thereby our results show a
new alternative for computational identification of epítopos for metalloproteinases and neurotoxins.
ÍNDICE
Lista de figuras
Pag. 10
Lista de tabelas
Pag. 11
Lista de abreviaturas
Pag. 12
1. Introdução
Pag. 13
1.1 Epítopos
Pag. 15
1.2 Antigenicidade, imunogenicidade e paratopos
Pag. 15
1.3 Tipos de epítopos
Pag. 17
1.4 Propriedades de epítopos
Pag. 19
1.5 Bases de dados sobre epítopos
Pag. 20
1.6 Identificação de epítopos
Pag. 22
1.6.1 Métodos experimentais
Pag. 22
1.6.1 Métodos computacionais
Pag. 24
1.7 Desafios e perspectivas na predição de epítopos
Pag. 27
2. Justificativa
Pag. 28
3. Objetivos
Pag. 30
4. Materiais e métodos
Pag. 31
4.1 Extração de dados
Pag. 31
4.1.1 Dataset metneu
Pag. 31
4.1.2 Dataset Host IEDB
Pag. 32
4.1.3 Dataset BCPred
Pag. 32
4.2.Descritores de epítopos de células B
Pag. 33
4.3.Konstanz information miner
Pag. 34
4.4.Kmeans
Pag. 34
4.5.Árvore de decisão
Pag. 34
4.6. Naive bayes
Pag. 35
4.7. Support Vector Machine
Pag. 35
4.8. Multiple linear regression
Pag. 36
4.9.Análise dos modelos avaliando a curva ROC
Pag. 37
4.10. Interface de banco de dados
Pag. 38
4.11.SPOT Síntese
Pag. 38
4.11.1 Síntese de peptídeos sobre membrana
Pag. 38
4.11.2 Ensaio imunoquímico
Pag. 39
4.11.3 Regeneração da membrana
Pag. 40
4.11.4 Síntese química de peptídeos
Pag. 40
4.12.Espectrometria de massa
Pag. 42
4.13.Protocolos de imunização
Pag. 42
4.14.ELISA
Pag. 43
4.15.Atividade hemorrágica
Pag. 43
5. Resultados e Discussão
5.1. Propriedades de epítopos de SVMPs e NTx
Pag. 44
Pag. 44
5.2. Padrões em epítopos de metaloproteinas e neurotoxinas
Pag. 52
5.3. Padrões em epítopos reconhecidos por anticorpos de animais diferentes
Pag. 63
5.4. Previsão de epítopos usando MLR e DT
Pag. 70
5.5. Mapeamento experimental e computacional de epítopos de metaloproteases
Pag. 74
5.5.1 Mapeamento de epítopos pelo método SPOT synthesis
Pag. 75
5.5.2 Mapeamento computacional
5.5.3 Seleção de epítopos para síntese de peptídeos e imunização
Pag. 82
Pag. 87
5.5.4 Neutralização de Atr-I com anticorpos anti-VDLFIVVDHGMFMKY
Pag. 90
5.8. Base de dados UML
Pag. 92
6. Conclusão
Pag. 94
7. Perspectivas
Pag. 95
8. Referências
Pag. 96
9.Anexos
Pag. 109
10
Lista de figuras
1.
Figura 1. Resposta Imune Humoral
Pag. 14
5.1.
Figura 2. Valor computacional de epítopos
Pag. 46
5.1
Figura 3. Composição de aminoácidos de epítopos metneu
Pag. 49
5.1
Figura 4. Composição de aminoácidos agrupados de epítopos metneu
Pag. 52
5.2
Figura 5. Curvas ROC baseadas propriedades PCP
Pag. 56
5.2
Figura 6. Curvas ROC baseadas em propriedades PSS
Pag. 56
5.2
Figura 7. Modelo Arvore de decisão para propriedades PSS
Pag. 58
5.2
Figura 8. Curvas ROC baseadas em propriedades PSS e PCP
Pag. 59
5.2
Figura 9. Modelo Arvore de decisão para propriedades PSS e PCP
Pag. 62
5.3
Figura 10. Grupos de aminoácidos agrupados pela espécie do anticorpo
Pag. 66
5.3
Figura 11. Aminoácidos agrupados pela espécie do anticorpo
Pag. 67
5.3
Figura 12. Curvas ROC baseadas em epítopos agrupados pela espécie de Ac.
Pag. 68
5.4
Figura 13. Aminoácidos importantes nos grupos epítopo e não epítopo.
Pag. 72
5.4
Figura 14. Curvas ROC em modelos classificadores de epítopos
Pag. 73
5.5
Figura 15. Tipos de metaloproteases de venenos de serpente
Pag. 75
5.5
Figura 16. Membrana SPOT exposta a soro monoclonal IgG anti-Atr-I
Pag. 77
5.5
Figura 17. Membrana SPOT exposta a soro policlonal anti-Leuc-a
Pag. 78
5.5
Figura 18. Membrana SPOT exposta a soro policlonal anti-BaP1
Pag. 80
5.5
Figura 19. Identificação computacional de epítopos em SVMPs
Pag. 86
5.5
Figura 20. Massa molecular dos peptídeos CPEN e CNEN
Pag. 89
5.5
Figura 21.Efeitos neutralizantes dos anticorpos anti-CPEN
Pag. 91
5.5
Figura 22. Diagrama da Base de dados em UML
Pag. 93
11
Lista de tabelas
5.1
Tabela 1. Lista dos epítopos do conjunto de dados metneu
Pag. 47
5.2
Tabela 2. Propriedades importantes dos modelos PCP e PSS
Pag. 61
5.2
Tabela 3. Coeficientes do modelo MLR quando usados espécies de anticorpos
Pag. 69
5.2
Tabela 4. Epítopos identificados por SPOT síntese para Atroxlisin-I
Pag. 77
5.2
Tabela 5. Epítopos identificados por SPOT síntese para Leucurolisina-a
Pag. 81
5.2
Tabela 6. Epítopos identificados por SPOT síntese para BaP1
Pag. 82
5.2
Tabela 7. Matriz de distância/identidade entre Atr-I, BaP1 e Leuc-a
Pag. 84
5.2
Tabela 8. Propriedades importantes com índices gini e decreased accuracy
Pag. 85
5.2
Tabela 9. Epítopos de SVMPs identificados computacionalmente
Pag. 85
5.2
Tabela 10. Estatísticas comparativas entre Labimq e outros modelos.
Pag. 96
12
Lista de abreviaturas
R
H
K
D
E
S
T
N
Q
C
G
P
A
V
I
L
M
F
Y
W
CSV
GRAVY
PCP
PSS
SVM
DT
MLR
NB ou Bayes
KM
PDB
UML
IEDB
SSH
ROC
Ag
Ac
AUC
EpiLCB
Atr-I
DMF
CBS
PBS
Fmoc
Leuc-a
BaP1
Arginina
Histidina
Lisina
Ácido aspártico
Ácido glutâmico
Serina
Treonina
Aspa
Glutamina
Cistêina
Glicina
Prolina
Alanina
Valina
Isoleucina
Leucina
Metionina
Fenilalanina
Tirosina
Triptofano
Coma Separated Values
Grand average of hydropaty (Índice de hidropatia)
Physicochemical Properties (Propriedades fisico-químicas)
Predicted Secondary Structure (Estrutura secundária predita)
Support Vector Machine (Máquina de suporte de vetores)
Árvore de decisão
Regressão linear múltipla
Classificador ingênuo de Bayes
Kmeans
Protein Data Bank (Banco de dados de proteínas)
Unified Modeling Language (Linguagem de modelagem unificado)
Immune Epitope Data Base (Base de dados de epítopos imunes)
Secure Shell
Receiver Operating Characteristic
Antígeno
Anticorpo
Área embaixo da curva, do Inglês Area Under the Curve.
Epítopos lineares de células B
Atroxlysine-I
Dimethylformamide
Citrate Buffer Saline / Tampão citrato salino
Phosphate Buffer Saline / Tampão fosfato salino
Fluorenylmethyloxycarbonyl chloride
Leucurolysine-a
Metaloproteinase P1 de Bothrops asper
13
Introdução
No quinto século a. C. Thycydides recebeu o crédito pela primeira menção da palavra
"ασuλiα" ou imunidade, que dizia respeito a uma infecção que ele chamou de "praga" durante a
guerra do Peloponeso entre Esparta e Atenas em 411 a. C. (Cochrane, 1929). O conceito de
imunidade pode ter existido muito antes, como sugere o costume chinês de tornar as crianças
resistentes à varíola, fazendo-as inalar o pó feito a partir de lesões de pele de pacientes em
recuperação da doença (Silverstein, 1989). Uma referência poética ao "Imune" pode ser encontrada
no poema "Pharsalia", escrito por Marcos Roman Annaeus Lucanys (39-65 d. C.), que descreve a
famosa resistência à picada de cobra da tribo Psylli do Norte de África (Hunter, 1982).
Atualmente, a Imunologia é uma ciência experimental que explica fenômenos imunológicos
baseados em observações. A evolução dessa ciência tem dependido da nossa capacidade de
manipular a função do sistema imunológico, em condições controladas (Abbas, 2005). O primeiro
nítido exemplo dessa manipulação, e que permanece entre as mais dramáticas já registradas, foi feita
por Edward Jenner, um médico Inglês. Ele notou que crianças que bebiam leite bovino recuperavamse da varíola comum e, após a recuperação, elas não contraíam a varíola mais grave (Jerne, 1955).
Com base nesta observação, o médico injetou o material da pústula da varíola bovina no braço de um
menino de nove anos de idade. Algum tempo depois, o menino foi intencionalmente inoculado com
varíola e a doença não se desenvolveu (Burnet, 1957). Assim, Jenner deu início ao campo da
vacinação, ("vaccinus", ou de vacas) e suas pesquisas foram publicadas em 1798. Graças a ele, neste
ano houve a primeira vacinação bem sucedida contra a varíola.
Diversas pesquisas podem ser encontradas descrevendo a enorme diversidade e plasticidade
da resposta imune (Figura 1) dos organismos vivos contra vírus patogênicos, micróbios ou qualquer
14
molécula estranha durante o período da vida. Uma das respostas mais complexas contra agentes
externos envolve a resposta imune adaptativa que conta com as células B. Estas reconhecem
antígenos através de seus receptores de imunoglobulina ligados a membranas, para a posterior
produção de anticorpos específicos (Kurosaki, 2002).
Figura 1. Resumo da resposta imune adaptativa. A: Captação do antígeno; B: Ativação das células Th.; C:
Diferenciação das células Th.; D: Ativação de células B. Estes processos podem ser dependente ou não das células T.
FONTE: Moyle and Toth., 2013.
15
1.1 Epítopos
Os Epítopos ou determinantes antigênicos são sequências formadas por resíduos de
aminoácidos importantes encontrados no antígeno que participam das interações antígeno-anticorpo
(Pellequer et al., 1993). Estas sequências são reconhecidas pelos anticorpos com especificidade
variável (Ofran and Kunik, 2013). Quando esta interação é formada, tanto o anticorpo quanto o
antígeno sofrem mudanças estruturais. Estas podem neutralizar o antígeno, facilitando seu futuro
processamento pelo sistema imune (Toth and Moyle, 2013). Assim, é de fácil compreensão o fato de
que os epítopos estão no centro da resposta imune humoral (Wilson, 2012). Entender detalhadamente
as propriedades dos epítopos e como eles são reconhecidos é de suma importância para que sejam
identificados de maneira rápida e eficiente. Isto propicia à medicina o planejamento de vacinas e
ferramentas de diagnóstico, permitindo a utilização de novos imuno-ensaios para a detecção,
isolamento e caracterização de moléculas associadas com vários estados de doença, seja viral,
bacteriana ou parasitária. Da mesma forma, esses conhecimentos facilitaram o desenvolvimento de
produtos, tais como anticorpos monoclonais, mimotopos, proteínas quimeras e dentre outros. (Parren,
2000).
1.2 Antigenicidade , imunogenicidade e paratopos
No âmbito das interações antígeno-anticorpo são usados vários termos, taís como
antigenicidade e imunogenicidade, para facilitar uma eficiente avaliação e comparação de resultados.
A antigenicidade é a habilidade de uma molécula ser reconhecida por um anticorpo em
determinantes antigênicos, mas não necessariamente é suficiente para causar uma resposta imune
específica (Regenmortel, 2001). Enquanto que a imunogenicidade é a capacidade de um antígeno
produzir uma resposta imune no organismo. Além do antígeno ligar-se a um anticorpo, é preciso
ativar vários mecanismos regulados por células a fim de que o processamento e a apresentação dos
epítopos sejam diferentes. Dessa forma, também é possível classifica-los, como os epítopos
16
reconhecidos por células T ou por células B. As células T estão relacionadas às respostas celular e
regulatória, enquanto as células B são de caráter humoral.
Os epítopos de células T são apresentados pelas células apresentadoras de antígenos, assim
estes fragmentos de antígenos ou epítopos estão ligados a moléculas MHC (Abbas et al., 2005). A
maioria de células somáticas nucleadas apresentam moléculas MHC classe I, ligadas a epítopos.
Estas são apresentadas para as células T citotóxicas as quais induzem apoptose nas células infectadas
ou doentes. O numero de aminoácidos nos epítopos apresentados pelas moléculas MHC classe I se
encontra entre 8 e 11, principalmente apresentados a células T CD8+ ou citotóxicas (Huang et al.,
2006). As células que apresentadoras de antígenos interagem com as células B as quais reconhecem
os epítopos apresentados por estas e se transformam logo em células plasmáticas produtoras de
anticorpos. As moléculas MHC classe II apresentam epítopos com tamanhos entre 13 a 17
aminoácidos para células T CD4+ ou Helper as que participan ativando células B (Rocha, 2008).
Portanto, as células B ativadas podem-se transformar em células plasmáticas produtoras de
anticorpos.
A região específica do anticorpo que se une a um epítopo denomina-se paratopo. Este pode
estar formado por sequências muito variáveis de resíduos de aminoácidos que encontra-se fixos nos
esqueletos dos anticorpos (Parren al., 2000). Esta particularidade permite ao sistema imune
reconhecer uma ampla quantidade de antígenos, que podem ser de bactérias, vírus ou toxinas capazes
de desregular a homeostase no hospedeiro (Subramanian and Chinnappan, 2013). Os resíduos de
aminoácidos presentes no paratopo são encontrados principalmente em regiões CDR (do inglês:
complementarity determining regions ou região determinante de complementariedade) mas não
exclusivamente. Estas regiões são chamadas de hiper-variáveis nos anticorpos, permitindo sua
17
identificação química pela primeira vez por Rodney Porter, em 1950. Posteriormente, estas regiões
foram caracterizadas por Robert A. Good, em 1972 (Saxon W., 2003), sendo o primeiro mapeamento
completo da estrutura de um anticorpo. Atualmente, ainda são estudadas as propriedades que
influenciam a antigenicidade e imunogenicidade de um antígeno, assim como as diferentes interações
entre anticorpo-antígeno (Keskin et al., 2005, Viart et al., 2016). O entendimento destas propriedades
permitira um melhor desenho experimental na produção de vacinas, biosensores, métodos imunoterapêuticos e moléculas para diagnostico.
1.3 Tipos de epítopos de células B
Os determinantes antigênicos de células B são classificados em dois tipos: Epítopos lineares
ou EpiLCB, também chamados de contínuos, e epítopos conformacionais, também chamados de
deslineares (Walter, 1986). Os EpiLCB são fragmentos sequenciais localizados ao longo do antígeno.
Os epítopos deslineares, por sua vez, são compostos de resíduos de aminoácidos isolados que se
encontram próximos devido ao dobramento tridimensional da proteína ou folding. A maioria dos
epítopos na natureza protéica são considerados deslineares, com estimativa de 90%, e apenas 10%
são considerados lineares (Regenmortel, 2009). Esta classificação de epítopos é usada comumente na
literatura mas é importante destacar que todos os epítopos, lineares ou não) possuem uma
conformação em três dimensões, tanto os lineares como os conformacionais (Nielsen & Marcatili,
2015). Isso significa que os anticorpos reconhecem sequências especificas dispostas em
conformações particulares tanto como para epítopos lineares e conformacionais. Assim em um
futuro, quando reveladas todas as características criticas dos epítopos, em teoria deveria ser possível
identificar os epítopos de um antígeno independentemente de eles ser lineares ou conformacionais.
18
Além disso, os epítopos dependem da sua conformação estrutural, desta forma ao identificar
um epítopo devemos levar em conta os aminoácidos que se ligam ao anticorpo, mas aqueles que não
se ligam participam dando uma conformação adequada a essa molécula, de modo que ela possa estar
apta a se ligar ao anticorpo. Assim,em um epítopo existe alguns aminoácidos que são considerados
mais importantes, estes aminoácidos são denominados críticos ou de contato. Eles, quando
substituídos, alteram a conformação do epítopo alterando ou até impedindo sua ligação ao anticorpo
(Haste et al., 2006). Identificar estes aminoácidos críticos no epítopo é importante no desenho de
peptídeos e proteínas voltadas para a produção de anticorpos (Trier et al., 2012).
Alem dos epítopos, os anticorpos podem reconhecer, também, moléculas protéicas ou não
que assemelham ou mimetizam os epítopos. Estas moléculas são denominadas como mimotopos.
Portanto, mimotopos são sequências de aminoácidos que imitam a sequência original do epítopo
(similares mas não idênticas), possuindo afinidade pelo mesmo anticorpo (Regenmortel et al., 1994).
Os epítopose/ou mimotopos são interessantes pois, podem ser reproduzidos em peptídeos
usando tecnologias, tais como peptídeos sintéticos e phage-display. Estas moléculas que, após uma
imunização, permitem gerar anticorpos usados em vacinas, biosensores, métodos imuno-terapêuticos
e moléculas para diagnostico. Portanto, determinar um epítopos através da predição e das análises
computacionais pode proporcionar o desenho de uma molécula capaz de substituir um antígeno no
processo de produção de anticorpos. Tal molécula pode ser sintetizada ou clonada num vetor de
expressão. Inclusive, alguns autores sugerem que o tamanho ideal para estes peptídeos que
apresentam imunogenicidade esteja entre 10-15 aminoácidos (Sivalingam e Shepherd, 2012).
19
1.4 Propriedades de epítopos de células B
Os primeiros esforços para se entender as características de epítopos de células B foram
realizados nos anos 80. Estudos sobre as propriedades físico-químicas de aminoácidos mostraram
que parâmetros, como flexibilidade (Karplus e McCammon, 1986), hidrofilicidade (Parker et al.,
1986), antigenicidade (Jameson 1988, Kolaskar, 1990), estrutura secundária (Fasman e Chou, 1978),
volta beta (Pellequer e Westhof, 1993) e acessibilidade (Emini, 1985) tinham influência sobre os
epítopos, mas individualmente não eram suficientes para realizar uma predição totalmente precisa.
Atualmente há uma discussão sobre as propriedades importantes que caracterizam epítopos de
células B. Por exemplo, algumas pesquisas sugerem a existência de aminoácidos que são mais
frequentes do que outros em interfaces de proteínas (paratopo-epítopo) (Jones e Thornton, 1996).
Outros trabalhos, sugerem que também é possível encontrar alguns aminoácidos sempre presentes
em epítopos mas em proporções baixas, sendo, por isso, importantes (Rubinstein et al., 2008. Sun,
2013).
Por outro lado, diversas investigações indicaram que os epítopos não possuem,
necessariamente, propriedades intrínsecas e particulares que os distinguem em superfícies de
proteínas (Bourne, 2007). Dentro desta linha, nosso grupo de pesquisa, chegou a sugerir que este fato
poderiam estar relacionado com os diferentes grupos ou famílias de proteínas que possuem
características diferente entre si, refletindo em propriedades diferente dos epítopos encontrados para
cada família (Machado de Ávila, 2011) . Isso dificultaria a identificação de padrões nestes epítopos.
É importante salientar que as interfaces possuem entre elas uma forma definida e complementaridade
eletrostática (Janin e Clothia, 1990).
20
Uma idéia interessante foi a hipótese de que a composição de aminoácidos nos epítopos é
determinada pela de paratopos, de modo que ambos se complementam mutuamente (Jones e
Thornton, 1996). Assim, recentemente um estudo mostrou que a composição de aminoácidos de
epítopos é indistinguível da composição de superfície de proteínas (Kunik e Ofran, 2013).
Entretanto, outras hipóteses buscam correlacionar a composição dos paratopos com os epítopos, com
sucesso similar a técnicas baseadas puramente na composição dos antígenos (Chen et al., 2007).
1.5 Bases de dados de epítopos
A imunoinformática oferece diversas ferramentas, técnicas e abordagens para a caracterização
in silico dos epítopos. Isso acelera o processo de desenhar peptídeos e moléculas que imitam o
epítopo, reduzindo, assim, custos, além de direcionar os experimentos. Um desafio para os métodos
computacionais de análise e predição de células B é definir os parâmetros ou propriedades
importantes para montar um modelo de predição preciso (Korber et al., 2006. Greenbaum et al.,
2010).
Conjuntos de dados organizados ou bancos de dados, assim como a Protein Data Bank (PDB)
(Berman et al., 2000), o Immune Epitope Data Bank (IEDB) e o Conformational Epitope Database
(CED), disponibilizam estruturas de complexos antígeno-anticorpo com informações úteis para os
modelos computacionais.Assim tornam acessíveis sequências de epítopos, antígenos, parâmetros
experimentais e referências destas pesquisas, facilitando o acesso à informação sobre as propriedades
que influenciam centenas de epítopos. Porém, com o aumento rápido destes bancos de dados, novos
desafios surgem, taís como o ruído nos dados que pode ser de várias fontes, assim como erros nas
anotações, falsos positivos, dados incompletos e outros.
21
Apesar desses desafios, trabalhos feitos com meticulosidade por diversos grupos de pesquisa,
mostram que é possível realizar uma predição de epítopos com base em uma ampla variedade de
parâmetros e métodos matemáticos, tais como: usando apenas a sequência do antígeno (Chen, 2007),
escalas de propensão (Davydov and Tonevitski, 2009), regiões de determinantes da
complementaridade ou CDR (Rubinstein, 2009), propriedades físico-químicas (Bremel, 2010),
posição dos aminoácidos e a conservação dos resíduos (Wee, 2010), mistura de características
bioquímicas e estruturas preditas (Zhang et al., 2012), índices por aminoácido baseado em escalas
evolutivas (Lin et al., 2013) e perfis binários baseados em aminoácidos (Singh et al., 2013).
As metodologias baseadas somente em propriedades de aminoácidos dos epítopos
aproveitadas após a filtração dos bancos de dados permitiu a criação de conjuntos de dados
específicos ou datasets para reduzir os ruídos ou erros nas anotações. Blythe e Flower, 2005 fizeram
um estudo sobre as informações recolhidas de um banco de dados, o AntiJen (Toseland et al., 2005).
O AntiJen, é um banco de dados que consiste em 3541 epítopos, sendo uma boa fonte de
informações de EpiLCB e conformacionais. No trabalho de Blythe e Flower, eles viram que o uso
somente de parâmetros bioquímicos eram insuficientes para diferenciar estatisticamente antígenos de
epítopos e que mais parâmetros deveriam ser utilizados, como os estatísticos
Outras fontes de dados públicos, que foram utilizados para o desenvolvimento de ferramentas
e de avaliação, incluem: o conjunto de dados do Dr. Jean-Luc Pellequer que, apesar de pequeno,
possui alta qualidade, consistindo em 82 EpiLCB bem definidos através de 14 proteínas que têm sido
estudadas extensivamente (Peters et al., 2009);o VIH banco de Dados de Imunologia Molecular,
hospedado no Los Alamos National Lab (Kuiken et al., 2005);e o banco de dados Bcipep, do grupo
do Dr. GPS Raghava (Saha e Raghava, 2006).
22
O IEDB apresentado pelo Dr. Alessandro Sette, é hoje o maior conjunto de dados disponível,
que consiste em mais de 600.000 epítopos únicos, incluindo peptídeos imunogênicos (Gomara e
Haro, 2007) e gorduras ou produtos químicos (Montañez et al., 2011). A melhor característica do
IEDB é sua disponibilidade, uma vez que está sempre online e todos os dados estão acessíveis
facilmente através do servidor da web, assim como a BCPred (El-Manzalawy, et al., 2008). Outras
características de confiança são que a IEDB disponibiliza observações sobre como os epítopos foram
identificados, sobre o tipo de imunização, o tipo de antígeno, o tipo de ensaio e sobre algumas
análises dos peptídeos. Juntamente aos epítopos identificados utilizando ensaios funcionais, o IEDB
inclui dados sobre epítopos revisados e inferidos a partir das estruturas tridimensionais de complexos
antígeno-anticorpo, disponíveis no PDB (Berman et al., 2000). A base de dados também inclui um
grande volume de dados negativos, isto é, sequências de peptídeos e proteínas experimentalmente
demonstradas que não são reconhecidas por anticorpos num ensaio particular. Deve-se ressaltar que
estas regiões podem, de fato, comportarem-se como epítopos quando amostradas sobre um conjunto
diferente de condições, ou com uma população de diferentes anticorpos. O IEDB apesar das questões
relacionadas com o seu conteúdo abrangente, é um dos bancos de dados mais úteis disponível.
1.6 Identificação de epítopos
1.6.1 Métodos experimentais
O sucesso da identificação experimental de epítopos é dependente do desenvolvimento de
métodos originários de diversas áreas, como: Biofísica, Bioquímica, Biologia Molecular e Síntese
Química (Mullaney e Pallavicini, 2000). Inicialmente os epítopos eram identificados usando
fragmentos resultantes da proteólise de um antígeno (Cleveland et al., 1977; Jemmerson e Paterson,
1986) e
observando a formação de complexos com anticorpos (Sheshberadaran e Payne, 1988).
23
Estes complexos antígeno-anticorpo são cristalizados e logo com ajuda da difração de raios X são
identificados os aminoácidos que participam diretamente destas interações. Esta técnica conhecida
como cristalografia de proteínas é considerada como o “Padrão ouro” para mapear os complexos
antígeno-anticorpo, (Padlan et al., 1988). No entanto, esta técnica possui uma série de limitações: a
dificuldade e custo em se obter um cristal de qualidade, a laboriosidade, e o fato de nem sempre as
condições nos quais o cristal foi produzido seja o mesmo em que o complexo se encontra na
natureza. Estes fatores reduze o numero de trabalhos com uma boa qualidade de cristais que permita
estudar em detalhe essas interações, como observado em pesquisas recentes, a partir do refinamento
das estruturas da PDB, foram extraídos 200 complexos a partir de 150 000 estruturas (Viart et al.,
2016).
Outra técnica de bastante sucesso é a técnica de SPOT Síntese (Frank et al., 2002),
desenvolvida com o intuito de obter rapidamente grandes quantidades de diferentes peptídeos,
gerando uma biblioteca peptídica fixada em uma membrana de celulose, permitindo assim através de
um ensaio imunoquímico, avaliar simultaneamente a reatividade de toda biblioteca frente aos
anticorpos de interesse.
Além de metodologias para predição de epítopos, uma alternativa é a seleção de mimotopos,
moléculas não necessariamente idênticas aos epítopos, mas que são capazes de produzir anticorpos
neutralizantes contra o mesmo antígeno de interesse que o epítopo produziria (Geysen et al., 1986).
Uma metodologia bem promissora na identificação de mimotopos é a técnica de Phage Display
(Smith, 1985). Essa técnica permite testar simultaneamente uma biblioteca peptídica com intuito de
encontrar qual deles se ligam ao anticorpo de interesse (Huai et al., 2016).
24
1.6.2 Métodos computacionais
Os métodos de predição de epítopos de células B podem se dividir de varias formas, a mais
comum é separar eles com base no nível de informação necessária para fazer a predição. Portanto
temos uma separação em duas categorias: 1. Métodos que utilizam informações provenientes apenas
da sequência de aminoácidos do antígeno ou 2. Métodos usando informações estruturais obtidas de
cristais ou ressonância magnética nuclear. Tradicionalmente, os métodos baseados em sequência são
construídos a partir de cálculos de hidrofilicidade, flexibilidade, volta beta e acessibilidade (Hopp e
Woods, 1981. Parker et al., 1986).
A utilização de métodos que usam a composição de aminoácidos e informações do
cooperativismo entre aminoácidos (influência no epítopo por parte dos animoácidos vizinhos),
também têm mostrado resultados promissores com uma precisão de 70% de acerto (Chen, 2007).
Estas metodologias têm uma atuação razoável quando voltada à predição de EpiLCB (Lin,
2013), chegando ate um acerto de até 100% para conjuntos de dados específicos. Assim, estes
métodos funcionam como um bom exemplo para modelos que foram padronizado pelo autor, no
entanto eles perdem alta especificidade quando utilizados com outros conjuntos de dados (Söllner.,
2006). No entanto, estes métodos tampouco conseguem prever epítopos que consistem em segmentos
de aminoácidos separados no espaço na proteína e reunidos pela dobragem em três dimensões da
cadeia polipeptídica. Também, o uso de conjuntos de dados muito específicos para o desenho de
modelos de previsão limita o uso destes métodos a proteínas semelhantes ao conjunto de dados a
partir do qual o método foi desenvolvido. Estas pesquisas sobre EpiLCB destacam um dos problemas
25
mais comuns que compreende a variação de resultados dependendo do conjunto de dados utilizado
para testar as predições.
Quando Haste Andersen e colaboradores investigaram o desempenho da composição de
aminoácidos usando a escala de Parker,que é uma medida de hidrofobicidade (Parker et al., 1986),
escolheram incluir parâmetros derivados da combinação de propriedades estruturais, como carga e
tipo de estrutura na predição de epítopos conformacionais e concluíram que o uso destes dados
superava significativamente os métodos baseados em sequência. A inclusão de informação estrutural
é baseada na distância entre aminoácidos próximos no espaço para identificá-los como epítopos ou
não. Um dos métodos desenvolvidos usando as informações estruturais foi o DiscoTope 2, que age
examinando a estrutura do antígeno com esferas de 10 ångström de diâmetro que tem como centro
um aminoácido (Kringelum et al., 2012). Estas esferas são avaliadas somando a pontuação resultante
das propensões dos resíduos da sequência e a pontuação resultante é usada para determinar os
epítopos (Rubinstein et al., 2008). Além dessa metodologia, existe outras que utilizam apenas os
dados da estrutura secundaria e terciária sobre a superfície mais próxima exposta aos resíduos
analisados, o tipo de carga eletrostática e os diâmetros de Van der Waals, simplificando a análise
com resultados similares a uma precisão de 70% (Sun et al., 2013, 2009, Kulkarni et al., 2005).
Outros autores, tentarem usar os dados estruturais com o objetivo de ampliar o número de
atributos físico-químicos e biológicos que podem ser usados na predição. Por exemplo, no trabalho
de Rubinstein et al. 2008, são calculados 45 atributos a partir das estruturas de epítopos conhecidos,
entre estes estão propriedades físico-químicas, carga, composição de aminoácidos, e também
freqüência destes nas regiões epítopos, área exposta, acessibilidade relativa e absoluta entre outros.
Depois de feita a análise destes atributos, apenas uma fração dos que inicialmente tinham sido
26
considerada no estudo resultaram ser relevantes e capaz de distinguir significativamente os epítopos.
Da mesma forma, o método desenvolvido por Liang e colaboradores, implementou seis parâmetros
estatísticos
e aplicando um algoritmo de regressão de vetores de suporte, foi visto que três
parâmetros só mostraram ser associados a antigenicidade (Zhao et al., 2012). Estes resultados
mostram muita variação respeito dos parâmetros associados a imunogenicidade, e também variam
quando são analisados diferentes conjuntos de dados (Bourne e Ponomarenko., 2007). Portanto seria
interessante explorar a possibilidade de explorar conjuntos ou famílias de proteínas.
Os métodos baseados na estrutura são bem conhecidos por implementar características como
estrutura secundária e contagem da vizinhança de aminoácidos, mas não conseguem superar, ou ate
mesmo aproximar da precisão dos métodos de predição de EpiLCB (Sun et al., 2013). Tanto os
métodos para predições de epítopos conformacionais, como para predição de EpiLCB para serem
implementados passaram por um treinamento a partir de conjuntos de dados que possuem um grau de
variação pequeno por ter um numero N de amostras pequeno (Krigelum et al., 2012, Blythe e
Flower., 2005). Esta pouca variabilidade nos dados gera um resultado de alta precisão no entanto não
representa a totalidade dos epítopos possíveis (Bremel e Homan., 2010), por o qual é importante
explorar em detalhe os bancos de dados para achar uma amostra representativa (Singh e Mishra.,
2016). Este desafio de localizar o conjunto representativo de dados de epítopos reais para fornecer
um método de identificação computacional de epítopos é apreciável nos resultados falsos positivos
observados em na literatura. (Chang et al., 2010, Zhang et al., 2012(2)). Portanto, as novas gerações
de métodos, procuram melhorar a precisão para essa identificação, diminuindo o número de falsos
positivos (Toseland et al., 2005). Apesar do número de estruturas de antígeno-anticorpo resolvidos
vir aumentando ainda é um desafio obter um conjunto de dados representativo da população de
epítopos (Bourne e Ponomarenko., 2007).
27
Uma das tentativas mais promissórias na área de predição de epítopo é o algoritmo conhecido
como BEST (Gao et. al 2012) com base em técnicas SVM (do inglês, Support Vector Machine, ou
Máquina de suporte de vetores). Gao e colaboradores sugerem acrescentar no processo de
identificação de epítopos a utilização da sequência do antígeno para prever o dobramento da
estrutura (folding) mostrando um desempenho preditivo superior quando comparado como outros
métodos que se baseiam somente na estrutura e sequência da proteína (Gao et. al 2012).
1.7 Desafios e perspectivas na predição de epítopos
Um dos desafios na identificação de epítopos quando usadas as informações estruturais é que
poucos grupos de antígenos já foram amplamente estudados com o objetivo de mapear o conjunto
exaustivo de resíduos de epítopos. Assim, a existência de epítopos não caracterizados, dificulta
avaliar com precisão e o desempenho dos modelos de previsão. Desta forma, até um preditor
teoricamente perfeito poderá classificar-los com propriedades desconhecidas como falsos positivos
(Kunik e Ofran., 2013).
Ademais, as proteínas biologicamente relevantes são frequentemente partes de complexos que
se comportam como uma única unidade no ambiente biológico (Wang et al., 2011). Por tudo isso, a
falta de informações acabam causando o principal impedimento para predizer corretamente epítopos
de células-B. Uma possível solução para estes desafios seria unir combinações de informações da
estrutura secundária, da sequência de aminoácido e do grau de conservação (Gao et al., 2012). Outra
tentativa em se predizer com precisão epítopos de células B resultou estudos sobre o uso de
características baseadas no paratopo do anticorpo (Zhang et al., 2012).
28
O desempenho desses métodos, que utilizam um número grande de recursos computacionais
e propriedades derivadas com propensões, ainda não são melhores que os valores alcançados pelo
desempenho de modelos preditivos muito mais simples que empregam dois ou três atributos
(Davydov e Tonevitski, 2009). Uma observação interessante é que quando métodos aplicados
aumentam na sua complexidade, no entanto, os padrões de conjuntos de dados não são revisados com
o mesmo ritmo. Esta situação cria a necessidade de melhorar a qualidade dos conjuntos de dados que
serão utilizados para treinar e validar os algoritmos de predição de epítopos (Lin et al., 2013).
Neste sentido, essa tese buscou determinar os parâmetros físico-químicos, bioquímicos e
estatísticos de uma mesma família de proteínas que possibilitam diferenciar regiões de EpiLCB e das
regiões de não-epítopos. Assim, encontramos alguns padrões nos EpiLCB de células B, que entre
outros, poderiam explicar a dificuldade de predizer corretamente os determinantes antigênicos
baseados em sequências. Vimos que estes padrões encontrados são específicos para cada família
protéica, dentre as que estudamos epítopos (SVMPs e NTx). Esperamos que essa tese possa servir
como uma alavanca para outros estudos, direcionando novos trabalhos a encontrar padrões
específicos para outras famílias de proteínas e desta forma, possibilitar a criação de um algoritmo de
predição de epítopos a partir destas informações.
2. Justificativa
Um dos desafios na produção de vacinas, ferramentas imunológicas e biotecnológicas é a
utilização de peptídeos capazes de desenvolver uma resposta imune baseada em epítopos (Leinikki et
al., 1993. Chavez-Olortegui et al., 2002. Sundaram et al., 2004., Larché et al., 2005. Felicori et al.,
2009). Uma solução para uma rápida e eficaz produção desses peptídeos é a predição computacional
(Garnier et al., 1978. Oomen et al., 2003. Larsen et al., 2006). Enquanto as predições atuais usam
propriedades de todos os epítopos disponíveis poucas pesquisas focam-se em separar os epítopos por
29
grupos. Nosso grupo de pesquisa observo propriedades particulares nos epítopos de SVMPs e NTx
(Machado de Ávila et al., 2011. Duarte et al., 2010). Estas têm levado à sugerir que é importante
explorar as informações epítopo restritas a famílias de proteínas, por que poderiam ser para melhorar
a atuação dos programas de predição de epítopos. Entretanto, até o momento tentativas de predizer
epítopos usaram padrões evolutivos, conservação de sequência e transformações matemáticas
(transformação binária e escalas de propensão) (Nielsen é Marcatili., 2015. Singh et al., 2016).
Portanto, para investigar as propriedades dos epítopos nos escolhemos agrupar-los baseados na
categoria família protéica, em busca de um padrão dentro de cada família que permita classificá-las.
Nessa tese, criamos um , banco de dados que nos proporcionou uma vantagem por incluir
grupos de proteínas amplamente estudadas no laboratório (SVMPs e NTx), permitindo que o
trabalho tivesse um bom respaldo de dados. Para isso, utilizamos de ferramentas de mineração de
dados buscando reduzir os erros metodológicos ao mínimo, melhorar o desempenho durante a
identificação computacional e orientar os métodos experimentais.
Assim, neste trabalho foi realizado uma análise computacional das propriedades físicoquímicas e estruturais de epítopos conhecidos, em busca de características em comum dentro de uma
família de proteína. O agrupamento dos epítopos nestes parâmetros, permitiu o desenvolvimento de
uma metodologia que utiliza de propriedades específicas para cada família ou grupo protéico,
permitindo desta forma, uma melhor identificação computacional ou predição de epítopos mais
precisa.
30
3. Objetivo geral
Desenvolver uma metodologia computacional que permita identificar EpiLCBde células B
através da analise de parâmetros físico-químicos, bioquímicos e/ou estatísticos em metaloproteases
(SVMPs) e neurotoxinas (NTx) de venenos de serpentes .
Objetivos específicos:

Revisão sistemática na literatura e bancos de dados, em busca de EpiLCBparaSVMPs e
NTx.

Criação de um conjunto de dados com epítopos de SVMPse NTx.

Identificação de padrões e características presentes em EpiLCBpara SVMPse NTx.

Classificação desses epítopos de acordo com seus parâmetros físico-químicos,
bioquímicos e estatísticos.

Geração de uma base de dados para armazenar sequências de epítopos e antígenos de
SVMPs e NTx

Desenvolvimento de uma metodologia para identificação de epítoposin silico.

Predição e síntese química dos peptídeos correspondentes aos epítopos desenhados in
silico.

Geração de anticorpos policlonais anti-peptídeos verificando sua capacidade antigênica e
imunogênica para validar experimentalmente o método computacional desenhado para
identificar EpiLCB em SVMPs.
31
4. Materiais e métodos
4.1-
EXTRAÇÃO DOS DADOS
A fim de se obter informações para classificar os epítopos já validados, realizamos uma
revisão sistemática e utilizamos filtrações a partir de bancos disponíveis na literatura como IEDB
(Peters et al., 2005) e BCPred (El-Manzalawy et al., 2010) como também PubMed. Dessa forma,
foram extraídos:as sequências de epítopos e dos antígenos;os animais imunizados, a metodologia
utilizada no trabalho para validar o epítopo. Estes dados foram formatados em arquivos FASTA e
CSV (Comma Separated Values, sem tradução para o português) com scripts em linguagens Perl e
Python. Para tal, três datasets ou conjuntos de dados foram usados. Esses conjuntos de dados são
descritos da seguinte maneira:
4.1.1 – Dataset Metneu
Conjunto de dados tratado manualmente a partir de informações extraídas da literatura, via
PubMed (http://www.NCBI.nlm.nih.gov/PubMed/), utilizando-se as palavras chaves: epitope,
metalloproteinase, proteinase, peptidase, toxin e neurotoxin de forma isolada ou combinada. Foram
obtidos 99 sequências de EpiLCB de células B para dois grupos de antígenos (metaloproteases e
neurotoxinas) e foram curados pela nossa equipe. Os epítopos foram manualmente revisados e as
informações relevantes foram anotadas. Este conjunto de dados foi atualizado até março de 2014. As
seqüências foram analisadas e a redundância foi removida para uma identidade de 100% usando os
complementos do programa JalView (Waterhouse et al., 2009), também foi evitado armazenar
proteínas iguais. Este conjunto de dados foi criado para explorar as diferencias e semelhanças entre
epítopos de metaloproteases e neurotoxinas.
32
4.1.2 – Dataset Host IEDB
Todos os epítopos de células B não redundantes (identidade menor que 100%) foram
extraídos da base de dados do “Immune Epitope DataBase” (IEDB) (Peters et al., 2005), disponível
na internet. Os dados foram tratados utilizando Perl scripts para remover a redundância e
informações inconsistentes como epítopos conformados por 1aa ou de tamanho maior a 30aa. O
dataset incluiu 15.000 sequências de peptídeos classificados pelo IEDB como EpiLCB de tamanho
3aa até 30aa. Este conjunto de dados foi utilizado para explorar as propriedades de epítopos de
famílias diferentes e também as informações de qual era o origem do anticorpo usado para a
identificação experimental.
4.1.3 – Dataset BCPred
O
conjunto
de
dados
BCPred
(Chen
et
al.,
2007),
disponível
em
http://ailab.cs.iastate.edu/bcpreds/refs.html, inclui 701 sequências de epítopos ou não-epítopos com
o tamanho de 20 resíduos de aminoácidos, cada. Originalmente, este conjunto de dados incluía 947
epítopos únicos extraídos da base de dados BciPep (Saha et al., 2005). Após vários tratamentos, um
pelo autores do programa obtiveram um segundo conjunto de peptídeos que foi utilizado para o
desenvolvimento do software de predição BCPRED, denominado SEQ194. Além disso, o software
inclui 194 sequências de proteínas e foi estudado e usado para o treinamento do kernell SVM do
software de predição BEST (Gao et al., 2012). Ambos os conjuntos de dados descritos são parte do
dataset que utilizamos, chamado de BCPred. Estes dados foram utilizados com o objetivo de
experimentar se os modelos computacionais de classificação para epítopos de diferentes famílias
permitiam classificar sequências de epítopos e não epítopos.
33
4.2-
Descritores de epítopos de células B
Todas as sequências lineares usadas para produzir nossos modelos computacionais de
identificação foram processados por scripts em Perl e Pýthon desenvolvidos nesta tese. Estes
separam a sequência original do antígeno em sub-sequências de tamanhos diferentes, medindo de 3 a
15aa. Estas sub-sequências se sobrepõem uma com a outra em forma consecutiva com a diferença de
1aa entre elas, cobrindo a totalidade do antígeno. As sub-sequências híbridas, parte epítopo e parte
não epítopo, são classificadas como epítopos quando 50% ou mais dos aminoácidos pertencen a um
grupo. Uma vez obtidas todas as sub-sequências a partir de um antigeno, são analisadas por outros
dois programas, um em python e outro em perl para gerar 33 parâmetros ou descritores constituídos
por vários tipos de propriedades físico-químicas (PCP), incluindo a porcentagem de: aminoácidos e
de átomos de carbono, enxofre, hidrogênio, oxigênio e nitrogênio; de aminoácidos carregados
positiva (RHK) e negativamente (DE), não carregados (STNQ), especiais (SGP) e hidrofóbicos
(AVILMFYW); índice de hidropatia (GRAVY), índice do tamanho da cadeia alifática e ponto
isoelétrico. Estes descritores foram extraídos a partir da sequência dos epítopos disponíveis nos
conjuntos de dados e gerados como descrito por (Gasteiger 2005 et al., Haste et al., 2006),
diferenciando, apenas, em que cada característica teve seu valor transformado para porcentagemna
remoção das diferenças de comprimento nas sequências de epítopos. Outros seis descritores foram
baseados em propriedades estruturais (PSS) calculadas utilizando o algoritmo Stride (Heinig et al.,
2004). Neste estavam inclusas as probabilidade de alfa-hélice, folhasbeta, coil, acessibilidade de
superfície relativa, absoluta, e acessibilidade absoluta ajustada baseada em fitness (Z-fit). No total,
foram utilizadas três matrizes para cada conjunto de dados: a primeira, com informações PCP, a
segunda com apenas os dados PSS e um terceiro que contendo os dados combinados de PSS e PCP.
34
4.3-
Konstanz Information Miner
Várias ferramentas que foram utilizadas neste estudo pertencem ao Konstanz Information
Miner (KNIME), plataforma “open-source”, com uma interface gráfica de fluxo de trabalho que
suporta uma ampla gama de opções para mineração de dados e informática em geral (Beisken et al.,
2013). O KNIME foi utilizado para avaliar os métodos de mineração de dados utilizados na predição
de epítopos de células B em um ambiente de fluxo de trabalho. Cada nó inclui uma única análise dos
parâmetros descritos para um método matemático específico. Os nós serão descritos mais adiante
neste trabalho.
4.4-
KMEANS (KM)
Utilizamos o algoritmo K-means para encontrar os centros dos grupos para um número pré-definido
de dados aglomerados. K-means realiza um agrupamento nítido, que atribui um vetor de dados a
exatamente um cluster (Patel et al., 2009). O algoritmo termina quando as atribuições de
fragmentação não mais se alteram e usa o agrupamento baseado na distância Euclidiana sobre os
atributos escolhidos. A configuração utilizada considerou grupos de dois elementos (centros de
fragmentação) com 200 interações, número mínimo para obter uma melhor precisão.
4.5-
Árvore de decisão (Decision Tree (DT))
Utilizamos o algoritmo de árvore de decisão para classificar um
atributo nominal, por
exemplo, metaloprotease ou neurotoxina em atributo alvo ou classe. Os outros atributos utilizados
para classificação foram do tipo numéricos e as divisões no momento da classificação foram sempre
binárias, capazes de dividir os dados em duas partes. Durante cada interação os valores nominais
foram divididos em dois subgrupos. O processo se repete até separar totalmente as duas classes
35
nominais iniciais e, em nosso trabalho, elas foram epítopo e não epítopo. Além disso, muitos
modelos de árvore de decisão testando vários parâmetros internos do algoritmo foram feitos, bem
como o número de nós, conjunto de dados e alguns elementos particulares dos conjuntos de dados.
O algoritmo fornece duas medidas de qualidade para o cálculo de divisão: o índice de Gini e a
proporção de ganho, ambas avaliadas. O método de desbaste para reduzir o tamanho da árvore
disponível na ferramenta não foi utilizado. As técnicas utilizadas foram descritas por Schaffer, 1996
(Friedman et al., 1996). No obstante a árvore de decisão foi avaliada com detalhe para não ter nós em
execesso. Assim, as melhores árvores são aquelas que conseguem descrever o modelo de interesse
com o número menor possível de nós. Nesta tese foram avaliadas mais de 100 árvores de decisão
para cada conjunto de dados (SVMPs e NTx).
4.6-
Naive Bayes (NB)
Este algoritmo ou nó do software KNIME, cria um modelo bayesiano calculando o número
de linhas por valor do atributo, por grupo de atributos nominais,e pela distribuição de Gauss para os
atributos numéricos. O modelo de oráculo ingênuo de Bayes ou Naive Bayes foi utilizado para
descrever e identificar as classes.
4.7-
Support Vector Machine (SVM)
Uma máquina de vetores de suporte foi treinada com os dados introduzidos. Os tipos de SVM
avaliados foram polinomial, hiper-tangente e base radial de Gauss. O algoritmo de aprendizagem
SVM usado foi descrito por Platt (Platt, 2000).
36
4.8-
Multiple linear regression (MLR)
O ambiente de software livre R para computação estatística e gráficos foram utilizados para
criar os modelos de regressão múltipla e estatísticas. As variáveis nominais foram transformadas em
numéricas para os dois grupos a serem classificados, epítopo e não-epítopo. Assim, o valor positivo
de log (0,99 / (1-0,99)), é atribuído a epítopos e um valor de log. negativo (0,01/(1-0.01)) para não
epítopos. O modelo linear de função (LM) disponível em R foi usado para resolver uma série de
cálculos com base na equação de regressão logística, na tentativa de classificar nossos descritores em
uma reta com valor positivo para epítopos e negativo para não epítopos. O modelo de regressão
múltipla esta baseado nos fatores beta ou coeficientes que multiplicam os parâmetros ou
características utilizadas no modelo, que são sempre numéricos. No modelo de regressão múltipla, os
atributos ou descritores representam os valores no eixo X, e cada sequência de epítopo é representada
por um valor no eixo Y. Já os coeficientes beta são calculados após a solução das equações.
Equação de regressão Logística:
log(θ/(1 − θ)) = α + β1x1 + β2x2 + ... + βj*xj
Equação do modelo regressão múltipla
Y1 = a + b1 × X1, 1 + b2 × X1, 2 + b3 × X1, 3. . . Y2 = a + b1 × X2, 1 + b2 × X2, 2 + b3 × X2, 3. . . Depois que a variável de classe foi igualada às variáveis de descritores ou atributos e à
resolução de equações, um modelo de regressão linear múltipla é gerado, um valor p é calculado e o
modelo é rejeitado para qualquer valor p superior a 0,005 em conformidade com um intervalo de
37
confiança de 99.5% . A pontuação resultante prevista do modelo é dimensionado (0 a 1), usando a
fórmula exp (valor previsto. / (1 + valor previsto)) para cada elemento.
4.9-
Análise dos modelos avaliando a curva ROC
Utilizamos a análise ROC (Receiver Operating Characteristic) para avaliar cada modelo de
classificação e predição possível. Esta análise apresenta o melhor desempenho de todos os métodos
descritos acima. Além disso, a análise ROC fornece um método "livre de distribuição" para comparar
as distribuições, ao contrário de testes estatísticos paramétricos que impõem uma distribuição padrão.
A análise ROC não assume que as distribuições são Gaussianas e possuem igualdade de variância
(Green e Sweets, 1966). Assim, foi usado o pacote ROCR de ferramentas para a linguagem “R
computing” (R development core team et al., 2008). A utilização de curva ROC múltipla foi feita
usando o Grau Falso Positivo (FPR) e Verdadeiro Positivo (TPR) calculado da seguinte forma:
Sendo, TP -verdadeiro positivo; FP- Falso Positivo; FN - Falso negativo e TN- verdadeiro negativo.
Para cada método de mineração de dados, foi utilizado ROC para avaliar o comportamento
dos classificadores em resposta ao tipo de dados de entrada. O pacote ROCR do software R oferece
várias vantagens para a avaliação dos dados apresentados neste trabalho. Outra vantagem desta
análise é que ela não depende de um único valor de corte (cutoff value), mas considera cada
38
possibilidade de decisão possível e estima o desempenho para todos os pontos de corte ou cutoffs que
são calculados e comparados um com outro. Além disso, com o método de "livre de distribuição" a
comparação entre esses modelos não contam com a suposição de normalidade ou variância fixa. Isso
nos permitiu comparar criticamente cada modelo individual e cada grupo de dados usados como
entrada dos modelos de predição. Este analises de curvas ROC foram complementados com uma
validação cruzada de 10 vezes (Reimer et al., 2009).
4.10- Interface de Banco de Dados
Para armazenar as informações de uma forma fácil e acessível, computacionalmente, criamos
uma base de dados. Ela foi feita e armazenada usando mySQL, além de ser concebida para aceitar
vários dados extraídos a partir da interface PHP. Estes correspondem à produção de dados minerados
e transformado para BioJava, Perl e Biopython. O objetivo desta base de dados foi armazenar
informações das pesquisas referentes a epítopos e paratopos e se encontra disponível para quem
precise usá-la.
4.11- SPOT síntese
4.11.1 Síntese de peptídeos sobre membrana
A síntese paralela de peptídeos sobre membrana de celulose ocorreu-se por permitir a síntese
rápida e eficiente de um grande número de peptídeos (até 900 peptídeos, dependendo do tamanho da
membrana), em delimitações pontuais por volume de deposição de cada resíduo. Dessa forma, as
membranas de celulose contendo os peptídeos correspondentes das sequências das metaloproteases
Atr-I, BaP1 e Leuc-a foram preparadas segundo Laune et.al. 2002. Os aminoácidos protegidos por
um grupamento FMOC foram depositados em um volume de,aproximadamente, 0,6
μL no
39
sintetizador automático (RESPEP/MULTIPEP –Intavis),permitindo obter, em média, 50 nanomoles
de peptídeo por ponto na membrana. A síntese dos peptídeos iniciou sempre pelo C-terminal do
último aminoácido das sequências estabelecidas para cada ponto. Após a retirada do grupo FMOC
que se encontrava acoplado à função amina do aminoácido pela adição de 4-metil-piperidina 25% em
dimetilformamida (DMF), esta se tornou disponível para reação com o próximo aminoácido a ser
acoplado.
Os
aminoácidos
a
serem
acoplados
foram
ativados
por
DIPC/Oxyma
(diisopropilcarbodiimida/Oxyma Pura) e depositados sobre a membrana. Para cada aminoácido
foram realizados dois ciclos de acoplamento. As funções NH2 que permaneceram livres após o
acoplamento foram acetiladas com anidrido acético 10%, em DMF, a fim de se evitar reações
colaterais com os aminoácidos posteriormente adicionados.O grupo protetor FMOC do aminoácido
recém acoplado foi novamente eliminado em meio básico pela 4-metilpiperidina a 25%. A
membrana foi lavada com metanol e, após a secagem desta, foi reposicionada no sintetizador para
outro ciclo. Os ciclos se sucederam desta forma até completar a sequência do peptídeo desejado. Ao
final da síntese, os grupos laterais protetores dos aminoácidos foram retirados pelo tratamento da
membrana com ácido trifluoracético (TFA) associado a diclorometano e trietilsilano.
4.11.2 Ensaio Imunoquímico
As membranas contendo os peptídeos sintéticos foram lavadas três vezes com tampão TBS
pH 7.4 e então saturadas em solução contendo 1ml de tampão de bloqueio (coating buffer, Sigma) e
0,5g de sacarose, em 20mL de tampão TBS-Tween 0,1% overnight. Em seguida, a membrana foi
lavada com tampão TBS-Tween 0,1% e incubada com uma solução de anticorpos, diluídos na
mesma solução de bloqueio em concentrações variáveis a partir de 1/50 até 1/5000, durante 1h e
30min sob agitação constante. Após a incubação, a membrana foi lavada com TBS-Tween 0,01% por
10 min. Logo o anticorpo secundário ligado a fosfatase alcalina, diluído no tampão de bloqueio, foi
40
incubado com a membrana por 1h. Após a nova lavagem sob agitação 10 minutos com TBS-Tween
0,1% e mais duas lavagens de também 10 minutos cada, com CBS ph 7 sob agitação, foi adicionado
o substrato contendo MTT, BCIP e MgCl2 (Sigma). Vinte minutos depois, a reação foi parada com
água destilada e os spots reativos foram detectados pelo método de colorimétria direta. Para isto, a
membrana foi escaneada e os spots foram quantificados pelo software ImageJ (Machado de Avila et
al., 2014).
4.11.3 Regeneração da membrana
Para reutilizações posteriores, as membranas foram submetidas a um tratamento de
regeneração. Primeiramente efetuou-se 3 lavagens de 10 minutos cada com reagente A (Uréia 8M +
1% de SDS + 0.1% de 2-mercaptoetanol) e finalmente outras 3 lavagens de 10 minutos cada com
reagente B (etanol/ água / acido acético nas proporções 50:40:10 vol./vol./vol.).
4.11.4 Síntese química de peptídeos
Foi utilizado o método desenvolvido por Merrifield, 1969.
para sintetizar os peptídeos
CNEN (computacionalmente negativo experimentalmente negativo) e CPEN (computacionalmente
positivo experimentalmente negativo). Ele consiste em fixar o aminoácido C-teminal do peptídeo
sobre um suporte solido insolúvel e depois alongar a cadeia peptídica por adições sucessivas de
resíduos da porção C-terminal para N-terminal. Estes aminoácidos possuem o agrupamento amina
protegido pelo agrupamento FMOC (fluorenil-metil-oxicarbonila), sua cadeia lateral também esta
protegida por um grupo protetor para evitar reações indesejadas. O suporte solido insolúvel
normalmente é uma resina que também se encontra protegida pelo FMOC.
41
Foi utilizada a resina Rink Amide como suporte solido, o protocolo usado para formação do
peptideo é semelhante ao utilizado para a síntese em membrana. O tubo de síntese contendo a resina
foi lavado 3 vezes com 5mL de DMF e em seguida foi adicionada piperidina 20%, deixando sob
agitação por 20 minutos para eliminar o FMOC da resina. Após novas 3 lavagens com DMF, iniciouse a etapa de acoplamento. Nesta etapa, o primeiro aminoácido (100μM) a ser acoplado foi
adicionado junto com os ativadores da sua função carboxila, o HOBt (100μM) e o DIPC (100μM) e
deixado por 30 minutos sob agitação.
Após acoplagem, três novas lavagens com DMF são realizadas e é iniciada a etapa de
desproteção. Nesta etapa o agrupamento FMOC do aminoácido acoplado é removido com a presença
de piperidina 20%, por 20 minutos. Ao final desta etapa, 3 novas lavagens com DMF são realizadas e
o protocolo de acoplagem inicia para segundo aminoácido. Este ciclo de acoplagem/desproteção é
feito até que todos os aminoácidos do peptídeo a ser sintetizado estejam acoplados.
Após o termino do ultimo ciclo, o peptídeo já sem o agrupamento FMOC do ultimo
aminoácido então é removido da resina por uma etapa chamada de clivagem. Nesta etapa também se
elimina os agrupamentos protetores de cadeia lateral. Para isto, o peptídeo é incubado por 3 horas
com uma solução de clivagem contendo 2.5% de EDT (etanolditiol - Fluka) + 2,5% de água destilada
+ 2,5% de TES (trietilsilano - Fluka) em TFA (ácido trifluoroacetico). Em seguida esta solução
filtrada é precipitada com éteretílico gelado obtendo assim o peptídeo. Após centrifugação o éter é
eliminado e o peptídeo é re-suspendido em água mili-Q e liofilizado.
42
4.12- Espectrometria de massa
As análises por espectrometria de massa foram realizadas no Núcleo de Estudo de Estrutura e
Função de Biomoléculas do Departamento de Bioquímica e Imunologia do Instituto de Ciências
Biológicas na Universidade Federal de Minas Gerais,utilizando o equipamento AutoflexIII MALDITOF- TOF™ (Bruker Daltonics), no modo refletor/positivo controlado pelo software FlexControl™.
A calibração do instrumento foi obtida usando o Peptide Calibration Standard II (Bruker Daltonics)
como referência e ácido α-ciano-4-hidroxicinâmico como matriz.Uma gota da mistura contendo a
amostra a ser analisada e a matriz ácido α-ciano-4-hidroxicinâmico, na proporção de 1:1 foi
adicionada em uma placa MTP AnchorChip™ 400/384 (Bruker Daltonics). Após a secagem da gota,
aplaca foi levada ao aparelho para análise.
4.13- Protocolos de Imunização
Camundongos fêmeas da raça BALB/C pesando em torno de 18-22g, foram usadas para
coletar soro pré imune. Consequentemente, receberam injeções subcutâneas (s.c.) de 50 ug de
peptídeo incorporado em lipossomas de asolectina como descrito por Mendes e colaboradores
(Mendes et al.,2013) (dia 1). Nove reforços foram dados via subcutânea, com 50 ug de peptídeo
acoplado ao lipossoma, com o primeiro intervalo após 30 dias e os seguintes a cada 7 dias. Um grupo
controle negativo recebeu lipossoma vazio (sem peptídeo acoplado) nas mesmas condições. O soro
imune foi coletado a partir a quarta dose e usado em ensaios ELISA e de neutralização.
43
4.14- ELISA (Enzyme-Linked Immunosorbent Assay)
O método utilizado para detecção de anticorpos específicos foi o ELISA (Olortegui et al.,
1991). O ensaio foi feito em placas Maxisorp (Nunc) de 96 wells sensibilizadas com 100mL de
antígeno, nas concentrações de 10µg/mL e5µg/mL, em tampão (Na2CO3 0.05M buffer, pH9.6)
incubadas overnight a 4°C. Posteriormente, a placa foi lavada com solução salina - Tween 0.05%.
Logo os poços foram bloqueados com 100µL de uma solução de leite em pó (2%) em PBS-tween
(0,1%) por 1 hora.Após o bloqueio, foram feitas três lavagens com tampão PBS-tween (0,05%)e
adicionados 100µL dos anticorpos IgG produzidos em camundongos em diluções de 1:100, 1:500,
1:2500, 1:12500, 1:57500 em PBS-tween 0,05%, 0,25% leite em pó, e incubados por 1 hora, à 37°C.
Os poços foram lavados e em seguida adicionados 100µL de anticorpos IgG, contra IgG de
camundongos, produzidos em cabra conjugados com Peroxidase em uma concentração de 1:5000 por
uma hora a 37°C . Após a lavagem dos poços adicionou-se 100 µL de substrato OPD (SIGMAFAST, Sigma-Aldrich) e logo de 20 minutos a reação foi parada pela adição de 25µL de uma solução
de acido sulfúrico (1:20). Os valores de absorbância foram determinados a 490nm, usando o leitor de
placas ELISA (Bio-RAD, 680 models). Os experimentos foram realizados em duplicada e as medias
e desvios padrões foram calculados.
4.15- Atividade hemorrágica
A atividade hemorrágica foi determinada através do método de Kondo et al., 1960 e
modificado por Gutierrez, et al., 2002. Foi inoculado em camundongos com Atr-I a dose de
19ug,equivalente a 1 dose mínima hemorrágica (definida como aquela que causa uma lesão no local
da injeção de pelo menos 1cm2) e pré-incubada com anticorpos diluídos em (1:100), durante 1 hora,
à 37°C. Como controle positivo, Atr-I foi inoculada sem anticorpos. Ao final todos os animais foram
submetidos à eutanásia e a pele foi removida para a avaliação da hemorragia.
44
5. Resultados e Discussão
5.1
Propriedades de Epítopos de Metaloproteases e Neurotoxinas
Na atualidade são conhecidas mais de 13.000 famílias de proteínas, segundo o PFAM (Punta
et al., 2012) ou 559 clãs ou conjuntos formados pelo que, anteriormente, era chamado de família
(Finn et al., 2016). Cada família descreve um grupo concreto de proteínas que compartilham
características em comum. Nesta tese escolhemos validar nossa hipótese utilizando os dados de
EpiLCB obtidos das famílias de metaloproteases e neurotoxinas extraídos a partir da literatura.
A tabela 1 apresenta as sequências de epítopos selecionados após uma revisão sistemática
detalhadas de todas os trabalhos publicados que envolvia EpiLCB de metaloproteases e neurotoxinas,
formadas por 29 metaloproteases (cor preto) e 70 neurotoxinas (cor vermelho). Verificamos que
estas sequências foram mapeadas experimentalmente e foram inclusos os códigos UNIPROT da
proteína de qual o epítopo foi mapeado, além da referência do artigo de origem (Tabela 1).
Conferimos que estes epítopos não sejam redundantes evitando problemas com durante o uso de
técnicas de classificação de dados. Logicamente, usar dados não redundantes é essencial para o
desenho de um bom modelo na identificação computacional de epítopos (Saha et al., 2005). As
sequências de epítopos selecionadas não incluíram resultados de experimentos que continham
grandes fragmentos de proteína (tamanho superior a 20 aminoácidos). Poucos aminoácidos (5-15)
conformam epítopos que são apresentados por moléculas MHC e reconhecidos por anticorpos, sendo
importante o tamanho do epítopo no máximo de 20aa (Bremel and Homan, 2010).
45
Para avaliar corretamente as sequências lineares dos epítopos consideramos toda a extensão
dos antígenos (a sequência), e separamos estas em subsequências de 3aa até 15aa como descrito na
metodologia. O Critério usado foi o de considerar uma subsequência como positiva ou epítopo
quando ela contiver mais de 50% dos aminoácidos de sua composição idênticos com os aminoácidos
do epítopo experimental, como ilustra a figura 2C (para sequências pequenas) e a figura 2D (para
sequências longas). Esta metodologia de analise tem como vantagem, identificar melhor os epítopos,
por que ela cria uma margem maior nas bordas dos epítopos (Fig. 2C e 2D) e assim aumentando a
sensibilidade dos modelos computacionais. Desta forma, quando comparado com subsequências que
possuem 100% dos aminoácidos de sua composição como epítopos, mostram ter uma sensibilidade
reduzida (Fig. 2E e 2F). Outra vantagem deste algoritmo é proporcionar menos resultados falsos
positivos, do que as metodologias que utilizam uma janelas de 1aa (Fig. 2A e 2B). Esta metodologia
de analise é similar a de outros métodos (Ansari et al., 2013) que tentam lidar com o problema de
pouca quantidade de dados ou informações redundantes, mostrando sempre que é vantajoso
apresentar as sequências de forma que seja melhor interpretado pelos métodos computacionais
(Costa et al., 2013).
Assim os EpiLCB das metaloprotases e neurotoxinas foram transformados em subsequências
e classificados usando o critério de ter no mínimo 50% de aminoácidos idênticos. Estas sequências
de epítopos experimentais, como descrito acima, foram analisados em scripts na linguagem Perl e
Python criados por nos exclusivamente para essa tese baseados nos algoritmos disponíveis nos
servidores Expasy (Gasteiger et al., 2005). Esta analise permitiu descrever as subsequências como
dados numéricos, baseados na composição de aminoácidos, propriedades bioquímicas e de estrutura
predita usando os algoritmos previamente descritos.
46
Figura 2. Representação da pontuação ("score") de epítopos quando separados em subsequências. No O eixo X apresenta
o numero de aminoácidos e o eixo Y, a porcentagem de um aminoácido ser epítopo. As curvas de cor laranja,
representam os epítopos experimentais e a curva de cor preto a região predita computacionalmente como epítopo. Em 2A
e 2B, têm-se o valor de cada aminoácido quando as subsequências são consideradas epítopos quando apenas 1
aminoácido destas pertence a um epítopo experimental. Em 2C e 2D, se mostra a previsão para cada aminoácido quando
mais de 50% das subsequências pertencem a um epítopo experimental. Já em 2E e 2F, se mostram os resultados quando
todos os aminoácidos da subsequência precisam pertencer a um epítopo experimental para ser classificadas.
47
Tabela 1. Conjunto de epítopos usados para o desenvolvimento dos modelos de previsão para SVMPs e NTx
Journal_ID
Epitope_sequence
uniprot, PDB, genebank
21763377
21763377
21763377
21763377
21763377
16212890
16212890
16212890
16212890
16212890
20093370
19509157
15607634
15607634
16428330
16737347
16737347
16737347
16737347
16737347
16737347
16737347
19084031
19084031
17014879
17014879
17014879
18061641
18061641
7690110
9784249
9276446
9276446
9276446
9276446
9276446
22922018
22922018
22922018
22922018
22922018
22922018
22922018
22922018
11275260
11275260
9517541
9517541
21149386
21149386
SCMLDQGRSRCR
HCTMDQGRLRCR
HCFHDQGRVRCA
TCATDQGRLRCT
QCTMDQGRLRCR
MEASHTHARPAP
TLAHTSQIGLTA
TSFGSMLSKWQK
ITSHTGYLQLRL
SNPPGMALSAPP
GFEESLEVDTNPL
YTFRYPLSL
IRIKRDMS
GTSMATPHVAG
IADCTYRWHVGTWMECSVSCGD
DVKCGRLYC
GTICKMARGDNMHDYCN
GTKCEDGKVC
TECRGIRSECDLPEYCTGQ
NCRDPCCDAASCKLHSW
GEECDCGSPENCQ
HNLGMNHDGNQCNCGAAGCIMSAIISQYRS
HNLGMEHDGKDCL
NTVNGFFRSMN
SEGPSYEFSDCS
LKTFGEWRERVL
VVADHGMFTKYN
IVNTLNEIYRYLYVR
EQQRYLNNFRFIELV
VKDGYIVD
KKYRYYLKPLCKK
IVDDVNCTYFCGRNAYC
NEECTKLKGESGYCQ
ACYCYKLPDHVRTKG
YKLPDHVRTKGPGRCH
ACYCYKLPDHVRT
FTNPEEGDLNPPPEAKQVPVSYYDSTYLST
VPVSYYDSTYLSTDNEKDNYLKG
SPDFTFGFEESLEVDTNPLLGAGKFATDP
DFTFGFEESLEVDTNPLLG
KMLTEIYTEDNFVFFKVLNRKTYLNFDKAVFK
PKVNYTIYDGFNLRNTNLAANFNGQNTEINNMNFTK
FNGQNTEINNMNFTKLKNFTGLFEF
FNGQNTEINNMNFTKLKNFTGLFEFYK
KDLYG
NVKTSPKQSKP
KVWRDHRGTIIE
KPGI
YNQYTEEEK
YKKYSGSDK
P22796
P22796
P22796
P22796
P22796
Q5C1N0
Q5C1N0
Q5C1N0
Q5C1N0
Q5C1N0
P10845
B3KQS8
AAG32166
AAG32166
Q76LX8
(EOC0028-06-63-24),(EOC0063-24)
(EOC0028-06-63-24),(EOC0006)
(EOC0028-06-63-24),(EOC0063-24)
(EOC0028-06-63-24),(EOC0063-24)
(EOC0028-06-63-24),(EOC0063-24)
(EOC0028-06-63-24),(EOC0063-24)
(EOC0028-06-63-24),(EOC0028-06-63)
Q9I9R4
Q9I9R4
P22796
P22796
P22796
2ERO(B);Q8JIR2
2ERO(B);Q8JIR2
P01484;1AHO
1CLP
1AHO;P01484
1AHO;P01484
1AHO;P01484
1AHO;P01484
1AHO;P01484
2ILP;Q7B8V4
2ILP;Q7B8V4
2ILP;Q7B8V4
2ILP;Q7B8V4
2ILP;Q7B8V4
2ILP;Q7B8V4
2ILP;Q7B8V4
2ILP;Q7B8V4
Q9TXD1, P08815
Q9TXD1, P08815
3NDS,1IQ9;P01426
3NDS,1IQ9;P01426
2ILP;Q7B8V4
2ILP;Q7B8V4
48
Journal_ID
22149274
Epitope_sequence
WTLQDTQEIKQRVVF
uniprot, PDB, genebank
2ILP;Q7B8V4
22952786
SKWY
2NM1;P10844
22952786
SDEFY
2NM1;P10844
22952786
KSDP
2NM1;P10844
19162253
NPVEWFMSTVNT
1CTX;P01391
16647121
EENISLDLIQQYYLTFNFI
2ILP;Q7B8V4
16647121
SGAVILLEFIPEIAIPVLG
2ILP;Q7B8V4
16647121
TKAIINYQYNQYTEEENN
2ILP;Q7B8V4
16647121
NKFLNQCSVSYLMNSMIPY
2ILP;Q7B8V4
16647121
CMENNSGWKVSLNYGEIIW
2ILP;Q7B8V4
16647121
GEIIWTLQDTQEIKQRVVF
2ILP;Q7B8V4
16647121
NNIMPKLGCRDTHRYIWI
2ILP;Q7B8V4
16647121
KYVDVNNVGIRGYMYLKGP
2ILP;Q7B8V4
16647121
SRTLGCSWEFIPVDDGWGERPL
2ILP;Q7B8V4
11425742
KGTFDPLQEPRT
2ILP;Q7B8V4
8576079
TNCYKKRWRDHRGYRTE
P60770
7945236
CAPGQNLCY
1NTN;P01382
7945236
PGQNLCYTK
1NTN;P01382
7945236
KTWCDAWCG
1NTN;P01382
7945236
DAWCGSRGK
1NTN;P01382
11602284
LPDSEPTKTNGKCKS
2sn3;P15226
11602284
GREGYPADSKGCKIT
2sn3;P15226
11602284
TLKKGSSGYCAWPAC
2sn3;P15226
11602284
PDSVKIWTSETNKCG
2sn3;P15226
15302529
VPDHIKVWDYATNK
2sn3;P15226
15302529
GLPDSEPTKTNGKCK
2sn3;P15226
15302529
LPNWVKVWDRATNKC
2sn3;P15226
15970301
KEGYAMDHEGCKFSC
2sn3;P15226
15970301
CDGYCKTHLKASSGY
2sn3;P15226
15970301
PDHIKVMDYATNKKC
2sn3;P15226
15970301
KEGYLMDHEGCKLSC
2sn3;P15226
15970301
IRPSGYCGRECGIKK
2sn3;P15226
15970301
LPNWVKVWDRATNKC
2sn3;P15226
15970301
KKDGYPVEYDMCAYI
2sn3;P15226
15970301
WNYDNAYCDKLCKDK
2sn3;P15226
9022703
GYIVDDV
P01484
9022703
IVDDVNC
P01484
9022703
LKGESGY
P01484
9022703
VKDGYIVD
P01484
9022703
YIVDDVN
P01484
9276446
IVDDVNCTYFCGRNAYC
P01484
9276446
NEECTKLKGESGYCQ
P01484
9276446
PDHVRTKGPGRCH
P01484
9276446
YKLPDHVRT
P01484
11750040
KELYGSSA
P01484
11750040
TSPKQCSKPC
P01484
19962461
GRNAYCN
Q7YXD3
19962461
YIVDDVNCT
Q7YXD3
A primeira coluna mostra o código PUBMED do periódico do qual o epítopo foi extraído. A segunda coluna
indica a lista de EpiLCB. A terceira coluna mostra o código Uniprot, PDB ou genebank. Os epítopos em preto pertencem
a SVMPs eem vermelho NTXs.
49
A composição de aminoácidos mostra diferenças para epítopos de NTX e SVMPs (Fig. 3). Os
aminoácidos que possuem as maiores diferenças ou variações mais significativas,expressos em
porcentagem foram a lisina (3.05 e 10.6), tirosina (3.16 e 7.9), arginina (8.5 e 3.5), alanina (5.6 e
2.8), histidina (3.4 e 1.5), aspartato (5.3 e 8.1), isoleucina (2.6 e 4.4), metionina (3.6 e 1.07) e
triptofano (1.3 e 2.5), sendo o primeiro valor para a família das metaloproteases e o segundo para a
família das neurotoxinas.
Figura 3. Gráfico de barras apresentando o porcentagem dos aminoácidos de epítopos para as famílias SVMPs e
NTx. Em preto, os epítopos da família das SVMPs e em cinza os epítopos para as família das NTx. As propriedades com
uma estrela acima das colunas indicam um e-val menor a e*10-5 se indica com asterisco sobre as barras.
Estes resultados mostram variações entre os aminoácidos de EpiLCB de duas famílias
reforçando a hipótese de que EpiLCB de famílias diferentes como SVMPs e NTXs, possuem
propriedades diferentes. Estas propriedades podem ser aproveitadas com fins de desenvolvimento de
50
ferramentas de previsão de antigenicidade e epítopos (Westhof et al., 1984, Malito e Rapuoli, 2013).
Alguns trabalhos atuais reforçam indiretamente essa sugestão ao afirmarem que o mais difícil
atualmente é entender as variações que existem dentro dos EpiLCB (Sivalingam e Shepherd, 2012.
Kunik e Ofran, 2013) e algumas similaridades ou padrões dentro de grupos de epítopos pertencentes
a uma mesma família ou grupo de proteínas (Subramanian and Chinnappan, 2013., Liu and J. Hu,
2011).
Essas variações são aproveitadas pelos modelos computacionais de mineração de dados,
dependendo do modelo, a importância de cada aminoácido pode variar. Por este motivo foram
explorados 5 tipos de modelos de mineração de dados. Os modelos MLR, Bayes e Kmeans utilizam
comparações das medias das propriedades dos epítopos rígidas reduzindo a sensibilidade do modelo.
Enquanto SVM e a arvore de decisão permitem uma maior flexibilidade respeito ao analise de cada
propriedade aumentando a sensibilidade dos modelos. Dependendo da complexidade do modelo, as
vezes é melhor focar na precisão dos modelos e não na sensibilidade (Sun et al., 2013). Como
consequência, explorar estes modelos permitiu uma analise bem detalhada com o intuito de decidir
qual modelo se ajustaria melhor aos nossos dados e culminaria em um resultado mais preciso.
Assim, utilizando a linguagem Python e Pearl geramos 33 parâmetros ou descritores físicoquímicos e classificados como descritores do tipos PCP. Nele estavam incluindo parâmetros, como a
percentagem
decada
aminoácidos
e
percentagem
de
cada
átomos,
propriedades
dos
aminoácidos,índice de hidropaticidade, cadeia alinfática, ponto isoelétrico etc. Outros seis descritores
foram baseados em propriedades estruturais, e chamado de PSS. Neste grupo, estavam inclusos as
probabilidade de alfa-hélice, folhasbeta, coil,
acessibilidade de superfície relativa e absoluta,
pontuação de acessibilidade Z-fit. Assim obtivemos três matrizes para cada conjunto de dados: a
51
primeira, com informações PCP, a segunda com apenas os dados PSS e um terceiro que contendo os
dados combinados de PSS e PCP.
Utilizamos os valores estatísticos diretamente no método MLR. Tanto para os descritores,
“PCP”, como para os descritores “PCP + PSS”, formado pela analise dos dois tipos descritores juntos
na tabela 2. Por tratar-se de um modelo rígido, sabe-se que pequenas variações nas somas das
propriedades podem alterar facilmente o modelo. Interessantemente os resultados para ambos grupos
de dados PCP e PCP + PSS, foram similares, indicando que nossos dados podiam ser explicadas de
diversas formas, e que isso era um indicativo da boa qualidade e parcimônia nos dados utilizados.
Avaliamos também os EpiLCB de duas famílias de acordo com as características dos
aminoácidos, ou seja, porcentagem de aminoácidos com carga positiva (R, H e K), com carga
negativa (D e E), sem carga (S , T , N e Q), considerados especiais(C , G e P) e hidrofóbicos (A, V, I,
L, M, F, Y e W). Os aminoácidos C, G e P são considerados especiais, por não estarem classificados
dentro de nenhum das outras categorias anteriores. Estes resultados são mostrados na Fig. 4 e pode se
observar que não ha diferenças significativa entre as duas famílias, comprovado pelo teste estatístico
de “Welch Two sample T-test”. Quando agrupados os aminoácidos por tipo, se reduzem as
diferencias entre as duas famílias, dificultando sua classificação, de forma similar ao encontrado na
literatura (Odorico e Pellequer, 2003, Sollner e Mayer, 2006, Kunik e Ofran, 2013). Assim estes
resultados poderiam ser exemplo que além de focalizar dados de epítopos a grupos de proteínas ou
famílias é importante não generalizar as propriedades dos epítopos por que pode conduzir a uma
perda da sensibilidade dos modelos preditivos (Lustrek et al., 2013).
52
Figura 4. Gráfico de barras apresentando a porcentagem do aminoácidos por grupos. No eixo X temos os grupos
com carga positiva (RHK), com carga negativa (DE), sem carga (STNQ), considerados especiais (CGP) e hidrofóbicos
(VISLMFYW). No eixo Y temos a porcentagem destes grupos do 100% dos epítopos. Em cor cinza se mostram as
estatísticas para NTx e em preto para SMPs
5.2 Padrões em epítopos das famílias das SVMPs e NTx.
Como foi encontrado diferencias promissóras entre estas duas famílias de proteínas,
utilizamos técnicas de mineração de dados em buscas de padrões específicos nos EpiLCB em cada
família com suficiente significância para permitir classifica-los. Um padrão específico se refere a
uma propriedade que é constante dentro de um grupo mas é suficientemente diferente de outro grupo,
assim permitindo separar e classificar aos dois grupos participantes da analise. Assim, o primeiro
parâmetro que mostrou foi o índice de hidrofobicidade/hidrofilicidade (hidropaticidade) ou índice de
GRAVY, que é um excelente indicador de avaliação de quanto hidrofóbico ou hidrofílico uma
sequência de resíduos pode ser. Os primeiros estudos sobre epítopos mostraram que as regiões
53
hidrofóbicas de antígenos em solução se encontravam sobrepostas ou próximas a regiões antigênicas
(Parker e Osterland, 1970). Posteriormente, um ajuste nos cálculos destas regiões considerando os
aminoácidos no polares em condições fisiológicas (pH 6.5 - 7.4) permitia correlacionar resíduos
preditos como acessíveis com regiões antigênicas (Parker et al., 1986). Assim a média do índice de
GRAVY para as metaloproteases foi -0.8462 e para as neurotoxinas -0.4928 (tabela 2) apresentando
importância estatística pelo T-test. Esta diferença induz a importância deste, parâmetro como padrão
na seleção de EpiLCB destas duas famílias. Este resultado também se encontra relacionado ao
encontrado por na tese de doutorado de Machado de Ávila, 2011. Naquele trabalho, foi visto uma
diferença entre o ponto isoelétrico de duas família de proteínas (citosinas e neurotoxinas
escorpiônico), e composição de epítopos de neurotoxinas com vários aminoácidos hidrofóbicos a
diferencia de citosinas (Duarte et al., 2010, Machado de Ávila et al., 2011).
Por sua vez, os resultados do PSS mostraram pouca variação estatística com p-value
superiores ao 0.05. As PSS não são a melhor forma de avaliar estruturas mas permitem uma
aproximação aos dados reais, sendo a única opção possível devido da pouca quantidade de estruturas
de qualidade disponíveis (Chen et al., 2009). Nós encontramos que o parâmetro estrutural de maior
relevância foi o de superfície absoluta com medias diferentes para estes dois grupos, 78.3 para
neurotoxinas e 73 para metaloproteases e um p-value de 0.08. Esta propriedade representa a área
total que ocupa o epítopo na superfície da proteína. No entanto, o valor estatístico encontrado para o
parâmetro superfície absoluta dentro de um intervalo de confiança de 90%. A diferença das PCP que
mostro maior diferença estatística com valores dentro de um de um intervalo de confiança de 95%.
No entanto, é importante sinalar que os descritores PSS, ainda se encontram em desenvolvimento e
como descrito por outros autores e são propriedades consideradas precisas (Liu et al., 2012, Sun et
al., 2013), por isso acreditamos serem promissoras. A importância de investigar e comparar as
54
propriedades estruturais e sua comparação com a sequência de aminoácidos dos antígenos radica na
melhora dos algoritmos atuais de previsão de epítopos (Zhang et al. 2012). Estas relações entre
estrutura e sequência podem levar a um entendimento melhor da localização de epítopos nos
antígenos, resultando em melhores estratégias de produção de anticorpos contra estas regiões
(Correia et al., 2010).
O Z -fit que é um valor derivado dos parâmetros de acessibilidade mostrou ter medias com
valores -0.51 e -0.69 para as metaloproteases e neurotoxinas respectivamente, indicando
significância estatística com um p-value de 0.04949. Como esperado, demostrando que esse
parâmetro relacionado a acessibilidade possam ter algum tipo de relevância..
O conjunto de dados Metneu contendo os epítopos para as metaloproteases e neurotoxinas
além de ser considerado por nos como o melhor "dataset”. para estas proteínas ainda possui um
numero pequeno de amostras (Kozlova et al., 2015). Por esse motivo, a interpretação dos resultados
da análise da curva ROC foi realizada com cautela, por que cada método de agrupamento ou
mineração de dados utiliza parâmetros diferentes, a comparação nem sempre é fácil (El-Manzalawy e
Honavar, 2008, Bremel et al., 2010). Na analise das curvas ROC se avalia a área embaixo da curva, o
qual permite uma boa comparação do desempenho dos métodos de classificação. Desta forma, foi
escolhido melhor método para classificar epítopos de não-epítopos foi baseado nos critérios de
precisão, de sensibilidade e de interpretabilidade dos resultados. Com isso, SVM que é por definição
um dos melhores métodos de mineração de dados, foi deixado de lado devido a dificuldade de
interpretar os modelos gerados (Peters et al., 2007, Wang et al., 2011).
55
A figura 5 mostra o desempenho de cada um dos modelos de agrupamento baseado nas
propriedades PCP a fim de diferenciar epítopos lineares de metaloproteases dos EpiLCB das
neurotoxinas. Entre os resultados foi encontrados com uma alta precisão (acima de 0.9) para cada
método, com a exceção de NV (0.800) e KM (0.493). KM é considerado um dos algoritmos mais
simples e o dentre os algoritmos utilizado nesse trabalho, o pior método para classificar dados
complexos com várias dimensões, tais como nosso conjunto de dados utilizado nesta simulação
(Baydogan et al., 2013, Kozlova et al., 2015). Além disso, como esperado, a SVM realizada teve
como resultado uma pontuação alta (0.999 AUC). Do mesmo modo, MLR (0.986 AUC) e DT
(0.957) tiveram um desempenho similar, entretanto são técnicas mais simples e menos demoradas,
além de ser mais simples sua interpretação.
As Curvas ROC são a melhor forma de avaliar modelos de classificação, já que permitem dar
uma idéia clara do comportamento do modelo. As curvas ROC permitem identificar problemas
metodológicos, ruído nos dados, sensibilidade e precisão dos modelos gerados pelas técnicas de
mineração de dados (Marcatili and Houen, 2015). Assim, vimos que o uso de propriedades PSS
resultou em um baixo rendimento para a maioria dos métodos. Um destes, como o algoritmo DT, foi
o que provou ter o melhor desempenho em comparação com os outros classificadores de dados. Este
algoritmo teve resultado de 0.920 de AUC em comparação com MLR, que obteve um valor de 0.650,
como observado na figura 6.Dessa forma, estes resultados tiveram respaldo na teoria de divergência
de Kullback-Leibler, conhecida popularmente como “Informações de Divergência”, que explica que
os ganhos de informação são causados por uma medida não simétrica da diferença entre duas
distribuições de probabilidades (Kullback e Leibler, 1955).
56
Figura 5. Curva ROC para os modelos de classificação EpiLCB das neurotoxinas e metaloproteases baseada em PCP.
Figura 6. Curva ROC para os modelos de epítopos de neurotoxinas e metaloproteases baseada em características PSS
57
O algorítmo DT aproveita este fenômemo com o fim de aumentar o desempenho na
classificação dos dados, utilizando repetidamente as mesmas propriedades, tais como Z-fit (níveis 2 e
4) e Absolute Surface Accessibility. Estas propriedades se repetem nos níveis 3 e 4, na árvore de
decisão mostrada na figura 7. Significando que este algoritmo cria um intervalo quando repete as
propriedades. Por exemplo: Em acessibilidade absoluta de superfície,
o valor referente para
neurotoxinas é inferior ou igual a 79.5 e maior de 88.9. Já para metaloproteases a característica é
valida quando o valor está acima de 79.5 e abaixo de 88.9. Isso faz com que DT seja um método
muito interessante, apesar dele não ser usado com a mesma freqüência que outros métodos tais como
SVM (Gao et al., 2012). Também houve redução do desempenho no modelo de predição MLR. Essa
redução foi de um valor AUC de 0.986 (PCP) para 0.650 (PSS).
Por outro lado, todos os outros métodos mostraram valores de AUC perto de 0.500 (PSS),
indicando que o uso somente de propriedades de estrutura secundaria não são suficientes para uma
boa classificação dos dados. As estruturas secundarias preditas são muito exploradas na literatura
com a intenção de ser usadas na previsão de EpiLCB e conformacionais (Singh et al., 2013), com um
bom rendimento próximo de 70% de precisão para EpiLCB e 60% para epítopos conformacionais
(Sun et al., 2013). Este rendimento não é suficiente para orientar métodos experimentais e também é
variável dependendo da natureza do antígeno estudado (Kam et al., 2014). Como consequência as
pesquisas mais recentes focam em dados experimentais sobre estrutura (Neilsen et al., 2010) e não
PSS mas também existem metodologias que ressaltam a utilidade das PSS (van oss et al., 1997,
Regenmortel et al., 20067). Portanto nos avaliamos estas propriedades encontrando que podem ser
utilizadas dentro do intervalo de confiança de 90% más não quando se procura uma maior
confiabilidade estatística.
58
A combinação dessas características, PCP e PSS, provoca um aumento no desempenho com
o método MLR. O modelo baseado neste método passou de um valor AUC de 0.986 (PCP) para 1.00
(PCP+PSS), que é o máximo de predição possível. Entretanto, o desempenho com o método DT foi
alterado para um valor de 0.940 (PCP + PSS), sendo que anteriormente era de 0.957 para PCP.
Significando que um modelo rígido como MLR mostra o melhor resultado quando avaliando um
conjunto de dados específicos.
Figura 7. Árvore de decisão para o conjunto de dados metneu usando os parâmetros PSS (neuro = neurotoxinas,
metallo = metaloproteases, absolute = acessibilidade absoluta de superfície e relative = acessibilidade relativa).
59
Por outro lado, o DT, um modelo mais sensível e flexível perde precisão na adição de dados
PSS. Assim indicando algum possível conflito entre estas propriedades o que poderia reduzir a
precisão durante uma previsão de epítopo. Este é outro beneficio de usar mais de uma técnica de
mineração de dados, similar ao analise realizado com os SVM e Bayes (Zhao e Li., 2010), De forma
similar, o algorítmo NB que tinha um valor de 0.800 para PCP, caiu para 0.790 (PCP + PSS). Este
analise com curvas ROC para os modelos que usam as características combinadas(PCP + PSS) estão
disponíveis na figura 8. Estes resultados podem se explicar baseado no valor de cada propriedade. Os
métodos Bayes e DT, revisam todas as propriedades com os mesmos valores e procuram correlação
entre estes para classificar os dados, enquanto o MLR atribui um valor para as propriedades que
considera importantes e reduze a importância das propriedades que entram em conflito com a
classificação.
Figura 8. Curvas ROC para os epítopos das famílias das neurotoxinas e das metaloproteases, baseadas em características
PCP+PSS.
60
As propriedades estatisticamente relevantes para o agrupamento dos epítopos com MLR são
mostrados na tabela 2, juntamente com os modelos de predição MLR para PCP+PSS e PCP. É
importante ressaltar que a adição de PSS mencionada anteriormente alterou o significância estatística
das características PCP. Além disso, alguns aminoácidos, tais como: asparagina (N), glutamina (Q),
treonina (T), alanina (A) e serina (S) se destacam em ambos os modelos. Este fenômeno é observado
também nos grupos de aminoácidos não carregados e especiais, como pode ser visto na tabela 2. Esta
ocorrência é provavelmente explicada com a teoria “Ganho de Informação”, descrita previamente.
Os parâmetros relevantes utilizados pelo método árvore de decisão são idênticos para ambos
os modelos (PCP e PCP + PSS), como pode ser visto na figura 9. As características mais importantes
são as estatísticas dos aminoácidos D, K, M, W e I. Nem todos esses aminoácidos têm as mesmas
significâncias estatísticas, embora todos são usados em conjunto nos modelos de predição descritos.
Assim sendo, nesta parte da tese foi possível separar epítopos de metaloproteases dos epítopos de
neurotoxinas através da combinação dos diferentes métodos usados e utilizando diferentes modelos
de predição. Uma descrição mais detalhada das diferenças entre metaloproteases e neurotoxinas foi
publicada por nos na revista BMC Bioinformatics (Kozlova et al., 2015) que se encontra em anexos.
61
Tabela 2. Estatísticas dos parâmetros usados para a predição. A: Modelo usando as propriedades PCP. B: Modelo usando as
propriedades PSS+PCP. A primeira coluna é o nome da matriz seguida do nome do parâmetro; A segunda coluna é o coeficiente
usado na regressão; A terceira coluna é o erro padrão; A quarta coluna é o valor t e a quinta é o valor p, enquanto menor o valor p,
maior a influencia da característica no modelo.
62
Figura 9. Árvore de decisão usada para os modelos com PCP e PCP+PSS dos dados metneu. Cada nó mostra a
propriedade usada para separa SVMPs e NTx e as estatísticas da separação que incluem o porcentagem e o numero de
elementos separados.
63
5.3
Padrões em epítopos baseados no reconhecimento por anticorpos de
animais diferentes
Atualmente, sabe-se que
existem diferenças nas respostas imunes entre as espécies de
animais imunizados. Da mesma forma, existe diferença no reconhecimento dos epítopos a partir de
anticorpos de diferentes animais, por exemplo: a albumina de coelho é imunogênica no camundongo
e não no coelho (Ponomarenko et al., 2007).
Sendo o Imune Epitope Data Base (IEDB), referenciada por vários artigos (Sun et al., 2013,
Carrasco et al., 2015, Juhász et al., 2015, Vita et al., 2015), como o banco de dados mais completo e
detalhado em relação às informações sobre os epítopos, chegando a conter informações relativamente
redundantes (Ponomarenko et al., 2008, Gao et al., 2012). O IEDB contém dados de métodos
experimentais usados para obter os epítopos, referências e outras informações relevantes, tais como
os tipos de animais imunizados antígenos inoculados na imunização. Inicialmente a base de dados foi
analisada procurando famílias de proteínas mas 80% dos antígenos disponíveis pertencem a proteínas
de cápside de vírus (Reimer 2009, Liu J et al., 2014). Este numero pequeno de antígenos pertencente
a diferentes famílias de proteínas não foi suficiente para um analise significativo (Caoili et al., 2014,
Kim et al., 2014, Soria-Guerra et al., 2015, Vita et al., 2015). Por estes motivos, assim como pela
facilidade de acesso das outras informações contidas nesta base de dados foi escolhido o parâmetro
tipo de animal imunizado (Scalia et al., 2015, Díaz et al., 2014, Steeland et al., 2016). O animal
produtor de anticorpos é importante por que diferentes animais possuem diferentes sistemas imunes e
os anticorpos também são diferentes entre si, apesar de compartilhar algumas semelhanças (Gerts et
al., 2002, Hein et al., 2003, Arora et al., 2005). Estas considerações são criticas no momento do
desenho experimental na produção de anticorpos (Schunk et al., 2005, Ohia-Nwoko et al., 2016).
64
Assim, primeiramente filtramos os dados do IEDB, já que este continha mais de 300.000
anotações de epítopos. O resultado de filtrar estas informações gerou um conjunto de dados de
15.000 anotações. Esses epítopos resultantes foram novamente revisados e os mais abundantes eram
os pertencentes as espécies Homo sapiens, com 7.518 anotações. A maioria desses dados para H.
sapiens são epítopos de vírus e doenças comuns. A espécie de Mus musculus continha 3210, seguido
por Oryctolagus, com 1959 e Canis, com 852.
O total de modelos animais utilizados neste estudo para classificar os epítopos foi limitado
em 14 gêneros. Assim os epítopos foram classificados como proveniente de estudos de 4 classes:
Aves, Antiodactylamorpha, Roedores e Primata. Para aves, tem-se os gêneros tais como Anas(121
anotações), Anser(51) e Gallus(170). Para a Antiodactylamopha têm-se os gêneros Canis (852),
Bos(40), Capra (426), Equus(58) e Sus (358) como representantes. Os Roedores com Cavia(72), Mus
(3210), Rattus(263) e Oryctolagus(1959). Enquanto os primatas foram representados com os gêneros
Aotus (76) e Homo (7518).
A composição de grupos de aminoácidos com base na sua característica mais importante é
mostrada na figura 10, enquanto que o gráfico de barras cumulativo para os aminoácidos de cada
gênero pode ser visualizado na figura 11. Existem algumas variações entre os parâmetros dos
representantes dos modelos animais utilizados, de forma que algumas são significativas e outras não.
Estas propriedades significativas mostradas na figura 11 permitem identificar estes grupos como se
fossem assinaturas. Como a quantidade de dados é vasta foi usado MLR e DT. Estes métodos são
melhores nesta situação devido as suas versatilidades com matrizes e pouco gasto computacional
(Beisken et al., 2013).
65
Todos os coeficientes usados na MLR para os 14 modelos são mostrados na tabela 3. Cada
parâmetro usado nos modelos é visto como parte de uma equação, de forma que nesta o coeficiente é
o multiplicador que define a significância dos parâmetros. Cada variável nominal ou gênero é
transformada em uma variável numérica, resultado da combinação de vários parâmetros e
coeficientes definidos em uma função linear. Estes números são importantes, pois permitem mostrar
quais características são as mais influentes para descrever cada gênero, como mostrado na tabela 3.
O MLR apresentou um desempenho superior para dividir esses grupos em comparação com DT. Este
fato foi provavelmente causado pela complexidade da matriz para esses dados. A figura 12 mostra a
curva ROC para cada grupo modelado com a técnica MLR. Os valores de AUC são maiores do que
0.720 para a maioria dos grupos, entretanto os mais altos valores de AUC atingiram 0.830 para Canis
e 0.825 para Equus. Mus e Oryctolagus obtiveram os menores valores de AUC, com 0.652 e 0.625,
respectivamente, o que pode ter sido causado por uma série de razões, tais como a similaridade de
dados entre ambos os grupos. Estas características precisariam ser exploradas com mais detalhes, e
incluindo outros dados que não foram levados em conta neste trabalho, como informações
evolutivas, descritas por conservação de aminoácidos detalhadas por Lin (Lin et al., 2013). O valor
AUC destes modelos foi menor que do que o agrupamento feito para as famílias de proteínas do
antígeno no dataset metneu, mas ainda assim os resultados são promissores por que foram obtidos
valores de AUC superiores a 0.7. Este resultado representa também a primeira tentativa de classificar
epítopos baseado no origem dos anticorpos que os reconhecem.
66
Figura 10. Desenho de barras acumulativo para grupos de aminoácidos para cada gênero. No eixo X encontramos os
gêneros pertencentes ao origem dos anticorpos que foram usados para identificar os epítopos. No eixo Y se apresenta o
porcentagem dos aminoácidos de cada conjunto de epítopo para cada gênero. Nas caixas laterais direitas se mostra o cor
pertencente aos grupos de aminoácidos, carregados positivamente (RHK), negativamente(DE), sem carga(STNQ),
especiais(CGP) e hidrofóbicos(AVILMFYW) de baixo para cima.
É importante ressaltar que uma parte significativa dos dados utilizados para esta classificação
não são precisos como os dados obtidos manualmente (conjunto de dados metneu).). Estas limitações
são discutidas na literatura (Ponomarenko et al., 2007) mas também como resultado deste problema a
qualidade dos dados nos bancos de dados melhora gradualmente (Peters et al., 2005).
67
Figura 11. Desenho de barras acumulativo para grupos de aminoácidos para cada gênero. No eixo X encontramos os
gêneros pertencentes ao origem dos anticorpos que foram usados para identificar os epítopos. No eixo Y se apresenta
o porcentagem dos aminoácidos de cada conjunto de epítopo para cada gênero. Nas caixas laterais direitas se
mostram caixas com os aminoácidos correspondentes para cada cor.
Os epítopos extraídos da IEDB não foram verificados e validados como foi feito para o
conjunto de dados metneu em vista da quantidade de dados. Assim, este banco de dados pode conter
um serie de sequências classificadas como epítopos, mas que na realidade não, gerando uma serie de
dados falsos epítopos e interferindo na nossa analise. Para este banco de dados, apenas a redundância
foi removida usando scripts em Perl e Python, embora outros autores utilizam outras modificações
tais como conservação de aminoácidos, combinatórias de propriedades e métodos experimentais
(Singh et al. 2013). Singh reduziu a IEDB a um banco de dado contendo 1.300 epítopos e 1.300 nãoepítopos.
68
Entretanto, apesar desse possível erro no banco de dados (redundância), este fator
engrandecesse ainda mais os resultados apresentados nesta tese. Por que mesmo com o possível erro,
o efeito deles na classificação seria o de reduzir o desempenho em geral, o qual foi bom (superior a
0.7). Ou seja, hipoteticamente, sem esses possíveis erros os resultados deste trabalho teriam um
desempenho ainda maior do que o apresentado aqui.
Figura 12. Curva ROC para cada gênero usando MLR.
69
Tabela 3. Coeficientes para os parâmetros relevantes para o spliting baseado no tipo de animal imunizado.
70
5.4 Predição de Epítopos usando MLR e DT
BCPred é uma base de dados usada como referência para a predição de EpiLCB (Saha et al.,
2005). A maior quantidade de epítopos de células B existentes pertencem ao grupo de epítopos
conformacionais e possivelmente apenas 10% do total de epítopos são lineares (Rubinstein et al.,
2008). A vantagem de identificar EpiLCB consiste em sua utilização nas áreas de imunodiagnóstico
e imuno-ferramentas. O BCpred foi desafiado várias vezes nos últimos anos por vários modelos de
predição. Existem muitas variações sobre os dados usados para treinar esses algoritmos de predição
(Gao et al., 2012), que estão baseados nas propriedades já descritas (Zhang et al., 2012 (2)).
Acontece uma interessante discussão sobre como predizer corretamente os epítopos. As
razões para esta discussão tem como base a seleção de parâmetros, como a estrutura secundária (ElManzalawy et al., 2008) e propensões e estatísticas de aminoácidos (Subramanian e Chinnappan,
2013). Na maioria dos exemplos conhecidos são aplicados métodos computacionais interessantes,
tais como: SVM e redes neurais que mostram o seu melhor desempenho com dados complexos (Saha
and Raghava, 2006). O desafio aqui é identificar qual é o melhor método e forma de analisar os
dados biológicos, assim a maioria dos métodos conhecidos tem um desempenho de 0.8 AUC (Liu et
al., 2014). Um fato interessante é que cada método computacional altera o conjunto de dados para
obter os melhores resultados, mesmo quando alguns dados de epítopos podem ser falsos (Zarebski et
al., 2008, Vita et al., 2010). O resultado destas pesquisas é uma grande variedade de conjuntos de
dados diferentes e métodos que funcionam melhor com alguns dados, mas são ruins para outros
(Lian et al., 2015, Shen et al., 2015, Sela-Culang et al., 2015). Portanto, sobre este panorama nós
decidimos usar nossos melhores métodos de previsão, MLR e DT, para avaliar o poder de predição
sobre epítopos. Como conjunto de dados foi escolhido o BCPred, que é o mais utilizado (Saha et al.,
71
2005, El-Manzalawy et al., 2008, Gao et al., 2012). Em este, os epítopos são validados
experimentalmente e como controle negativo são usadas sequências aleatórias baseadas nas
estatísticas do banco de dados swissprot.
Os aminoácidos dos epítopos e falsos epítopos do conjunto de dados BCPred têm um maior
grau de similaridade do que os conjuntos de dados vistos anteriormente, mas ainda existem
diferenças significativas, tais como: Percentagem de prolina com 6.75% para epítopos positivos
experimentalmente e 4.67% para negativos; Leucina com 6.94% para positivos e 9.60% para
negativos; Fenilalanina, 3.04 e 4.05 para positivos e negativos, respectivamente (figura 13). Quando
examinadas as propriedades, como índice alifático, GRAVY e ponto isoelétrico, a diferença mais
relevante foi entre o índice de alifático (72 para positivos e 89 para negativos) e GRAVY (-0.25 para
negativo e -0.59 para positivos). Estas diferencias podem ser relativas ao conjunto de dados usado,
pelo que se espera uma variacao de um conjunto de dados para outro. Já o ponto isoelétrico ficou em
6.8 em média para ambos os grupos, sem mostrar variações significativas. Assim as diferenças
mostram a importância de um conjunto de dados bem descrito e também as variações que sofrem os
dados quando são outros antígenos os considerados (Blythe and Flower, 2005). Assim como visto na
literatura (Huang et al., 2007) alguns aminoácidos em epítopos se diferenciam de peptídeos
aleatórios, o problema radica em que estes variam dependendo do antígeno (Bremel and Homan,
2010).
72
Figura 13. Estatísticas dos aminoácidos para os epítopos e os não epítopos do conjunto de dados BCPred. Em preto, os
epítopos reais ou positivos e em cinza os não epítopos ou epítopos negativos.
Assim, o primeiro método avaliado foi MLR, que tem sido utilizado por Liu R., em 2011 para
outro conjunto de dados (Liu and Hu, 2011), com o valor de AUC 0.8 para um conjunto de dados
extraídos da PDB. Liu também combinou as estatísticas de aminoácidos com propriedades físicoquímicas semelhantes como as descritas por nós. Outros métodos (SVM), também combinam
propriedades resultando em valores de AUC de 0.8 para vários conjuntos de dados (Zhang et al.,
2012 (1)(2)).
A figura 14 mostra o desempenho em forma de curvas ROC para a predição de epítopos no
conjunto de dados BCPred, com tamanhos de 12aa a 30aa de comprimento. O método usado por nós
incluiu a combinação de todos os tamanhos de comprimento, desde 12aa até 30aa. Nosso modelo
tentou melhorar a predição aproveitando o efeito de “Ganho de Informação”. Esta estratégia ficou
sem sucesso para o modelo com MLR, mas os mesmos dados utilizando a metodologia DT resultou
73
em um desempenho com AUC de 0.966. Este resultado pertence a uma matriz conformada por todos
os tamanhos de epítopo, assim como indicado na figura 14. Este modelo mostrou ter o melhor
desempenho quando comparado com métodos descritos na literatura até o momento (Zhao et al.,
2010, Soria-Guerra et al., 2015). Como mencionado anteriormente, as propriedades mais relevantes
neste cenário foi o índice alifático, estatísticas de Prolina, fenilalanina e o índice de GRAVY.
Figura 14. Curva ROC para as predições com os diferentes modelos para os métodos MLR e a árvore de decisão (em
vermelho com AUC: 0.966). Em contraste os modelos para MLR não superarem o AUC:0.82. Cada tamanho e numero
de epítopos se encontra padronizado neste conjunto de dados (Saha et al., 2005)
74
Portanto, nesta etapa do projeto através das diferentes propriedades físico-químicas calculadas com
scripts em Perl e Python como descrito por Gasteiger e composição de aminoácidos como parâmetro
é possível decompor a sequência de antígenos e epítopos em uma matriz de dados. Logo, usando o
árvore de decisão conseguimos diferenciar epítopos e não epítopos dentro do conjunto de dados
BCpred. Os resultados aqui obtidos serviram de base para a implementação de um novo algoritmo de
identificação computacional de epítopos que além da determinação do epítopo estaria usando
informações importantes como famílias de proteínas e organismo de origem.
5.5
Mapeamento
experimental
e
computacional
de
epítopos
de
metaloproteases.
Com o objetivo de testar nossas metodologias de identificação computacional escolhemos
mapear as metaloproteases que são proteínas estudadas em nosso laboratório. Estas proteínas
pertencem ao grupo de snake venom metaloproteases (SVMPs), tipo P-Ia, significando que somente
possuem o domínio metaloproteinase, a diferencia das outras classes que incluem outros domínios
assim como desintegrina (P-II) e porção rica em cysteinas (P-III) (Figura 15) (Fox et al., 2008). Estes
detalhes são importantes por que nosso método de identificação para metaloproteases foi
desenvolvido com epítopos especialmente para este domínio protéico o que incrementa a
especificidade do método. Assim nos escolhemos usar as proteínas BaP1 (Bothrops asper), Atr-I
(Bothrops atrox) e Leu-a (Bothrops leucurus) para identificar os epítopos experimentais e
computacionais e compará-los entre si e frente aos métodos mais usados disponíveis na web
(Greenbaun et al., 2007).
75
Figura 15. Esquema mostrando os tipos de SVMPs classificados acorde seus domínios. Os símbolos "?" indicam que o a
molécula participante ainda não foi identificada. As SVMPs usadas em este trabalho encaixam no grupo P-Ia (A Figura
foi adaptada de Fox et al., 2008).
5.5.1 Mapeamento de epítopos pelo método de SPOT-synthesis
As proteínas BaP1, Leu-a e Atr-I foram mapeadas na busca de EpiLCB usando a metodologia
SPOT síntese como descrita na seção de métodos usando pentadecapeptídeos e octopeptídeos
sobrepostos por três resíduos cobrindo toda a sequência. Estas três proteínas foram sintetizadas na
mesma membrana e esta foi exposta a soros IgG produzidos em camundongos. Foram usados três
soros diferentes: Um soro IgG de camundongo anti-Atr-I altamente purificado (Schneider et al.,
2014); Um soro policlonal IgG de camundongo anti-BaP1 de B. asper e outro soro policlonal IgG de
camundongo anti-Leuc de B. leucurus. Estes soros foram testados contra a membrana contendo estas
76
proteínas. Portanto, foi possível mapear os peptídeos reconhecidos especificamente por cada soro
contra as respectivas SVMPs alvo e também os peptídeos que mostrarem reatividade cruzada. Esta
reatividade cruzada poderia ser causada pela similaridade destas proteínas que é até de 70% (Tabela
7). Assim a reatividade cruzada dos três soros foi avaliada frente a membrana contendo as três
proteínas. Cada ponto o SPOT representa um peptídeo assim como descrito na metodologia. Estes
pontos logo são avaliados manualmente atribuindo um valor de 0 até 5. Os SPOT de cor azul indicam
reatividade frente aos anticorpos enquanto os amarelos ou marrons e em branco não (Martens et al.,
1995, Frank et al., 1996). As diversas variações de coloração são causadas por vários fatores, idade
da membrana, estado de conservação dos peptídeos sintetizados (Kramer et al., 1999, Weiser et al.,
2005). Portanto um re-uso prolongado da membrana incrementa a possibilidade de erros nestas
anotações. Esta metodologia tem sendo utilizada com sucesso para mapear EpiLCB (Duarte et al.,
2010, Figueiredo et al., 2014). Os peptídeos correspondentes aos SPOTs de cor azul foram anotados
como reativos e considerados como epítopos experimentais. É importante ressaltar que o soro antiAtr-I somente mostro reatividade contra Atr-I de 15aa de longitude (SPOTs 1 até 9) e Atr-I de 8aa
em lugar de 15aa (SPOTs 10 até 15). Estes epítopos foram números do 1 até o 15 (Tabela 4). As
regiões identificadas na proteína Atr-I como epítopos identificados experimentalmente com soro
Anti-Atr-I se mostram na Figura 16 em azul. Estes SPOTs reativos para esta membrana se encontram
publicados em Schenider et al., 2016. Logo a membrana foi lavada e regenerada como indicado na
secção de métodos, e exposta logo contra soro Anti-BaP1, identificando assim outras regiões dentro
da sequência da Atr-I (Tabela 5) indicadas em cor laranja na Figura 16. Esta reatividade é chamada
de cruzada e é causada pela semelhança destas proteínas (Cohn 1953). Por ultimo a membrana foi
lavada e exposta contra o soro Anti-Leuc-a identificando regiões diferentes na Atr-I representadas
em amarelo (Figura 16).
77
Figura 16. Reatividade na membrana ligada mostrando a reatividade contra a sequência primaria da proteína Atr-I
exposta a anticorpos IgG purificados Anti-Atr-I produzidos em coelhos (línea azul). O soro Anti-BaP1 e Anti-Leuc-a
foram produzidos em camundongos estão representados por uma línea laranja e o soro Anti-Leuc-a por amarelo.
Tabela 4. Epítopos identificados por SPOT síntese usando o soro Anti-Atroxlysin-I
Na primeira coluna se indica o numero do epítopo. Na segunda se mostra a sequência de aminoácidos e na terceira a
proteína na qual pertence o epítopo.
78
Utilizando esta metodologia foi possível avaliar a proteína BaP1 de Bothrops asper frente a
os soros anti-Bap-I, Atr-I e Leuc-a (Figura 17.). Esta mostro reatividade contra os soros anti-Leuc-a e
anti-BaP1, indicando reatividade cruzada. Esta reatividade pode se dever a vários fatores como:
similaridade na composição dos epítopos, resíduos críticos iguais, semelhança com outros antígenos
expostos naturalmente no organismo onde o soro foi produzido entre outros. As sequências dos
epítopos identificados com este soro foram numerados como epítopos #16 até #24 dos quais, o
numero 16 pertencente a proteína Atr-I sintetizada com peptídeos de 8aa no lugar de 15aa. Os
números 17 e 18 pertencem na proteína Leuc-a. Os números 19 até 24 pertencem na proteína BaP1, a
qual é a proteína alvo do soro anti -veneno de B. asper. Entretanto os epítopos 16 ao 18 representam
a reatividade cruzada do soro. Estes epítopos se encontram listados na tabela 5.
Figura 17. Reatividade na membrana dos soros anti-Atr-I, anti-BaP1 e anti-Leuc-a contra a Proteina BaP1. As regiões
relativas a os soros anti-Leuc-a e anti-BaP1 estão representados por líneas amarela e laranja respectivamente. O soro antiAtr-I não mostro reatividade contra peptídeos referentes a esta proteína.
79
Tabela 5. Epítopos identificados por SPOT síntese usando o soro anti-BaP1
Na primeira coluna se indica o numero do epítopo. Na segunda se mostra a sequência de aminoácidos e na terceira a
proteína na qual pertence o epítopo.
A reatividade estes três soros anti- proteínas Atr-I, BaP1 e Leuc-a contra a proteína Leuc-a se
mostra na Figura 18. O maior numero de epítopos foi identificado com o soro anti-Leuc-a. Este soro
que mostro ser o mais reativo identificando 13 peptídeos de Atr-I, números 26 até 38. Na Leuc-a se
identifico 18 peptídeos, números 39 ao 56. Entretanto na proteína BaP1 foram 5 peptídeos
identificados como epítopos, números 57 até 61. Todas as sequências identificadas na membrana
(Fig.18) se mostram na tabela 6.
Todas estas regiões identificadas foram consideradas como o controle experimental positivo
ao momento de ser comparados com os resultados computacionais. É importante indicar que estes
resultados experimentais são parte de outros projetos do laboratório e principalmente da pesquisa
realizada sobre metaloproteases realizada pelo Francisco Santos (Schneider et al., 2012, 2015).
80
Figura 18. Reatividade na membrana dos soros anti-Atr-I, anti-BaP1 e anti-Leuc-a contra a Proteina Leuc-a. As regiões
relativas a os soros anti-Leuc-a e anti-BaP1 estão representados por líneas amarela e laranja respectivamente. O soro antiAtr-I não mostro reatividade contra peptídeos referentes a esta proteína.
A reatividade entre os soros anti-Leuc-a e anti-BaP1 poderia estar atribuída na similar
identidade que eles apresentam (78.22%) mas não explica por que são reativos com a proteína Atr-I
sendo que a similaridade é de 50% com Leuc-a e 55.45% com BaP1. Este resultado poderia estar
relacionado a tipo de animal imunizado, como mostrado anteriormente, anticorpos produzidos em
animais diferentes mostram diferencias nos epítopos que reconhecem (Gerdts et al., 2007). Assim, o
soro anti-Atr-I tinha sido produzido em coelho enquanto os soros anti-Leuc-a e anti-BaP1 foram
produzidos em camundongos. Outra variável que pode afetar o sucesso durante a produção de
anticorpos é a via de inoculação como demonstrado na literatura (Gerdts et al., 2001 Mutwiri et al.,
2002).
81
A tabela 7 mostra estas identidades entre as proteínas Atr-I, Leuc-a e BaP1, após de um
alinhamento entre elas mesmas usando o software ClustalW.
Tabela 6. Epítopos identificados em membrana usando soro anti-Leuc-a
Na primeira coluna se indica o numero do epítopo. Na segunda se mostra a sequência de aminoácidos e na terceira a
proteína na qual pertence o epítopo.
82
Tabela 7. Identidade entre as proteinase Atr-I, BaP1 e Leuc-a.
Estes resultados são interessantes por tratar-se da identificação de epítopos novos em um
grupo bem conhecido de enzimas de venenos (Fox et al., 2008). Mostramos aqui que alem destas
proteínas ser similares com um mínimo de 50% e um Maximo de 78%, possuem epítopos diferentes
em 1-2 aminoácidos mas em regiões similares, ressaltando a importância da conservação de
estruturas e possivelmente indicando resíduos críticos em comum. (Takeda et al., 2011).
5.5.2 Mapeamento computacional
Uma serie de modelos produzidos com a metodologia arvore de decisão foram criados e
avaliados utilizando validação cruzada e incluindo o uso do algoritmo SMOTE, como descrito na
metodologia (Chawla et al., 2002). O melhor modelo foi escolhido baseado em desempenho
(Performance), menor numero de falsos positivos e maior numero de verdadeiros positivos. Este
modelo foi inicialmente chamado de Labimq, em homenagem ao laboratório em que este trabalho
está sendo desenvolvido.
Os resultados dos valores estatísticos do modelo Labimq foram comparados com os índices
"gini" e precisão reduzida (decreased accuracy) do pacote Random Forest do software R (Tabela 8).
Estes resultados mostram as diferencias na importância das propriedades quando avaliadas
estatisticamente por modelos diferentes, similar ao observado na literatura (Greenbaun et al., 2007).
83
Os EpiLCB resultado da identificação computacional para a BaP1, Leu-a e Atr-I (Tabela 9) foram
comparados com a previsão de epítopos dos métodos Bepipred, ABCpred e TEPRF (Rubinstein et
al., 2008, Greenbaun et al., 2010). Estes resultados foram avaliados usando curvas ROC o que
permitiu identificar exatamente as vantagens e desvantagens destes métodos bioinformáticos (Tabela
10). Por consequência, podemos concluir que o Labimq foi superior aos outros métodos
computacionais por apresentar uma menor quantidade de resíduos de aminoácidos identificados
como falsos positivos (FPR ou False Positive Rate), e uma melhor precisão (Precision and
Accuracy) em comparação com os métodos ABCpred, TEPRF e Bepipred. Entre estes métodos, o
melhor desempenho Após o método Labimq pertence ao Bepipred (Larsen et al., 2006), o qual
mostro ter uma precisão (Accuracy) de 0.5655 com os parâmetros indicados pelo autor em
comparação com 0.6175 para Labimq. ABCpred (Saha et al., 2008) e TEPRF (Huang et al., 2014)
apresentarem valores de 0.4384 e 0.4972 o que é considerado um resultado similar a escolher
peptídeos como epítopos aleatoriamente.
Posteriormente foram testados todos os possíveis cutoffs para estes 4 algoritmos com o
objetivo de testar os limites destes programas maximizando a precisão (Precision) e AUC. Assim,
encontramos que quando maximizamos AUC o método ABCpred possui valores similares de
desempenho ao Bepipred mas ainda estes valores são menores aos mostrados pelo Labimq. Também
nosso método apresento o menor numero de falsos positivos (FPR) em comparação com os outros
algoritmos. A principal diferencia entre estes programas alem do tipo de técnica de mineração de
dados usada e o foco dos programas por que geralmente tentam achar todos os epítopos possíveis
reduzindo a precisão do método e acrescentando muitos falsos positivos.
84
Tabela 8. Descritores importantes para o modelo arvore de decisão em comparação com as pontuações obtidas para o
índice "gini" e "decreased accuracy" do pacote Random Forest em R.
85
Tabela 9. Epítopos identificados computacionalmente usando o método arvore de decisão Labimq.
Tabela 10. Resultados do analise das curvas ROC resultantes da comparação do modelo Labimq com os preditores
ABCpred, Bepipred e TEPRF. AUC indica área da curva. Accuracy– acurácia do método. TPR - Porcentagem de
verdadeiros positivos. FPR - Porcentagem de falsos positivos. Precision, - precisão do método . Specificity–
especificidade do método.
86
Para chegar nesses dados, o resultado da predição através do modelo Labimq foi comparado
com os resultados encontrados experimentalmente por SPOT. É interessante destacar que a maioria
dos epítopos identificados computacionalmente são os mesmos obtidos pela reatividade cruzada
entre estes soros no teste de SPOT. Essa informação é importante pois reforça a nossa hipótese das
que dentro de uma mesma famílias de proteínas seus epítopos possuem características parecidas e
por isso são bastante similares.A sobreposição dos resultados experimentais com respeito da resposta
da membrana com cada um dos soros testados se encontra na figura 19.
Figura 19. Esquema representando os epítopos identificados computacionalmente pelo modelo Labimq em comparação
com os soros Anti-Atr-I, Anti-BaP1 e Anti -Leuc-a. No eixo X encontramos o numero correspondente na posição dos
resíduos de aminoácidos. No eixo Y é o valor em porcentagem até 100% da resposta obtida pelos método experimental e
computacional. A mostra estas respostas para a proteínaBaP1. B mostra estas respostas para a Atr-I e C mostra estes
resultados para a proteína Leuc-a
87
Estes resultados são importantes por que mostram um incremento significativo na precisão da
identificação computacional quando o modelo se encontra baseado em um grupo restringido de
proteínas ou família de proteínas, similar a algumas pesquisas encontradas na literatura (Liu and Hu,
2011). Assim verificamos nossa hipótese e abrimos a possibilidade de redigir os esforços dos
métodos atuais de previsão de epítopos a incluir outros detalhes ainda não explorados como família
de proteína ou tipo de animal para imunizar.Em lugar de ter um modelo geral aplicável para todas as
proteínas, a melhor solução seria ter vários modelos que se ajustem melhor a grupos de proteínas
permitindo assim resultados mais confiáveis (Wilson e Andrews, 2012) .Também mostramos
algumas das limitações e variações das respostas imunes que também dificultam o processo de
identificação de epítopos, tanto experimentalmente como computacional as quais foram pouco
reportadas na literatura (Toseland et al., 2005).
5.5.3 Seleção de epítopos para síntese de peptídeos correspondentes e imunização.
Finalmente, o ultimo passo deste trabalho, foi verificar se um epítopo predito
computacionalmente pelo modelo Labimq seria realmente capaz de induzir a produção anticorpos
neutralizantes. Para isso, sintetizamos um epítopo predito computacionalmente e em seguida
produzirmos anticorpos policlonais que eram capaz de neutralizar a proteína de interesse, no caso, a
proteína a Atr-I (Sanchez et al., 2010). O EpiLCB predito contendo a sequência 9VDLFIVVDHGMFMKY-23, chamamos este epítopo de Computacionalmente Positivo e
Experimentalmente Negativo, ou CPEN. Ele recebe a denominação de experimentalmente negativo
devido a não te apresentado reatividade nos testes de SPOT (Figs. 16, 17 e 18.). o CPEN possui uma
massa molecular de 1814.19 e um pI de 5.21, valores confirmados com espectrometria de massas
(Figura 20).
88
Como
controle
negativo,
sintetizamos
uma
sequência
peptídica
da
Atr-1
(99LTSTDFNGPTIGLAY113) que quando testada experimentalmente na membrana SPOT
apresentou resultado negativo para todos os três soros e as previsões computacionais. Portanto foi
denominado Computacionalmente Negativo e Experimentalmente Negativo, ou CNEN. Logo da
síntese química dos dois peptídeos pelo método de FMOC sínteses como descrito neste trabalho,
realizamos a espectrometria de massas também descrito na metodologia para confirmar a massa dos
peptídeos e assim garantir que a sínteses foi bem efetuada. A figura 20 mostra os espectros de massas
correspondentes a estes peptídeos.
Após a sínteses e confirmação dos peptídeos, utilizamos esses para produzir um anticorpos
(anti-CPEN e anti-CNEN), com o intuído de avaliar efeito neutralizante hemorrágicos destes soros.
Estes foram produzidos em dois grupos de 5 camundongos cada. Os peptídeos foram injetados
usando lipossomas, os quais causam danos mínimos aos animais em comparação com técnicas que
requerem o uso de adjuvantes (Gomes et al., 2011). O titulo de reatividade dos anticorpos produzidos
foi avaliado após a terceira dose com a técnica de ELISA como descrito na seção de métodos. Após a
novena dose o reconhecimento da proteína Atr-I foi satisfatório com o soro anti-CPEN (próximo de
0.9 de absorbância a 490nm). No obstante a absorbância registrada para o CNEN se manteve menor
com valores em torno de 0.4, a diferencia do controle anti-liposoma que não mostro produção de
anticorpos contra a Atr-I. O controle positivo anti-Atr-I mostro o máximo de atividade contra a Atr-I
com valores próximos de 0.9 apos a terceira dose.
89
Figura 20. Espectro de massa indicando a pureza dos peptídeos CNEN (massa molecular de 1501.2) e CPEN (massa
molecular de 1814.1) Após a síntese.
90
5.5.4 Neutralização da Atr-I com anticorpos anti-VDLFIVVDHGMFMKY
Para a neutralização da Atr-I, foi usada como referencia 1 dose media hemorrágica (DMH)
da Atr-1 descrita em Schenider et al., (2015). Desta forma, quatro grupos de camundongos Swiss
foram utilizados no experimento injetados. O primeiro grupo foi injetado com o valor correspondente
a 1 DMH equivalente a 19μg de Atr-I de B. atrox dissolvido em 100μL de tampão PBS, como
controle positivo de hemorragia. O segundo grupo foi injetado com 1 DMH de Atr-I e 50μL de soro
Anti-CNEN dissolvido em 100μL de PBS. O terceiro grupo foi injetado com 1 DMH e 50μL de soro
Anti-CPEN dissolvido em 100μL de PBS e um quarto grupo foi injetado com 1 DMH e 50μL de
soro Pre-imune também dissolvido em 100μL de PBS. Após o protocolo os camundongos foram
sacrificados e a pele foi removida para ser avaliada a hemorragia (figura 21). A dose de 50μL de
soro Anti-CPEN foi suficiente para neutralizar a hemorragia prevenindo a formação do halohemorrágico como observado a figura 21-D. Como controle, a hemorragia referente a 1 DMH da
Atr-I (Figura 21-A)não é neutralizada pelo soro anti-CNEN (figura 21 B) ou soro pre-imune (figura
21C). Entretanto o 100% de hemorragia Após de 1 DMH com Atr-I é apreciável na figura 21.A, e
uma hemorragia um pouco menor foi visível respeito do soro anti-CNEN e pre-imune possivelmente
devido da interação destas moléculas com a Atr-I. Portanto, aqui nos reportamos a validação de um
peptídeo identificado como epítopo somente pelo nosso método Labimq, e que os anticorpos contra
este foram capazes de neutralizar a hemorragia causada pela Atr-I. Estes resultados são similares a os
obtidos com anticorpos monoclonais durante o desenvolvimento de um bio-sensor para neutralizar a
mesma proteína Atr-I (Scheinder et al., 2014).
91
Figura 21. Ensaio de Neutralização do efeito hemorrágico da Atr-1. Em A, controle positivo - Efeitos hemorrágicos da
enzima Atr-I. Em B, efeito anti-hemorrágico da Atr-1 que não é neutralizado com o uso do peptídeo CNEN. Em C, o
efeito anti-hemorrágico da Atr-1 não é neutralizado com o soro pre-imune. Em D,o efeito anti hemorrágico neutralizado
pelo soro anti-CPEN baseado no epítopo identificado computacionalmente pelo método Labimq.
Esta sucedida neutralização mostra que uma metodologia de produção de anticorpos baseado em
peptídeos é viável como demonstrado na literatura (Felicori et al., 2009, Ramada et al., 2013). Mas
também demonstramos que epítopos identificados computacionalmente podem ser tão viáveis quanto
epítopos identificados experimentalmente. As implicações no momento de desenhar a metodologia
na produção de soro são importantes, já múltiplos fatores afetam a efetividade dos epítopos e sua
identificação (Huang et al., 2015). Possivelmente os fatores como família do antígeno (Kozlova et
al., 2015), tipo de animal imunizado (Hein et al., 2003, Gerdts et al., 2007), via de imunização
92
(Gerdts et al., 2002, Ranasinghe et al., 2015) e tipo de adjuvante (Ranasinghe et al., 2014, Pasquale
et al., 2015) sejam fatores que precisam mais atenção para um refinamento maio das técnicas na
produção de anticorpos assim como da seguridade no seu uso (Stassijns et al., 2016, Trandrup et al.,
2016), qualidade neutralizante destes anticorpos (Levast et al., 2014, Poland et al., 2015).
5.6 Base de dados UML
Finalmente, com o objetivo de armazenar de forma eficiente e acessível os dados
deste projeto referente aos epítopos e suas propriedades, bem como de informações ligadas a eles, foi
desenhado uma base de dados. A figura 22 contêm a estrutura desta base de dados em linguagem
UML (Unified Modeling Language) da estrutura deste banco de dados, desenhada especialmente
para aceitar resultados de experimentos, estruturas e parâmetros de epítopos ou paratopos. Por
consequência o uso deste banco de dados através do servidor SSH (Secure Shell) facilito varias
pesquisas incluindo esta tese de doutorado de Benjamin Viart e o desenvolvimento do EPI-Peptide
designer (Viart et al., 2016). Este banco de dados também armazena as informações dos epítopos de
metaloproteases e neurotoxinas publicados em BMC Bionformatics através do congresso X-meeting
do ano 2014 (Kozlova et al., 2015).
93
Figura 22. Esquema UML da base de dados do laboratório.
94
6. Conclusão
Nesta tese, descrevemos o desenvolvimento de um algoritmo baseado em conjuntos de dados
capazes de identificar computacionalmente epítopos para células B dispostos linearmente na
seqüência do antígeno. Mostramos que os principais métodos de mineração de dados possuem
desempenhos similares, entretanto os dados de entrada e orientação dos modelos são ainda limitados.
A árvore de decisão que utilizamos permitiu o entendimento das propriedades físico-químicas. Estes
foram utilizados para classificar famílias de epítopos e discriminar de epítopos de não epítopos. Por
conseqüência foi possível encontrar padrões que asseguraram a separação de grupos de epítopos
baseados em famílias de proteínas e no tipo de animal usado para produzir anticorpos.
A árvore de decisão escolhida foi capaz de avaliar facilmente os descritores importantes
durante a classificação permitindo gerar modelos computacionais confiáveis estatisticamente.
Escolhemos focar o modelo e nosso trabalho em metaloproteases, uma vez que é um dos
grupos de proteínas relacionadas com a gravidade do envenenamento nos acidentes por serpentes.
Utilizamos as proteínas Atr-I, BaP1 e Leuc-a, cujos epítopos foram previamente identificados, pelo
método experimental de SPOT-Syntesis. Refinamos o modelo bioinformático Labimq, capaz de
identificar EpiLCB corretamente nestas três proteínas. Este algoritmo mostrou melhor desempenho
que outros mais usados disponíveis na web (ABCPred, Bepipred e TEPRF).
A proteína Atr-I foi escolhida para realizar a validação experimental de nosso algoritmo de
predição. Duas sequências da proteína foram escolhidas, um epítopo identificado somente pelo
método computacional e outra que não foi identificada como epítopo por nenhum método ate o
momento. Os correspondentes peptídeos foram sintetizados e usados para produzir anticorpos em
95
camundongos. Uma vez que os anticorpos anti-epítopo neutralizou a atividade hemorrágica da
proteína Atr-I, confirmamos a eficiência das previsões bioinformáticas.
O sucesso demonstrado durante a neutralização e eficácia de nossa metodologia
computacional é que esta pode ser usada em outros venenos ou enzimas das famílias metaloproteases
ou neurotoxinas.
7. Perspectivas
- Aprofundar a automatização desta metodologia e o refinamento dos dados, tornando
possível a filtragem de todas as famílias de proteínas ou grupos, assim como observado em Pfam
com o uso de clãs. O sucesso demonstrado durante a neutralização e eficácia de nossa metodologia
computacional é que esta pode ser usada em outros venenos ou enzimas das famílias metaloproteases
ou neurotoxinas.
- Explorar a possibilidade de usar os Clãs disponíveis em Pfam em cambio de famílias de
proteínas.
- Aumentar os esforços para fornecer estes métodos via web.
- Explorar as diferencias entre EpiLCB e epítopos conformacionais usando a sequência de
aminoácidos do antígeno.
- Desenhar um esquema de validação estatística de epítopos sobre um set de proteínas
hipotéticas baseado em estáticas extraídas a partir da literatura para incrementar o numero de mostras
permitindo assim resultados mais precisos.
96
Referências
Andrew H. Abbas, Abul K. Lichtman. Cellular and Molecular Immunology. 5th(1):3–14, 2005.
Alvarenga L1, Moreau V, Felicori L, Nguyen C, Duarte C, Chavez-Olortegui C, Molina F, MartinEauclaire MF, Granier C. Design of antibody-reactive peptides from discontinuous parts of scorpion
toxins. Vaccine. 2010 Jan 22;28(4):970-80. doi: 10.1016/j.vaccine.2009.10.135. Epub 2009 Dec 3.
Ansari HR1, Raghava GP. In silico models for B-cell epitope recognition and signaling. Methods
Mol Biol. 2013;993:129-38. doi: 10.1007/978-1-62703-342-8_9.
Arora S, Sharma S, Goel SK, Singh US: Effect of different adjuvants in equines for the production of
equine rabies immunoglobulin. Natl Med. J. India. 18, 289–289 (2005).
Atassi. M. Z., Azzazy H. M. and Highsmith. W. E. Phage display technology: clinical applications
and recent innovations. Clin. Biochem., 35(6):425–445, Sep 2002.
Baydogan MG1, Runger G, Tuv E.. A bag-of-features framework to classify time series. IEEE Trans
Pattern Anal Mach Intell. 2013 Nov;35(11):2796-802. doi: 10.1109/TPAMI.2013.72.
Beisken S1, Meinl T, Wiswedel B, de Figueiredo LF, Berthold M, Steinbeck C. KNIME-CDK:
Workflow-driven cheminformatics. BMC Bioinformatics. 2013 Aug 22;14:257. doi: 10.1186/14712105-14-257.
Berman H. M., Westbrook J., Feng Z., Gilliland G., Bhat T. N., Weissig H., Shindyalov I. N., and
Bourne P. E. The Protein Data Bank. Nucleic Acids Res., 28(1):235–242, Jan 2000.
Blythe M. J. and Flower. D. R. Benchmarking B cell epitope prediction: underperformance of
existing methods. Protein Sci., 14(1):246–248, Jan 2005.
Bourne PE. Ponomarenko JV. Antibody-protein interactions: benchmark datasets and prediction
tools evaluation. BMC Struct Biol., 2:7–64, Oct 2007.
Bremel RD1, Homan EJ. An integrated approach to epitope analysis I: Dimensional reduction,
visualization and prediction of MHC binding using amino acid principal components and regression
approaches. Immunome Res. 2010 Nov 2;6:7. doi: 10.1186/1745-7580-6-7.
Burnet. FM. A modification of Jerne’s theory of antibody.Australian Journal of Science, 20:67–69,
1957.
Caoili SE1. Benchmarking B-cell epitope prediction with quantitative dose-response data on
antipeptide antibodies: towards novel pharmaceutical product development. Biomed Res Int.
2014;2014:867905. doi: 10.1155/2014/867905. Epub 2014 May 11.
Carrasco Pro S, Sidney J, Paul S, Lindestam Arlehamn C, Weiskopf D, Peters B, Sette A. Automatic
Generation of Validated Specific Epitope Sets. J Immunol Res. 2015;2015:763461. doi:
10.1155/2015/763461. Epub 2015 Oct 19.
97
Chang HT1, Liu CH, Pai TW. Estimation and extraction of B-cell linear epitopes predicted by
mathematical morphology approaches. J Mol Recognit. 2008 Nov-Dec;21(6):431-41. doi:
10.1002/jmr.910.
Charles Norris Cochrane. Thucydides and the Science of History. Oxford University Press,
35(3):584–585, Apr 1929.
Chavez-Olortegui C1, Molina F, Granier C. Molecular basis for the cross-reactivity of antibodies
elicited by a natural anatoxin with alpha- and beta-toxins from the venom of Tityus serrulatus
scorpion. Mol Immunol. 2002 Mar;38(11):867-76.
Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP. SMOTE: Synthetic Minority Over-sampling
Technique. Journal of Artificial Intelligence Research 16 (2002) 321–3
Chen J1, Liu H, Yang J, Chou KC. Prediction of linear B-cell epitopes using amino acid pair
antigenicity scale.Amino Acids. 2007 Sep;33(3):423-8. Epub 2007 Jan 26.
Chen SW1, Van Regenmortel MH, Pellequer JL. Structure-activity relationships in peptide-antibody
complexes: implications for epitope prediction and development of synthetic peptide vaccines. Curr
Med Chem. 2009;16(8):953-64.
Cleveland DW, Fischer SG, Kirschner MW, Laemmli UK. Peptide mapping by limited proteolysis in
sodium dodecyl sulfate and analysis by gel electrophoresis. J Biol Chem. 1977 Feb 10;252(3):11026.
Cohn M. A note on the use of the antigen excess zone to reveal the existence of certain types of cross
reactions in unidentified mixtures of antigens. J Immunol. 1953 Mar;70(3):317-20.
Correia BE1, Ban YE, Holmes MA, Xu H, Ellingson K, Kraft Z, Carrico C, Boni E, Sather DN,
Zenobia C, Burke KY, Bradley-Hewitt T, Bruhn-Johannsen JF, Kalyuzhniy O, Baker D, Strong RK,
Stamatatos L, Schief WR. Computational design of epitope-scaffolds allows induction of antibodies
specific for a poorly immunogenic HIV vaccine epitope. Structure. 2010 Sep 8;18(9):1116-26. doi:
10.1016/j.str.2010.06.010.
Costa JG1, Faccendini PL, Sferco SJ, Lagier CM, Marcipar IS. Evaluation and comparison of the
ability of online available prediction programs to predict true linear B-cell epitopes. Protein Pept
Lett. 2013 Jun;20(6):724-30.
Davies DR, Sheriff S, Padlan EA. Antibody-antigen complexes. J Biol Chem. 1988 Aug
5;263(22):10541-4. Review. No abstract available.
Davydov I. a. I. and Tonevitski A. G. Linear B-cell epitope prediction. Mol. Biol. (Mosk.),
43(1):166–174, 2009.
Díaz P1, Malavé C2, Zerpa N2, Vázquez H3, D'Suze G1, Montero Y2, Castillo C2, Alagón A3,
Sevcik C4. IgY pharmacokinetics in rabbits: implications for IgY use as antivenoms. Toxicon. 2014
Nov;90:124-33. doi: 10.1016/j.toxicon.2014.07.021. Epub 2014 Aug 9.
98
Duarte CG1, Alvarenga LM, Dias-Lopes C, Machado-de-Avila RA, Nguyen C, Molina F, Granier C,
Chávez-Olórtegui C. In vivo protection against Tityus serrulatus scorpion venom by antibodies
raised against a discontinuous synthetic epitope. Vaccine. 2010 Feb 3;28(5):1168-76. doi:
10.1016/j.vaccine.2009.11.039. Epub 2009 Nov 28.
El-Manzalawy Y1, Dobbs D, Honavar V. Predicting linear B-cell epitopes using string kernels. J
Mol Recognit. 2008 Jul-Aug;21(4):243-55. doi: 10.1002/jmr.893.
El-Manzalawy Y1, Honavar V. Recent advances in B-cell epitope prediction methods. Immunome
Res. 2010 Nov 3;6 Suppl 2:S2. doi: 10.1186/1745-7580-6-S2-S2.
Emini EA, Perlow DS Boger J, Hughes JV. Induction of hepatitis A virus-neutralizing antibody by a
virus-specific synthetic peptide. J Virol., 55(3):836–839, 1985.
Fasman GD. Chou PY. Prediction of the secondary structure of proteins from their amino acid
sequence. Adv Enzymol Relat Areas Mol Biol., 47:45–148, 1978.
Felicori L1, Fernandes PB, Giusta MS, Duarte CG, Kalapothakis E, Nguyen C, Molina F, Granier C,
Chávez-Olórtegui C. An in vivo protective response against toxic effects of the dermonecrotic
protein from Loxosceles intermedia spider venom elicited by synthetic epitopes. Vaccine. 2009 Jun
24;27(31):4201-8. doi: 10.1016/j.vaccine.2009.04.038. Epub 2009 May 3.
Figueiredo LF1, Dias-Lopes C2, Alvarenga LM3, Mendes TM2, Machado-de-Ávila RA2,
McCormack J4, Minozzo JC5, Kalapothakis E6, Chávez-Olórtegui C7. Innovative immunization
protocols using chimeric recombinant protein for the production of polyspecific loxoscelic
antivenom in horses. Toxicon. 2014 Aug;86:59-67. doi: 10.1016/j.toxicon.2014.05.007. Epub 2014
May 28.
Finn RD1, Coggill P2, Eberhardt RY3, Eddy SR4, Mistry J2, Mitchell AL2, Potter SC2, Punta M5,
Qureshi M2, Sangrador-Vegas A2, Salazar GA2, Tate J3, Bateman A2. The Pfam protein families
database: towards a more sustainable future. Nucleic Acids Res. 2016 Jan 4;44(D1):D279-85. doi:
10.1093/nar/gkv1344. Epub 2015 Dec 15.
Fox JW1, Serrano SM. Insights into and speculations about snake venom metalloproteinase (SVMP)
synthesis, folding and disulfide bond formation and their contribution to venom complexity. FEBS J.
2008 Jun;275(12):3016-30. doi: 10.1111/j.1742-4658.2008.06466.x. Epub 2008 May 8.
Frank R1, Overwin H. SPOT synthesis. Epitope analysis with arrays of synthetic peptides prepared
on cellulose membranes. Methods Mol Biol. 1996;66:149-69.
Frank R1. The SPOT-synthesis technique. Synthetic peptide arrays on membrane supports-principles and applications. J Immunol Methods. 2002 Sep 1;267(1):13-26.
Gao J1, Faraggi E, Zhou Y, Ruan J, Kurgan L. BEST: improved prediction of B-cell epitopes from
antigen sequences. PLoS One. 2012;7(6):e40104. doi: 10.1371/journal.pone.0040104. Epub 2012
Jun 27.
99
Garnier J, Osguthorpe DJ, Robson B. Analysis of the accuracy and implications of simple methods
for predicting the secondary structure of globular proteins. J Mol Biol. 1978 Mar 25;120(1):97-120.
Gasteiger E., Hoogland C., Gattiker A., Duvaud S., Wilkins M.R., Appel R.D., Bairoch A.; Protein
Identification and Analysis Tools on the ExPASy Server;(In) John M. Walker (ed): The Proteomics
Protocols Handbook, Humana Press (2005). pp. 571-607
Gerdts V, Snider M, Brownlie R, Babiuk LA, Griebel PJ: Oral DNA immunization in utero induces
mucosal immunity and immune memory in the neonate. J. Immunology 168, 1877–1885 (2002).
Gerdts V.; Sylvia van Drunen Littel-van den Hurk; Philip J Griebel; Lorne A Babiuk. Use of Animal
Models in the Development of Human Vaccines. Disclosures Future Microbiol. 2007;2(6):667-675.
Geysen HM, Rodda SJ, Mason TJ. The delineation of peptides able to mimic assembled epitopes.
Ciba Found Symp. 1986;119:130-49.
Gomara MJ, Haro I. Synthetic peptides for the immunodiagnosis of human diseases. Curr Med Chem
14(5):531–546. 2007.
Gomes MT1, Guimarães G, Frézard F, Kalapothakis E, Minozzo JC, Chaim OM, Veiga SS, Oliveira
SC, Chávez-Olórtegui C. Determination of sphingomyelinase-D activity of Loxosceles venoms in
sphingomyelin/cholesterol liposomes containing horseradish peroxidase. Toxicon. 2011 Mar
15;57(4):574-9. doi: 10.1016/j.toxicon.2011.01.001. Epub 2011 Jan 12.
Greenbaum JA Emami H Hoof I Salimi N Damle R Sette A Peters B. Vita R, Zarebski L. The
immune epitope database 2.0. Nucleic Acids Res., D:854–862, Nov 2010.
Greenbaum JA1, Andersen PH, Blythe M, Bui HH, Cachau RE, Crowe J, Davies M, Kolaskar AS,
Lund O, Morrison S, Mumey B, Ofran Y, Pellequer JL, Pinilla C, Ponomarenko JV, Raghava GP,
van Regenmortel MH, Roggen EL, Sette A, Schlessinger A, Sollner J, Zand M, Peters B. Towards a
consensus on datasets and evaluation metrics for developing B-cell epitope prediction tools. J Mol
Recognit. 2007 Mar-Apr;20(2):75-82.
Haste Andersen P1, Nielsen M, Lund O. Prediction of residues in discontinuous B-cell epitopes
using protein 3D structures. Protein Sci. 2006 Nov;15(11):2558-67. Epub 2006 Sep 25.
Hein WR, Griebel PJ: A road less travelled: large animal models in immunological research. Nature
Reviews - Immunology 3, 7–14 (2003).
Heinig M1, Frishman D. STRIDE: a web server for secondary structure assignment from known
atomic coordinates of proteins. Nucleic Acids Res. 2004 Jul 1;32(Web Server issue):W500-2.
Hopp TP, Woods KR. Prediction of protein antigenic determinants from amino acid sequences. Proc
Natl Acad Sci U S A. 1981 Jun;78(6):3824-8.
Houtao Deng, George Runger, and Eugene Tuv. Bias of importance measures for multi-valued
attributes and solutions. Lecture Notes in Computer Science, 6792:293–300, 2011.
100
Huai Y1,2, Dong S1, Zhu Y2, Li X2, Cao B2, Gao X1, Yang M3, Wang L1, Mao C2,4. Genetically
Engineered Virus Nanofibers as an Efficient Vaccine for Preventing Fungal Infection.Adv Healthc
Mater. 2016 Apr;5(7):786-94. doi: 10.1002/adhm.201500930. Epub 2016 Feb 18.
Huang J1, Honda W, Kanehisa M. Predicting B cell epitope residues with network topology based
amino acid indices. Genome Inform. 2007;19:40-9.
Huang JH1, Wen M1, Tang LJ2, Xie HL3, Fu L3, Liang YZ4, Lu HM5. Using random forest to
classify linear B-cell epitopes based on amino acid properties and molecular features. Biochimie.
2014 Aug;103:1-6. doi: 10.1016/j.biochi.2014.03.016. Epub 2014 Apr 8.
Huang WL, Tsai MJ, Hsu KT, Wang JR, Chen YH, Ho SY. Prediction of linear B-cell epitopes of
hepatitis C virus for vaccine development. BMC Med Genomics. 2015;8 Suppl 4:S3. doi:
10.1186/1755-8794-8-S4-S3. Epub 2015 Dec 9.
Hunter J. A treatise on the blood, inflammation, and gun-shot wounds. 1794. Clin Orthop Relat Res.
2007 May;458:27-34.
Jameson BA, Wolf H (1988): The antigenic index: a novel algorithm for predicting antigenic
determinants. Comput Appl Biosci 4(1):181–186.
Janin J1, Chothia C. The structure of protein-protein recognition sites. J Biol Chem. 1990 Sep
25;265(27):16027-30.
Jemmerson R, Paterson Y. Mapping epitopes on a protein antigen by the proteolysis of antigenantibody complexes. Science. 1986 May 23;232(4753):1001-4.
Jerne NK. The natural-selection theory of antibody formation.Proceedings of the National Academy
of Sciences, 41:849–857, 1955.
Jones S1, Thornton JM. Principles of protein-protein interactions. Proc Natl Acad Sci U S A. 1996
Jan 9;93(1):13-20.
Juhász A1, Haraszi R2, Maulis C3. ProPepper: a curated database for identification and analysis of
peptide and immune-responsive epitope composition of cereal grain protein families. Database
(Oxford). 2015 Oct 8;2015. pii: bav100. doi: 10.1093/database/bav100. Print 2015.
Kam YW1, Lee WW2, Simarmata D1, Le Grand R3, Tolou H4, Merits A5, Roques P3, Ng LF6.
Unique epitopes recognized by antibodies induced in Chikungunya virus-infected non-human
primates: implications for the study of immunopathology and vaccine development. PLoS One. 2014
Apr 22;9(4):e95647. doi: 10.1371/journal.pone.0095647. eCollection 2014.
Karplus M, McCammon JA. The dynamics of proteins. Sci Am. 1986 Apr;254(4):42-51.
Keskin O1, Ma B, Rogale K, Gunasekaran K, Nussinov R. Protein-protein interactions: organization,
cooperativity and mapping in a bottom-up Systems Biology approach. Phys Biol. 2005 Jun;2(2):S2435.
101
Kim Y, Sidney J, Buus S, Sette A, Nielsen M, Peters B1. Dataset size and composition impact the
reliability of performance benchmarks for peptide-MHC binding predictions. BMC Bioinformatics.
2014 Jul 14;15:241. doi: 10.1186/1471-2105-15-241.
Kolaskar AS1, Tongaonkar PC.Kolaskar AS1, Tongaonkar PC. A semi-empirical method for
prediction of antigenic determinants on protein antigens. FEBS Lett. 1990 Dec 10;276(1-2):172-4.
Korber B1, LaBute M, Yusim K. Immunoinformatics comes of age. PLoS Comput Biol. 2006 Jun
30;2(6):e71.
Kozlova E, Viart B, de Avila R, Felicori L, Chavez-Olortegui C. Classification epitopes in groups
based on their protein family. BMC Bioinformatics. 2015;16 Suppl 19:S7. doi: 10.1186/1471-210516-S19-S7. Epub 2015 Dec 16.
Kramer A1, Reineke U, Dong L, Hoffmann B, Hoffmüller U, Winkler D, Volkmer-Engert R,
Schneider-Mergener J. Spot synthesis: observations and optimizations. J Pept Res. 1999
Oct;54(4):319-27.
Kringelum JV1, Lundegaard C, Lund O, Nielsen M. Reliable B cell epitope predictions: impacts of
method development and improved benchmarking.PLoS Comput Biol. 2012;8(12):e1002829. doi:
10.1371/journal.pcbi.1002829. Epub 2012 Dec 27.
Kuiken C, Yusim K, Boykin L, Richardson R. The Los Alamos hepatitis C sequence database.
Bioinformatics. 2005 Feb 1;21(3):379-84. Epub 2004 Sep 17.
Kulkarni-Kale U1, Bhosle S, Kolaskar AS. CEP: a conformational epitope prediction server. Nucleic
Acids Res. 2005 Jul 1;33(Web Server issue):W168-71.
Kullback, S.; Leibler, R.A. (1951). "On information and sufficiency". Annals of Mathematical
Statistics 22 (1): 79–86. doi:10.1214/aoms/1177729694. MR 39968
Kunik V., Ofran Y. The indistinguishability of epitopes from protein surface is explained by the
distinct binding preferences of each of the six antigen-binding loops. Protein Eng Des Sel.,
26(10):599–609, Oct 2013.
Kurosaki T. Regulation of B cell fates by BCR signaling components. Curr Opin Immunol. 2002
Jun;14(3):341-7.
Kurosaki T. Regulation of B-cell signal transduction by adaptor proteins. Nat. Rev. Immunol.,
2(5):354–363, May 2002. CW.
Larché M1, Wraith DC. Peptide-based therapeutic vaccines for allergic and autoimmune diseases.
Nat Med. 2005 Apr;11(4 Suppl):S69-76.
Larsen JE1, Lund O, Nielsen M. Improved method for predicting linear B-cell epitopes. Immunome
Res. 2006 Apr 24;2:2.
Leinikki P1, Lehtinen M, Hyöty H, Parkkonen P, Kantanen ML, Hakulinen J. Synthetic peptides as
diagnostic tools in virology. Adv Virus Res. 1993;42:149-86.
102
Levast B1, Awate S2, Babiuk L3, Mutwiri G4,5, Gerdts V6,7, van Drunen Littel-van den Hurk S8,9.
Vaccine Potentiation by Combination Adjuvants. Vaccines (Basel). 2014 Apr 14;2(2):297-322. doi:
10.3390/vaccines2020297.
Lian Y1, Huang ZC2, Ge M3, Pan XM1. An Improved Method for Predicting Linear B-cell Epitope
Using Deep Maxout Networks. Biomed Environ Sci. 2015 Jun;28(6):460-3. doi:
10.3967/bes2015.065.
Lin SY1, Cheng CW, Su EC. Prediction of B-cell epitopes using evolutionary information and
propensity scales. BMC Bioinformatics. 2013;14 Suppl 2:S10.
Liu J1, Zhang W. Databases for B-cell epitopes. Methods Mol Biol. 2014;1184:135-48. doi:
10.1007/978-1-4939-1115-8_7.
Liu R1, Hu J. Computational prediction of heme-binding residues by exploiting residue interaction
network. PLoS One. 2011;6(10):e25560. doi: 10.1371/journal.pone.0025560. Epub 2011 Oct 3.
Luštrek M1, Lorenz P, Kreutzer M, Qian Z, Steinbeck F, Wu D, Born N, Ziems B, Hecker M, Blank
M, Shoenfeld Y, Cao Z, Glocker MO, Li Y, Fuellen G, Thiesen HJ. Epitope predictions indicate the
presence of two distinct types of epitope-antibody-reactivities determined by epitope profiling of
intravenous
immunoglobulins.
PLoS
One.
2013
Nov
11;8(11):e78605.
doi:
10.1371/journal.pone.0078605. eCollection 2013.
Machado de Avila RA1, Stransky S, Velloso M, Castanheira P, Schneider FS, Kalapothakis E,
Sanchez EF, Nguyen C, Molina F, Granier C, Chávez-Olórtegui C. Mimotopes of mutalysin-II from
Lachesis muta snake venom induce hemorrhage inhibitory antibodies upon vaccination of rabbits.
Peptides. 2011 Aug;32(8):1640-6. doi: 10.1016/j.peptides.2011.06.028. Epub 2011 Jul 6.
Malito E1, Rappuoli R. Finding epitopes with computers. Chem Biol. 2013 Oct 24;20(10):1205-6.
doi: 10.1016/j.chembiol.2013.10.002.
Martens W1, Greiser-Wilke I, Harder TC, Dittmar K, Frank R, Orvell C, Moennig V, Liess B. Spot
synthesis of overlapping peptides on paper membrane supports enables the identification of linear
monoclonal antibody binding determinants on morbillivirus phosphoproteins. Vet Microbiol. 1995
May;44(2-4):289-98.
Montañez MI1, Mayorga C, Torres MJ, Blanca M, Perez-Inestrosa E. Methodologies to anchor
dendrimeric nanoconjugates to solid phase: toward an efficient in vitro detection of allergy to ?lactam antibiotics. Nanomedicine. 2011 Dec;7(6):682-5. doi: 10.1016/j.nano.2011.07.008. Epub
2011 Aug 10.
Mullaney BP1, Pallavicini MG. Protein-protein interactions in hematology and phage display. Exp
Hematol. 2001 Oct;29(10):1136-46.
Nielsen M1, Lund O, Buus S, Lundegaard C. MHC class II epitope predictive algorithms.
Immunology. 2010 Jul;130(3):319-28. doi: 10.1111/j.1365-2567.2010.03268.x. Epub 2010 Apr 12.
103
Nielsen M1,2, Marcatili P3. Prediction of Antibody Epitopes. Methods Mol Biol. 2015;1348:23-32.
doi: 10.1007/978-1-4939-2999-3_4.
Nielsen M1,2, Marcatili P3RD. An integrated approach to epitope analysis I: Dimensional reduction,
Novotny J, Handschumacher M, Haber E, Bruccoleri RE, Carlson WB, Fanning DW, Smith JA,
Rose GD (1986): Antigenic determinants in proteins coincide with surface regions accessible to large
probes (antibody domains). Proc Natl Acad Sci USA 83(2):226–230.
Odorico M, Pellequer JL (2003): BEPITOPE: predicting the location of continuous epitopes and
patterns in proteins. J Mol Recognit 16(1):20–22.
Ofek G1, Guenaga FJ, Schief WR, Skinner J, Baker D, Wyatt R, Kwong PD. Elicitation of structurespecific antibodies by epitope scaffolds. Proc Natl Acad Sci U S A. 2010 Oct 19;107(42):17880-7.
doi: 10.1073/pnas.1004728107. Epub 2010 Sep 27.
Olortegui, C. C.; Amara, D.A.; Rochat, H.; Diniz, C. In vivo protection against scorpion toxins by
liposomal immunization. Vaccine, n9, v.12, p. 907-910, 1991.
Oomen CJ1, Hoogerhout P, Bonvin AM, Kuipers B, Brugghe H, Timmermans H, Haseley SR, van
Alphen L, Gros P. Immunogenicity of peptide-vaccine candidates predicted by molecular dynamics
simulations. J Mol Biol. 2003 May 16;328(5):1083-9.
Parker CW, Osterland CK. Hydrophobic binding sites on immunoglobulins. Biochemistry. 1970 Mar
3;9(5):1074-82.
Parker JM, Guo D, Hodges RS. New hydrophilicity scale derived from high-performance liquid
chromatography peptide retention data: correlation of predicted surface residues with antigenicity
and X-ray-derived accessible sites. Biochemistry. 1986 Sep 23;25(19):5425-32.
Parren PW1, Poignard P, Ditzel HJ, Williamson RA, Burton DR. Antibodies in human infectious
disease. Immunol Res, 21(2-3):265–278, 2000.
Pasquale AD1, Preiss S2, Silva FT3, Garçon N4. Vaccine Adjuvants: from 1920 to 2015 and
Beyond. Vaccines (Basel). 2015 Apr 16;3(2):320-43. doi: 10.3390/vaccines3020320.
Pasteur L: Methode pour prevenir la rage après morsure. C.R. Acad. Sci. 51, 765–773 (1885). ••
Original references by Pasteur formed the basis for the concept of vaccination.
Patel VL1, Shortliffe EH, Stefanelli M, Szolovits P, Berthold MR, Bellazzi R, Abu-Hanna A. The
coming of age of artificial intelligence in medicine. Artif Intell Med. 2009 May;46(1):5-17. doi:
10.1016/j.artmed.2008.07.017. Epub 2008 Sep 13.
Pellequer JL1, Westhof E, Van Regenmortel MH. Correlation between the location of antigenic sites
and the prediction of turns in proteins. Immunol Lett. 1993 Apr;36(1):83-99.
Pellequer JL1, Westhof E. PREDITOP: a program for antigenicity prediction. J Mol Graph. 1993
Sep;11(3):204-10, 191-2.
104
Peters B, Sidney J, Bourne P, Bui HH, Buus S, Doh G, Fleri W, Kronenberg M, Kubo R, Lund O,
Nemazee D, Ponomarenko JV, Sathiamurthy M, Schoenberger S, Stewart S, Surko P, Way S, Wilson
S, Sette A. "The Design and Implementation of the Immune Epitope Data Base and Analysis
Resource". Immunogenetics. 2005 Jun;57(5):326-36. Epub 2005 May 14.
Poland GA1, Whitaker JA2, Poland CM3, Ovsyannikova IG4, Kennedy RB4. Vaccinology in the
third millennium: scientific and social challenges. Curr Opin Virol. 2016 Mar 30;17:116-125. doi:
10.1016/j.coviro.2016.03.003. [Epub ahead of print]
Ponomarenko JV1, Bourne PE. Antibody-protein interactions: benchmark datasets and prediction
tools evaluation. BMC Struct Biol. 2007 Oct 2;7:64.
Punta M1, Coggill PC, Eberhardt RY, Mistry J, Tate J, Boursnell C, Pang N, Forslund K, Ceric G,
Clements J, Heger A, Holm L, Sonnhammer EL, Eddy SR, Bateman A, Finn RD. The Pfam protein
families database. Nucleic Acids Res. 2012 Jan;40(Database issue):D290-301. doi:
10.1093/nar/gkr1065. Epub 2011 Nov 29.
R Development Core Team (2008). R: A language and environment for statistical computing. R
Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.Rproject.org.
Ramada JS1, Becker-Finco A, Minozzo JC, Felicori LF, Machado de Avila RA, Molina F, Nguyen
C, de Moura J, Chávez-Olórtegui C, Alvarenga LM Synthetic peptides for in vitro evaluation of the
neutralizing potency of Loxosceles antivenoms. Toxicon. 2013 Oct;73:47-55. doi:
10.1016/j.toxicon.2013.07.007. Epub 2013 Jul 13.
Ranasinghe C1. New advances in mucosal vaccination. Immunol Lett. 2014 Oct;161(2):204-6. doi:
10.1016/j.imlet.2014.01.006. Epub 2014 Jan 21.
Reimer U1. Prediction of linear B-cell epitopes. Methods Mol Biol. 2009;524:335-44. doi:
10.1007/978-1-59745-450-6_24.
Rocha N, and J Neefles. MHC class II molecules on the move for successful antigen presentation.
EMBO Iournal 27:l-5,2008.
Rubinstein ND1, Mayrose I, Halperin D, Yekutieli D, Gershoni JM, Pupko T. Computational
characterization of B-cell epitopes. Mol Immunol. 2008 Jul;45(12):3477-89. Epub 2007 Nov 26.
Saha S1, Bhasin M, Raghava GP. Bcipep: a database of B-cell epitopes. BMC Genomics. 2005 May
29;6:79.
Saha S1, Raghava GP. Prediction of continuous B-cell epitopes in an antigen using recurrent neural
network. Proteins. 2006 Oct 1;65(1):40-8.
Sanchez EF1, Schneider FS, Yarleque A, Borges MH, Richardson M, Figueiredo SG, Evangelista
KS, Eble JA. The novel metalloproteinase atroxlysin-I from Peruvian Bothrops atrox (Jergón) snake
venom acts both on blood vessel ECM and platelets. Arch Biochem Biophys. 2010 Apr 1;496(1):920. doi: 10.1016/j.abb.2010.01.010. Epub 2010 Jan 25.
105
Saxon, W. Robert A. Good, 81, Founder Of Modern Immunology, Dies. The New York Times. June
18, 2003.
Scalia CR1, Gendusa R1, Basciu M1, Riva L1, Tusa L1, Musarò A1, Veronese S1, Formenti A1,
D'Angelo D1, Ronzio AG1, Cattoretti G2, Bolognesi MM1. Epitope recognition in the human-pig
comparison model on fixed and embedded material. J Histochem Cytochem. 2015 Oct;63(10):80522. doi: 10.1369/0022155415597738. Epub 2015 Jul 24.
Schneider FS1, de Almeida Lima S2, Reis de Ávila G2, Castro KL2, Guerra-Duarte C2, Sanchez
EF3, Nguyen C4, Granier C4, Molina F4, Chávez-Olortegui C5. Identification of protective B-cell
epitopes of Atroxlysin-I: A metalloproteinase from Bothrops atrox snake venom. Vaccine. 2016 Mar
29;34(14):1680-7. doi: 10.1016/j.vaccine.2016.02.035. Epub 2016 Feb 23.
Schneider FS1, Nguyen DL2, Castro KL1, Cobo S2, Machado de Avila RA1, Ferreira Nde A1,
Sanchez EF3, Nguyen C2, Granier C2, Galéa P2, Chávez-Olortegui C1, Molina F2. Use of a
synthetic biosensor for neutralizing activity-biased selection of monoclonal antibodies against
atroxlysin-I, an hemorrhagic metalloproteinase from Bothrops atrox snake venom. PLoS Negl Trop
Dis. 2014 Apr 24;8(4):e2826. doi: 10.1371/journal.pntd.0002826. eCollection 2014.
Schunk MK1, Macallum GE. Applications and optimization of immunization procedures. ILAR J.
2005;46(3):241-57.
Sela-Culang I1, Ofran Y1, Peters B2. Antibody specific epitope prediction-emergence of a new
paradigm. Curr Opin Virol. 2015 Apr;11:98-102. doi: 10.1016/j.coviro.2015.03.012. Epub 2015 Mar
31.
Shen W1, Cao Y2, Cha L3, Zhang X4, Ying X3, Zhang W1, Ge K5, Li W3, Zhong L4. Predicting
linear B-cell epitopes using amino acid anchoring pair composition. BioData Min. 2015 Apr 29;8:14.
doi: 10.1186/s13040-015-0047-3. eCollection 2015.
Sheshberadaran H1, Payne LG. Protein antigen-monoclonal antibody contact sites investigated by
limited proteolysis of monoclonal antibody-bound antigen: protein "footprinting". Proc Natl Acad
Sci U S A. 1988 Jan;85(1):1-5.
Silverstein AM. A History of Immunology.Academic Press, San Diego, 1989.
Singh H1, Ansari HR, Raghava GP. Improved method for linear B-cell epitope prediction using
antigen's
primary
sequence.
PLoS
One.
2013
May
7;8(5):e62216.
doi:
10.1371/journal.pone.0062216. Print 2013.
Singh SP1, Mishra BN2. Major histocompatibility complex linked databases and prediction tools for
designing vaccines. Hum Immunol. 2016 Mar;77(3):295-306. doi: 10.1016/j.humimm.2015.11.012.
Epub 2015 Nov 14.
Sivalingam GN1, Shepherd AJ. An analysis of B-cell epitope discontinuity. Mol Immunol. 2012
Jul;51(3-4):304-9. doi: 10.1016/j.molimm.2012.03.030. Epub 2012 Apr 20.
Smith GP. Filamentous fusion phage: novel expression vectors that display cloned antigens on the
virion surface. Science. 1985 Jun 14;228(4705):1315-7.
106
Sollner J, Mayer B (2006): Machine learning approaches for prediction of linear B-cell epitopes on
proteins. J Mol Recognit 19(3):200–208.
Söllner J1. Selection and combination of machine learning classifiers for prediction of linear B-cell
epitopes on proteins. J Mol Recognit. 2006 May-Jun;19(3):209-14.
Soria-Guerra RE1, Nieto-Gomez R2, Govea-Alonso DO2, Rosales-Mendoza S3. An overview of
bioinformatics tools for epitope prediction: implications on vaccine development. J Biomed Inform.
2015 Feb;53:405-14. doi: 10.1016/j.jbi.2014.11.003. Epub 2014 Nov 10.
Stassijns J1, Bollaerts K1, Baay M1, Verstraeten T2. A systematic review and meta-analysis on the
safety of newly adjuvanted vaccines among children. Vaccine. 2016 Feb 3;34(6):714-22. doi:
10.1016/j.vaccine.2015.12.024. Epub 2015 Dec 28.
Steeland S1, Vandenbroucke RE1, Libert C2. Nanobodies as therapeutics: big opportunities for small
antibodies. Drug Discov Today. 2016 Apr 11. pii: S1359-6446(16)30107-6. doi:
10.1016/j.drudis.2016.04.003. [Epub ahead of print]
Subramanian N1, Chinnappan S. Prediction of promiscuous epitopes in the e6 protein of three high
risk human papilloma viruses: a computational approach. Asian Pac J Cancer Prev. 2013;14(7):416775.
Sun P1, Ju H, Liu Z, Ning Q, Zhang J, Zhao X, Huang Y, Ma Z, Li Y. Bioinformatics resources and
tools for conformational B-cell epitope prediction. Comput Math Methods Med. 2013;2013:943636.
doi: 10.1155/2013/943636. Epub 2013 Jul 21.
Sundaram R1, Lynch MP, Rawale SV, Sun Y, Kazanji M, Kaumaya PT. De novo design of peptide
immunogens that mimic the coiled coil region of human T-cell leukemia virus type-1 glycoprotein
21 transmembrane subunit for induction of native protein reactive neutralizing antibodies. J Biol
Chem. 2004 Jun 4;279(23):24141-51. Epub 2004 Apr 1.
Takeda S1, Takeya H, Iwanaga S. Snake venom metalloproteinases: structure, function and
relevance to the mammalian ADAM/ADAMTS family proteins. Biochim Biophys Acta. 2012
Jan;1824(1):164-76. doi: 10.1016/j.bbapap.2011.04.009. Epub 2011 Apr 20.
Tandrup Schmidt S1,2, Foged C3, Korsholm KS4, Rades T5, Christensen D6. Liposome-Based
Adjuvants for Subunit Vaccines: Formulation Strategies for Subunit Antigens and
Immunostimulators. Pharmaceutics. 2016 Mar 10;8(1). pii: E7. doi: 10.3390/pharmaceutics8010007.
Toseland CP1, Clayton DJ, McSparron H, Hemsley SL, Blythe MJ, Paine K, Doytchinova IA, Guan
P, Hattotuwagama CK, Flower DR. AntiJen: a quantitative immunology database integrating
functional, thermodynamic, kinetic, biophysical, and cellular data. Immunome Res. 2005 Oct
6;1(1):4.
Toth I. Moyle, PM. Modern subunit vaccines: development, components, and research opportunities.
ChemMedChem., 8(3):360–376, Mar 2013.
107
Trier NH1, Hansen PR, Houen G. Production and characterization of peptide antibodies. Methods.
2012 Feb;56(2):136-44. doi: 10.1016/j.ymeth.2011.12.001. Epub 2011 Dec 8.
Vallabhajosyula RR1, Chakravarti D, Lutfeali S, Ray A, Raval A. Identifying hubs in protein
interaction networks. PLoS One. 2009;4(4):e5344. doi: 10.1371/journal.pone.0005344. Epub 2009
Apr 28.
van Oss CJ1. Kinetics and energetics of specific intermolecular interactions. J Mol Recognit. 1997
Sep-Oct;10(5):203-16.
Van Regenmortel MH. Immunoinformatics may lead to a reappraisal of the nature of B cell epitopes
and of the feasibility of synthetic peptide vaccines. J Mol Recognit. 2006 May-Jun;19(3):183-7.
Van Regenmortel MH. What is a B-cell epitope?. Methods Mol Biol. 2009;524:3-20. doi:
10.1007/978-1-59745-450-6_1.
Van Regenmortel MH1. Synthetic peptides versus natural antigens in immunoassays.Ann Biol Clin
(Paris). 1993;51(1):39-41.
Van Regenmortel MH1. Antigenicity and immunogenicity of synthetic peptides. Biologicals. 2001
Sep-Dec;29(3-4):209-13.
Viart B1, Gonzalez E1, Dias-Lopes C1, Oliveira CF1, Nguyen C2, Neshich G3, Chávez-Olórtegui
C1, Molina F2, Felicori L4. EPI-Peptide Designer : a tool for designing specific peptide ligand
libraries based on Epitope-Paratope Interactions. Bioinformatics. 2016 Jan 18. pii: btw014. [Epub
ahead of print]
Vita R1, Overton JA2, Greenbaum JA3, Ponomarenko J4, Clark JD5, Cantrell JR5, Wheeler DK5,
Gabbard JL6, Hix D6, Sette A2, Peters B2. The immune epitope database (IEDB) 3.0. Nucleic Acids
Res. 2015 Jan;43(Database issue):D405-12. doi: 10.1093/nar/gku938. Epub 2014 Oct 9.
Vita R1, Zarebski L, Greenbaum JA, Emami H, Hoof I, Salimi N, Damle R, Sette A, Peters B. The
immune epitope database 2.0. Nucleic Acids Res. 2010 Jan;38(Database issue):D854-62. doi:
10.1093/nar/gkp1004. Epub 2009 Nov 11.
Walter G. Production and use of antibodies against synthetic peptides. J Immunol Methods. 1986
Apr 17;88(2):149-61.
Wang HW1, Lin YC, Pai TW, Chang HT. Prediction of B-cell linear epitopes with a combination of
support vector machine classification and amino acid propensity identification. J Biomed Biotechnol.
2011;2011:432830. doi: 10.1155/2011/432830. Epub 2011 Aug 23.
Waterhouse AM1, Procter JB, Martin DM, Clamp M, Barton GJ. Jalview Version 2--a multiple
sequence alignment editor and analysis workbench. Bioinformatics. 2009 May 1;25(9):1189-91. doi:
10.1093/bioinformatics/btp033. Epub 2009 Jan 16.
108
Waterhouse, A.M., Procter, J.B., Martin, D.M.A, Clamp, M. and Barton, G. J. (2009) "Jalview
Version 2 - a multiple sequence alignment editor and analysis workbench"Bioinformatics25 (9)
1189-1191
Wee LJ1, Simarmata D, Kam YW, Ng LF, Tong JC. SVM-based prediction of linear B-cell epitopes
using Bayes Feature Extraction. BMC Genomics. 2010 Dec 2;11 Suppl 4:S21. doi: 10.1186/14712164-11-S4-S21.
Weiser AA1, Or-Guil M, Tapia V, Leichsenring A, Schuchhardt J, Frömmel C, Volkmer-Engert R.
SPOT synthesis: reliability of array-based measurement of peptide binding affinity. Anal Biochem.
2005 Jul 15;342(2):300-11.
Westhof E, Altschuh D, Moras D, BloomerAC, Mondragon A, Klug A, Van RegenmortelMH(1984):
Correlation between segmental mobility and the location of antigenic determinants in proteins.
Nature 311(5982):123–126.
Wilson, PC and Andrews SF. Tools to therapeutically harness the human antibody response. Nat
Rev Immunol., 12(10):709–719, Oct 2012.
Zarebski LM1, Vaughan K, Sidney J, Peters B, Grey H, Janda KD, Casadevall A, Sette AAnalysis
of epitope information related to Bacillus anthracis and Clostridium botulinum. Expert Rev
Vaccines. 2008 Feb;7(1):55-74. doi: 10.1586/14760584.7.1.55.
Zepp F1. Principles of Vaccination. Methods Mol Biol. 2016;1403:57-84. doi: 10.1007/978-1-49393387-7_3.
Zhang W1, Liu J, Zhao M, Li Q. Predicting linear B-cell epitopes by using sequence-derived
structural and physicochemical features. Int J Data Min Bioinform. 2012;6(5):557-69.
Zhang W1, Niu Y, Xiong Y, Zhao M, Yu R, Liu J. Computational prediction of conformational Bcell epitopes from antigen primary structures by ensemble learning. PLoS One. 2012;7(8):e43575.
doi: 10.1371/journal.pone.0043575. Epub 2012 Aug 21.
Zhao L1, Li J. Mining for the antibody-antigen interacting associations that predict the B cell
epitopes. BMC Struct Biol. 2010 May 17;10 Suppl 1:S6. doi: 10.1186/1472-6807-10-S1-S6.
Zhao, L. Wong, L. Lu, S. C. Hoi, and J. Li. B-cell epitope prediction through a graph model. BMC
Bioinformatics, 13 Suppl 17:S20, 2012.
109
Anexos
Kozlova et al. BMC Bioinformatics 2015, 16(Suppl 19):S7
http://www.biomedcentral.com/1471-2105/16/S19/S7
RESEARCH
Open Access
Classification epitopes in groups based on their
protein family
Edgar Ernesto Gonzalez Kozlova1, Benjamin Thomas Viart1, Ricardo Andrez Machado de Avila2,
Liza Figueredo Felicori1, Carlos Chavez-Olortegui1*
From Brazilian Symposium on Bioinformatics 2014
Belo Horizonte, Brazil. 28-30 October 2015
Abstract
Background: The humoral immune system response is based on the interaction between antibodies and antigens for
the clearance of pathogens and foreign molecules. The interaction between these proteins occurs at specific positions
known as antigenic determinants or B-cell epitopes. The experimental identification of epitopes is costly and time
consuming. Therefore the use of in silico methods, to help discover new epitopes, is an appealing alternative due the
importance of biomedical applications such as vaccine design, disease diagnostic, anti-venoms and immunetherapeutics. However, the performance of predictions is not optimal been around 70% of accuracy. Further research
could increase our understanding of the biochemical and structural properties that characterize a B-cell epitope.
Results: We investigated the possibility of linear epitopes from the same protein family to share common
properties. This hypothesis led us to analyze physico-chemical (PCP) and predicted secondary structure (PSS)
features of a curated dataset of epitope sequences available in the literature belonging to two different groups of
antigens (metalloproteinases and neurotoxins). We discovered statistically significant parameters with data mining
techniques which allow us to distinguish neurotoxin from metalloproteinase and these two from random
sequences. After a five cross fold validation we found that PCP based models obtained area under the curve values
(AUC) and accuracy above 0.9 for regression, decision tree and support vector machine.
Conclusions: We demonstrated that antigen’s family can be inferred from properties within a single group of
linear epitopes (metalloproteinases or neurotoxins). Also we discovered the characteristics that represent these two
epitope groups including their similarities and differences with random peptides and their respective amino acid
sequence. These findings open new perspectives to improve epitope prediction by considering the specific
antigen’s protein family. We expect that these findings will help to improve current computational mapping
methods based on physico-chemical due it’s potential application during epitope discovery.
Background
Living organisms often encounter a pathogenic virus,
microbe or any foreign molecule during it’s lifetime [1].
The B cells of the immune system recognize the foreign
body or pathogen’s antigen by their membrane bound
immunoglobulin receptors, which later produce antibodies against this antigen [2,3]. The recognized sites on
* Correspondence: [email protected]
1
Laboratório de Imunoquímica de Proteínas, Departamento de BioquímicaImunologia, Instituto de Ciências Biológicas, Universidade Federal de Minas
Gerais, CP: 486; CEP: 31270-901, Belo Horizonte-MG, Brazil
Full list of author information is available at the end of the article
the antigen’s surface, known as epitopes, represent the
minimum wedge recognized by the immune system [4].
Therefore, epitopes lie at the heart of the humoral
immune response [5]. The rapid reaction to a previously
encountered antigen depends on the binding ability of
the antibodies found in the immune system of the
organism [6], the physico-chemical properties of the epitope and it’s structural conformation [7]. Thus, understanding epitope characteristics and how they are
recognized, in sufficient detail, would allow us to identify and predict their position in the antigen [8].
© 2015 Kozlova et al. This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://
creativecommons.org/licenses/by/4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the
original work is properly cited. The Creative Commons Public Domain Dedication waiver (http://creativecommons.org/publicdomain/
zero/1.0/) applies to the data made available in this article, unless otherwise stated.
Kozlova et al. BMC Bioinformatics 2015, 16(Suppl 19):S7
http://www.biomedcentral.com/1471-2105/16/S19/S7
The main objective of epitope prediction is to design a
molecule that can replace an antigen in the process of
either antibody production or antibody detection
[4,9-11]. Such a protein can be synthesized in case of
peptides or in case of a larger protein, produced by
yeast after the gene is cloned into an expression vector
[12]. After 30 years of research, it is known that the
optimum size of peptides possessing cross-reactive
immunogenicity is between 10-15 amino acids [13]. The
earliest efforts made to understand and predict B-cell
epitopes were based on the amino acid properties, such
as flexibility [14], hydrophaty [15], antigenicity [7], beta
turns [16] and accessibility [17]. Epitope prediction is
important to design epitope-based vaccines and precise
diagnostic tools such as diagnostic immunoassay for
detection, isolation and characterization of associated
molecules for various disease states. These benefits are
of undoubted medical importance [18,19].
Recently developed prediction methods face several
challenges like data quality [20,7], a limited amount of
positive learning examples [21] or difficulty in choosing
an appropriate negative learning examples [22]. These
negative training samples may harbor genuine B cell epitopes and affect the training procedure, resulting in a
poor classification performance [23,24]. Moreover, none
of the published work took into account the protein
family or function to predict epitopes [25].
The present study explores the possibility of epitopes
belonging to same protein family share common properties. For these purpose, the amino acid statistics, physicochemical and structural properties were compared within
each other [26] for two protein’s group. This assumption
is based on previous studies showing that it exists amino
acid trends in composition and shared properties for
intravenous immunoglobulins [27]. Despite the difficulty
of distinguishing epitopes from non epitopes [28] the
addition of information, such as evolutionary and propensity scales, proved to be helpful for epitope prediction
[21]. Therefore, it is interesting to assume including
information about the protein antigen’s family may be
resourceful to improve prediction.
Methods
Dataset composition
We have obtained experimentally validated 106 linear Bcell epitopes for two groups of antigens (metalloproteinases
and neurotoxins) extracted from Pubmed (http://www.ncbi.
nlm.nih.gov/pubmed/).
They were manually curated until September 2012 following several search criteria based on the keywords:
epitope, metalloproteinase, proteinase, peptidase, toxin
and neurotoxin in a joint and disjoint manner. The
redundancy was removed for repeated sequences using
100% identity as threshold and the maximum size of the
Page 2 of 7
epitopes was fixed to be equal or less than 32. As non
epitope data, we created 49 linear random peptides proportional number to the mean of the amount of epitopes in the groups metallorproteinase and neurotoxin.
These random peptides are based on the statistics from
the dataset UniProtKB/Swiss-Prot, meaning that the
sum of the random peptides amino acids are equal to
the percentages found in uniprot database. The final set
contained 99 non redundant epitopes, containing
29 metalloproteinases, 70 neurotoxins and 49 random
peptides as showed in Additional file 1.
Feature selection for data mining analysis
In this study, we generated and used 33 physico-chemical parameters composed by aliphatic index, GRAVY,
isoelectric point, amino acid content in percentages,
amino acid groups such as hydrophobic (AVILMFYW),
positive charged (RHK), negative charged (DE), not
charged (STNQ) and specials (SGP) as described by
Gasteiger with the difference that each feature was
transformed to percentage removing the length difference for the epitope sequences [29]. Also 6 predicted
secondary structure properties such as strand, helix,
coil, relative surface accessibility, absolute surface accessibility and z-fit which were calculated with Netsurf
algorithm [29]. These parameters were calculated for
the three groups in study (Metalloproteinase, Neurotoxin and Random) and the results where compared
using Welch two sample t-test available in the statistical
software R. In total, we evaluated 3 different matrices
for the classification purpose of discover how much
sequence-derived information was needed to obtained a
good classification. The first matrix based of purely PCP
information, a second with only PSS data and a third
one which was merely the addition of the PSS features
to the PCP matrix.
Selection of data mining methods and statistical analysis
The Konstanz Information Miner (KNIME) [30] was used
to evaluate Kmeans (KM), decision tree [31] (DT), naive
bayes classifier (NB), support vector machine [32] (SVM)
for the matrices generated with our dataset. The free software environment R for statistical computing and graphics
was used to create the multiple regression models (LMR).
For LMR the nominal class variable was transformed into
a numerical variable for the two groups, a positive with
value log(0.99/(1-0.99)) for metalloproteinases and a negative been log(0.01/(1-0.01)) for neurotoxins. The linear
model function available in R was used to solve a series of
equations where the class variable was equal to the feature
variables. After solving the equations, a linear multiple
regression model was generated, a p-value was calculated
and the model was rejected for any p-value superior to
0.005. The predicted resulting score of the model was
Kozlova et al. BMC Bioinformatics 2015, 16(Suppl 19):S7
http://www.biomedcentral.com/1471-2105/16/S19/S7
Page 3 of 7
scaled (0 to 1) by using exp(predicted value./(1+predicted
value)) formula. The performance of all the generated
models was evaluated for every possible decision threshold
with ROCR package by using the parameters AUC (area
under the curve formed by true and false positive rates)
and accuracy, which gives an overall view of the performance of the classification method used [33].
Results
Statistical differences of amino acid composition between
metalloproteinase and neurotoxin linear epitopes
compared with random sequences
The dataset contain 11 metalloproteinases and 16 neurotoxins. The two protein families (or group) respectively
contains 29 and 70 epitopes with an average sequence
length of 13.8 amino acids (aa). The minimum length was
4 aa and maximum 32 aa. The negative or non epitope set
contained 49 sequences of 14 aa length (Table 1).
These epitope groups also indicated variation when
compared to our non epitope control for the amino
acids K, C, A, V and I for metalloproteinases and R, K,
D, N, Q, C, A, I, K, M and W for neurotoxins (Table 2
columns 2 and 3). As expected, we also detected differences in other parameters such as aliphatic index, grand
average of hydropaty and isoelectric point (Table 2 last
three rows). Therefore, we were able to identify common characteristics in epitope’s composition within
unique antigen groups and differences between neurotoxin and metalloproteinase epitope groups.
Decision tree and multiple regression models can
distinguish linear B-cell epitopes from two different
antigen groups
We investigated our capacity to discriminate if an epitope belonged to neurotoxin or metalloprotease based
on the statistical significant differences observed in epitopes amino acids composition, isoeletric point, gravy
and aliphatic index (Table 2). For this purpose, we used
five different methods: SVM, NB, DT, KM and LMR.
Our analysis used three different input matrices as
described before: Only physico-chemical properties
(PCP), only secondary structure (PSS) and the
Table 1. Dataset composition
Groups
Proteins
Epitopes
Non epitopes
544996
–
–
Neurotoxin
16
29
0
Metalloproteinase
11
70
0
Negative examples
13
0
49
Uniprot
The metalloproteinase and neurotoxin epitopes showed to be different from
each other showing a statistical dissemblance for a confidence interval of 95%
for the amino acids R, K, M and Y (Table 2, column 1). Also when compared
these epitopes to their respective proteins they showed differences for the
amino acids R, Q, V and M for metalloproteinases (Table 2, column 4) and D
and C for neurotoxins (Table 2, column 5).
combination of both (PCP+PSS) for each algorithm. The
performances displayed as AUC values for all data
mining methods are showed in table 3. All the methods
with the exception of KM were able to group and distinguish correctly both groups of epitopes. As expected, the
best results were for SVM followed by similar performance by much simpler techniques, LMR and DT.
During the use of PSS features as input, a reduction in
the performance of 0.1-0.3 AUC value was noticed for
MLR and NB techniques (Table 3). Only SVM and DT
obtained an AUC superior to 0.9 while all the other
methods performed poorly with AUC of 0.65 for LMR
and close to 0.5 for the others. The SVM technique performed with an AUC of 1.0 for combined properties
while LMR showed a slight increase from 0.9 to 1.0. By
the other hand DT, NB and Kmeans stayed the same
(Table 3). These results indicate that the type of input
used (PSS or PCP) were not significant, where the models based on the PCP were the simplest to analyze and
understand. The most stable AUC results were obtained
with DT method where all the matrices analyzed
resulted in an AUC value around 0.95.
The techniques DT and LMR are statistical approaches
that showed results similar to SVM which is a non statistical classifier. These methods allowed us to discriminate
the epitopes belonging to metalloproteinases or neurotoxins and to identify the important properties inside
these groups. The relevant features to classify the epitope
groups for the LMR and DT models can be found in
table 4.
We observed which amino acids were critical to differentiate epitopes from neurotoxins and metalloproteinases. In the case of LMR model, the amino acids
asparagine (N), glutamine (Q) and serine (S), and in the
case of DT model the amino acids lysine (K), aspartate
(D) and methionine (M) were the key to achieve good
classification (above 0.9 AUC) (Table 4).
Discussion
The amino acid composition has been investigated for
proteins related to the B-cell response [34] and as key for
understanding protein-protein interactions [35,36] alongside their role during prediction of epitopes for both T
and B-cells [37]. Epitopes are rich in charged and polar
amino acids and low in aliphatic hydrophobic amino
acids, when comparing the epitope amino acid distribution to either the entire PDB database [38] or to the antigen [39,40]. Also Rubinstein [39] suggested that the
amino acid Tyr is significantly over-represented in epitopes and that Val is significantly depleted. Interestingly,
the residues Arg and Lys are more frequent in the epitopes of our dataset along other differences as aliphatic
index and gravy. This particularities are probably a result
of focusing common features in a diverse epitope group,
Kozlova et al. BMC Bioinformatics 2015, 16(Suppl 19):S7
http://www.biomedcentral.com/1471-2105/16/S19/S7
Page 4 of 7
Table 2. Analysis of means for all datasets with Welch two sample T-test
Parameter
p - values for a confidence interval of 95%
(1)ME vs NE
(2)Random vs ME
(3)Random vs NE
(4) MP vs ME
(5) NP vs NE
R (Arg)
0.0029
0.0762
0.0001
0.0241
0.4226
H (His)
0.0362
0.1046
0.1074
0.5636
0.7906
K (Lys)
0.0000
0.0113
0.0000
0.4098
0.4818
0.0030
D (Asp)
0.0890
0.6994
0.0079
0.7091
E (Glu)
0.9289
0.2681
0.0838
0.6696
0.4072
S (Ser)
0.2953
0.5024
0.3546
0.9630
0.8954
T (Thr)
N (Ans)
0.4077
0.1878
0.1867
0.7647
0.3509
0.0101
0.2199
0.5880
0.4523
0.4944
Q (Gln)
0.1509
0.9483
0.0039
0.8471
0.8185
C (Cys)
0.1821
0.0003
0.0000
0.0316
0.0075
G (Gly)
0.6979
0.2576
0.4620
0.3509
0.8450
P (Pro)
0.3156
0.5165
0.3781
0.2103
0.4271
A (Ala)
0.2121
0.0066
0.0000
0.1092
0.0756
V (Val)
0.0993
0.0019
0.2903
0.0550
0.1854
I (Ile)
L (Leu)
0.2657
0.1374
0.0068
0.1182
0.0352
0.0000
0.1286
0.5549
0.3275
0.2322
M (Met)
0.0017
0.0725
0.0000
0.0282
0.2477
F (Phe)
0.6997
0.4713
0.0765
0.7890
0.5818
Y (Tyr)
0.0023
0.5245
0.0000
0.8318
0.0938
W (Trp)
0.0889
0.9443
0.0244
0.5782
0.1221
Isoe.Point
0.0425
0.5190
0.5190
0.0425
0.3221
gravy
0.0672
0.0010
0.0000
0.0672
0.0514
Aliph. Index
0.0086
0.0000
0.0000
0.0086
0.8550
Values under p-value under 0.05 are writen in bold. IC = 95%, H0 = Difference in means is cero. Hi = Difference in means is not equal to zero. Metalloproteinases
epitopes = ME, Neurotoxin epitopes = NE, Metalloproteinase proteins = MP, Neurotoxin proteins = NP, Random = Random sequences.
phenomena which was evidenced in the amino acids
composition found in epitopes for papilloma viruses [22].
The PCP based methods have been explored in detail for
epitope prediction [40] with some limitations in terms of
specificity and precision as seen in models for SVM with
AUC values of 0.85 for amino acid composition and 0.58,
where the accuracy never surpass 0.8 [26].
Our study suggests an improvement in performance
when a single epitope group is targeted, resulting in AUC
and accuracy superior to 0.9. We included groups of
amino acids based on type of charge and lateral chain
due to the the concept of amino acids working cooperatively in protein:protein interfaces [41]. Our results indicate that these amino acid groups such as hydrophobic,
PCP
PSS
PCP+PSS
1º
Statistic of N
Z-fit
Statistic of E
2º
Statistic of Q
ASA
Statistic C Atoms
3º
Statistic of S
RSA
Statistic of N
4º
5º
Statistic of T
Uncharged STNQ
Strand index
Helix index
Statistic of Q
Statistic of S
6º
Special CGP
Coil index
Statistic of T
7º
Statistic H Atoms
–
Uncharged STNQ
8º
Statistic C Atoms
–
Statistic H Atoms
Table 3. Performance of all data mining methods showed
in AUC and accuracy
Order
Table 4. Properties used by the classification models
until 8º order out of 39
Classification Model: Linear Multiple
Regression
Order
Classification Model: Decision Tree
Matrix
PCP
PSS
PCP+PSS
1º
2º
PCP
PSS
PCP+PSS
Statistic of K
Statistic of D
Z-fit
RSA
Statistic of K
Statistic of D
Models
AUC
Accuracy
AUC
Accuracy
AUC
Accuracy
3º
Statistic of M
ASA
Statistic of M
SVM
1
1
1
1
1
1
4º
Statistic S Atoms
Strand index
Statistic S Atoms
MLR
0.986
0.952
0.655
0.714
1
1
5º
Statistic of I
Coil index
Statistic of I
DT
0.957
0.962
0.921
0.943
0.943
0.952
6º
Statistic of W
–
Statistic of W
NB
0.8
0.838
0.521
0.667
0.793
0.838
7º
Statistic of Y
–
Coil index
KM
0.493
0.667
0.509
0.681
0.507
0.667
8º
Isoelectric point
–
–
Kozlova et al. BMC Bioinformatics 2015, 16(Suppl 19):S7
http://www.biomedcentral.com/1471-2105/16/S19/S7
polar, or special amino acids (CGP), do not posses significance for the prediction models by themselves but may
add value when combined with single amino acid
statistics.
The secondary structure of epitopes was also investigated by several authors [42-44], and epitopes are in
general reported to have significantly less strands and
helices and significantly more loops compared to the
rest of the antigen [8,38]. The over-representation of
loops is small but significant and in agreement with the
perception that protein-protein binding sites are flexible
regions [41]. The overall secondary structure of epitopes
has been reported to been different from regular protein-protein interfaces [23] based on crystals available
on the PDB indicating some structural particularities of
the Ab-Ag interaction [45]. These particularities could
be also family restrictred which could be interesting to
explore with computational methods despite of having
an accuracy of 79% when predicted from sequence [46]
but the DT outcome showed no real relevance in PSS
features when applied to epitope classification. The
inclusion of predicted secondary structure as commonly
done [40] could be a source of misleading results for
the prediction, issue which has been reviewed briefly in
the literature [47].
The features that characterize each epitope’s group
could represent the complementary data needed to
improve epitope prediction. For example, when adding
evolutionary information to the prediction the performance was improved [48] despite recent studies that
explain no relation exits between epitope and antigens
sequences [28]. Therefore, we showed that a wide range
of data mining methods including support vector
machine [21], decision tree [48], regression [26] and
Naive Bayer classifier had similar successful results
bringing some light to the question of which characteristics are important for these epitope groups. It’s important to note that we used amino acid percentage [4] in
comparison with some recent epitope prediction methods that prefer propensities [12]. The data normalization
made in the present study are based on the assumption
that each feature is equally relevant for any protein
sequence based analysis [9]. We also demonstrate that
despite the method, it was possible to classify the studied groups, pointing out the importance of the quality
of the used data [49].
Conclusions
Our study indicates that linear epitopes that belong a single protein family share common properties but different
when compared to epitopes from different families, as
demonstrated for neurotoxins and metalloproteinases.
We confirmed our hypothesis with five different data
mining algorithms, probabilistic and non probabilistic,
Page 5 of 7
showing similar results except for Kmeans. The proposed
models allowed to separate the studied groups from random sequences based on Uniprot statistics. The models
based only in PCP features were enough to show and
identify the differences between epitope groups. Therefore, we demonstrate that considering the epitope’s protein family can reveal unseen patterns within epitope
groups that could be used to improve epitope discovery.
Additional material
Aditional file 1: The datasets composed of the sequences used in
this work is available in this .csv file, containing four columns. First
column shows the pubmedID of the paper from which the sequence
was extracted. The second column contains the sequence. The third
collumn contain the sequence IDs from genebank, uniprot or pdb,
databases. The fourth column contains the class of the sequences which
can be neurotoxin, metalloproteinase or random. The column separator
in this .csv file is a standart semicolon “;”.
List of abbreviations
SVM: Support Vector Machine
NB: Naive Bayes
DT: Decision Tree
KM: K-Means
LMR: Linear Multiple Regression
PDB: Protein Data Bank
PSS: Position Specific Matrix
PCP: Physico-Chemical-Properties
ASA: Absolute Surface Area
RSA: Relative Surface Area
AUC: Area Under the Curve
ROC: Receiver Operating Characteristic
ME: Metalloproteinase epitopes
MP: Metalloproteinase proteins
NE: Neurotoxin epitopes
NP: Neurotoxin proteins
Competing interests
The authors declare that they have no competing interests.
Authors’ contributions
Carlos Chavez Olortegui: Advising, professional orientation, results review
and science encouragement.
Edgar Ernesto Gonzalez Kozlova: Data mining models and statistical analysis.
Benjamin Thomas Viart: Statistical analysis advising.
Liza Figueredo Felicori: Hypothesis help and advising.
Ricardo Andrez Machado de Avila: Hypothesis help and advising, general
advising, results review and science encouragement.
Declarations
This research and funding for publication was supported by Coordenação
de Aperfeiçoamento de Pessoal de Nível Superior, (CAPES-Brazil),(Toxinologia
No 23038000825/2011-63). Fundação de Amparo a Pesquisa do Estado de
Minas Gerais, Brazil (FAPEMIG-Brazil) and Conselho Nacional de
Desenvolvimento Científico e Tecnológico (CNPq-Brazil).
This article has been published as part of BMC Bioinformatics Volume 16
Supplement 19, 2015: Brazilian Symposium on Bioinformatics 2014. The full
contents of the supplement are available online at http://www.
biomedcentral.com/bmcbioinformatics/supplements/16/S19
Authors’ details
1
Laboratório de Imunoquímica de Proteínas, Departamento de BioquímicaImunologia, Instituto de Ciências Biológicas, Universidade Federal de Minas
Gerais, CP: 486; CEP: 31270-901, Belo Horizonte-MG, Brazil. 2Laboratório de
Kozlova et al. BMC Bioinformatics 2015, 16(Suppl 19):S7
http://www.biomedcentral.com/1471-2105/16/S19/S7
Biologia Celular e Molecular, Programa de Pós-Graduação em Ciências da
Saúde, Unidade Acadêmica de Ciências da Saúde, Universidade do Extremo
Sul Catarinense, CEP: 88806-000. Criciúma-SC, Brazil.
Published: 16 December 2015
References
1. Cochrane Norris Charles: Thucydides and the Science of History. Oxford
University Press; 1929:35(3):584-585, Apr.
2. Burnet FM: A modification of Jerne’s theory of antibody. Australian
Journal of Science 1957, 20:67-69.
3. Jerne NK: The natural-selection theory of antibody formation. Proceedings
of the National Academy of Sciences 1955, 41:849-857.
4. Perlow DS, Boger J, Emini EA, Hughes JV: Induction of hepatitis A virusneutralizing antibody by a virus-specific synthetic peptide. J Virol 1985,
55(3):836-839.
5. Silverstein AM: A History of Immunology. Academic Press, San Diego; 1989.
6. Abbas HAndrew, Lichtman KAbul: Cellular and Molecular Immunology 2005,
5(1):3-14.
7. Greenbaum JA, Andersen PH, Blythe M, Bui HH, Cachau RE, Crowe J,
Davies M, Kolaskar AS, Lund O, Morrison S, Mumey B, Ofran Y, Pellequer JL,
Pinilla C, Ponomarenko JV, Raghava GP, van Regenmortel MH, Roggen EL,
Sette A, Sch-lessinger A, Sollner J, Zand M, Peters B: Towards a consensus
on datasets and evaluation metrics for developing B-cell epitope
prediction tools. J. Mol. Recognit 2007, 20(2):75-82.
8. Yang J, Chou KC, Chen J, Liu H: Prediction of linear B-cell epitopes using
amino acid pair antigenicity scale. Amino Acids 2007, 33(3):423-428, Jan.
9. Hopp TP, Woods KR: Prediction of protein antigenic determinants from
amino acid sequences. Proc. Natl. Acad. Sci. U.S.A 1981, 78(6):3824-3828,
Jun.
10. Toth I, Moyle PM: Modern subunit vaccines: development, components,
and research opportunities. ChemMedChem 2013, 8(3):360-376, Mar.
11. Ditzel HJ, Williamson RA, Burton DR, Parren PW, Poignard P: Antibodies in
human infectious disease. Immunol Res 2000, 21(2-3):265-278.
12. Patel VL, Shortliffe EH, Stefanelli M, Szolovits P, Berthold MR, Bellazzi R,
Abu-Hanna A: The coming of age of artificial intelligence in medicine.
Artif Intell Med 2009, 46(1):5-17, May.
13. Sivalingam GN, Shepherd AJ: An analysis of B-cell epitope discontinuity.
Mol. Immunol 2012, 51(3-4):304-309, Jul.
14. Karplus M, McCammon JA: The dynamics of proteins. Sci. Am 1986,
254(4):42-51, Apr.
15. Parker JM, Guo D, Hodges RS: New hydrophilicity scale derived from
high-performance liquid chromatography peptide retention data:
correlation of predicted surface residues with antigenicity and X-rayderived accessible sites. Biochemistry 1986, 25(19):5425-5432, Sep.
16. Pellequer JL, Westhof E: PREDITOP: a program for antigenicity prediction.
J Mol Graph 1993, 11(3):204-210, Sep.
17. Davydov I, Tonevitski AG: Linear B-cell epitope prediction. Mol. Biol. (Mosk.)
2009, 43(1):166-174.
18. Atassi MZ, Azzazy HM, Highsmith WE: Phage display technology: clinical
applications and recent innovations. Clin. Biochem 2002, 35(6):425-445,
Sep.
19. Blythe MJ, Flower DR: Benchmarking B cell epitope prediction:
underperformance of existing methods. Protein Sci 2005, 14(1):246-248,
Jan.
20. Deng Houtao, Runger George, Tuv Eugene: Bias of importance measures
for multi-valued attributes and solutions. Lecture Notes in Computer
Science 2011, 6792:293-300.
21. Wang HW1, Lin YC, Pai TW, Chang HT: Prediction of B-cell linear epitopes
with a combination of support vector machine classification and amino
acid propensity identification. J Biomed Biotechnol 2011, 2011:432830, doi:
10.1155/2011/432830. Epub 2011 Aug 23.
22. Subramanian N, Chinnappan S: Prediction of promiscuous epitopes in the
e6 protein of three high risk human papilloma viruses: a computational
approach. Asian Pac. J. Cancer Prev 2013, 14(7):4167-4175.
23. Zhou E, Ruan Y, Kurgan J, Gao L, Faraggi J: BEST: improved prediction of
B-cell epitopes from antigen sequences. PloS One 2012, 7(6):e40104. Jun..
24. El-Manzalawy Y, Dobbs D, Honavar V: Predicting linear B-cell epitopes
using string kernels. J. Mol. Recognit 2008, 21(4):243-255.
25. Kolaskar PC, Tongaonkar AS: A semi-empirical method for prediction of
antigenic determi-nants on protein antigens. FEBS Lett 1990, 276:172-174.
Page 6 of 7
26. Singh H, Ansari HR, Raghava GP: Improved method for linear B-cell
epitope prediction using antigen’s primary sequence. PloS ONE 2013,
8(5):e62216..
27. Luštrek M, Lorenz P, Kreutzer M, Qian Z, Steinbeck F, Wu D, Born N,
Ziems B, Hecker M, Blank M, Shoenfeld Y, Cao Z, Glocker MO, Li Y,
Fuellen G, Thiesen HJ: Epitope predictions indicate the presence of two
distinct types of epitope-antibody-reactivities determined by epitope
profiling of intravenous immunoglobulins. PloS One 2013, 8(11):e78605,
Nov 11. Doi: 10.1371/journal.pone.0078605. Ecollection 2013.
28. Ofran Y, Kunik V: The indistinguishability of epitopes from protein surface
is explained by the distinct binding preferences of each of the six
antigen-binding loops. Protein Eng Des Sel 2013, 26(10):599-609, Oct.
29. Petersen Bent, Petersen Nordahl Thomas, Andersen Pernille, Nielsen Morten,
Lundegaard1 Claus: A generic method for assignment of reliability scores
applied to solvent accessibility predictions. BMC Structural Biology 2009,
9:51, doi:10.1186/1472-6807-9.
30. Berthold RMichael, Cebron Nicolas, Dill Fabian, Gabriel RThomas,
Otter Tobias, Meinl Thorsten, Ohl Peter, Sieb Christoph, Thiel Kilian,
Wiswedel Bernd: KNIME: The Konstanz Information Miner. Studies in
Classification, Data Analysis, and Knowledge Organization. Springer. ISSN:14318814 2007.
31. Bremel EJ, Homan RD: An integrated approach to epitope analysis I:
Dimensional reduction, visualization and prediction of MHC binding
using amino acid principal components and regression approaches.
Immunome Res 2010, 6(7):1745-7580, Nov.
32. Kam D, Tong YW, Wee JC, Simarmata LJ: SVM-based prediction of linear
B-cell epitopes using Bayes Feature Extraction. BMC Genomics 2010,
2(11):1471-2164.
33. R Core Team: R: A Language and Environment for Statistical Computing.
R Foundation for Statistical Computing. Vienna, Austria; 2014.
34. Kurosaki T: Regulation of B-cell signal transduction by adaptor proteins.
Nat. Rev. Immunol 2002, 2(5):354-363, May.
35. Jones S, Thornton JM: Principles of protein-protein interactions. Proc. Natl.
Acad. Sci. U.S.A 1996, 93(1):13-20, Jan.
36. Su CW, Lin EC, Cheng SY, Liu R, Hu J: Computational prediction of hemebinding residues by exploiting residue interaction network. PloS ONE
2011, 6(10):e25560.
37. Greenbaum JA, Emami H, Hoof I, Salimi N, Damle R, Sette A, Peters B,
Vita R, Zarebski L: The immune epitope database 2.0. Nucleic Acids Res
2010, , D: 854-862, Nov.
38. Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H,
Shindyalov IN, Bourne PE: The Protein Data Bank. Nucleic Acids Res 2000,
28(1):235-242, Jan.
39. Rubinstein ND, Mayrose I, Halperin D, Yekutieli D, Gershoni JM, Pupko T:
Computational characterization of B-cell epitopes. Mol. Immunol 2008,
45(12):3477-3489, Jul.
40. Zhao M, Li Q, Zhang W, Liu J: Predicting linear B-cell epitopes by using
sequence-derived structural and physicochemical features. Int J Data Min
Bioinform 2012, 6(5):557-569.
41. Janin J, Chothia C: The structure of protein-protein recognition sites.
J. Biol. Chem 1990, 265(27):16027-16030, Sep.
42. Reimer U: Prediction of linear B-cell epitopes. Methods Mol Biol 2009,
524:335-344, N. D. Rubinstein, I. Mayrose, D. Halperin, D. Yekutieli, J. M.
Gershoni, and T. Pupko. Computational characterization of B-cell epitopes.
Mol. Immunol., 45(12):3477-3489, Jul 2008.
43. Toseland CP, Clayton DJ, McSparron H, Hemsley SL, Blythe MJ, Paine K,
Doytchinova IA, Guan P, Hattotuwagama CK, Flower DR: AntiJen: a
quantitative immunology database integrating functional,
thermodynamic, kinetic, biophysical, and cellular data. Immunome Res
2005, 1(1):4, Oct.
44. Zhao L, Wong L, Lu L, Hoi SC, Li J: B-cell epitope prediction through a
graph model. BMC Bioinformatics 2012, 13(Suppl 17):S20.
45. Keskin O, Ma B, Rogale K, Gunasekaran K, Nussinov R: Protein-protein
interactions: organization, cooperativity and mapping in a bottom-up
Systems Biology approach. Phys Biol 2005, 2(2):24-35, Jun.
46. Pellequer JL, Westhof E, Van Regenmortel MH: Correlation between the
location of antigenic sites and the prediction of turns in proteins.
Immunol. Lett 1993, 36(1):83-99, Apr.
47. Bourne PE, Ponomarenko JV: Antibody-protein interactions: benchmark
datasets and prediction tools evaluation. BMC Struct Biol 2007, 2:7-64,
Oct.
Kozlova et al. BMC Bioinformatics 2015, 16(Suppl 19):S7
http://www.biomedcentral.com/1471-2105/16/S19/S7
Page 7 of 7
48. Saha S, Raghava GP: Prediction of continuous B-cell epitopes in an
antigen using recurrent neural network. Proteins 2006, 65(1):40-48, Oct.
49. Saha S, Bhasin M, Raghava GP: Bcipep: a database of B-cell epitopes. BMC
Genomics 2005.
doi:10.1186/1471-2105-16-S19-S7
Cite this article as: Kozlova et al.: Classification epitopes in groups
based on their protein family. BMC Bioinformatics 2015 16(Suppl 19):S7.
Submit your next manuscript to BioMed Central
and take full advantage of:
• Convenient online submission
• Thorough peer review
• No space constraints or color figure charges
• Immediate publication on acceptance
• Inclusion in PubMed, CAS, Scopus and Google Scholar
• Research which is freely available for redistribution
Submit your manuscript at
www.biomedcentral.com/submit
Bioinformatics Advance Access published January 18, 2016
EPI-Peptide Designer : a tool for designing specific
peptide ligand libraries based on Epitope-Paratope
Interactions
Viart B 1 , Gonzalez E 1 , Dias-Lopes C 1 , Oliveira C F B 1 , Nguyen C 3 ,
Neshich G 2 , Chávez-Olórtegui C 1 , Molina F 3 , and Felicori L 1∗
1
3
Universidade Federal do Minas Gerais, Brazil
Embrapa Informática Agropecuária, Campinas, SP, Brazil
Sys2Diag, FRE3690-CNRS/ALCEDIAG, Montpellier, France
Associate Editor: Prof. Anna Tramontano
ABSTRACT
Motivation:
Antibodies are an important class of biological drugs, but
with limitations, such as inadequate pharmacokinetics, adverse
immunogenicity and high production costs. Synthetic peptides with
high affinity and specificity for the desired target represent an
important alternative to antibodies. However, no computational tool
exists to guide the design of these peptides.
Results:
To identify the interacting residues in a given antibody-antigen
interface we used Interface Interacting Residue (I2R), a selection
method based on computed molecular interactions. The aggregation
of all the molecular interactions between epitope and paratope
residues allowed us to transform the 3D antibody-antigen complex
structures into interface graphs. Based on these data and the
probability of molecular interaction we developed EPI-Peptide
Designer tool that uses predicted paratope residues for an epitope
of interest to generate targeted peptide ligand libraries. EPI-Peptide
Designer successfully predicted 301 peptides able to bind to LiD1
target protein (65% of the experimentally tested peptides). This tool
should enable the development of a new generation of synthetic
interacting peptides that could be very useful in the biosensor,
diagnostic and therapeutic fields.
Availability:
All software developed in this work are available at
http://www.biocomp.icb.ufmg.br/biocomp/
Contact: [email protected]
1 INTRODUCTION
Protein-protein interactions are at the heart of biological processes
and protein functions are highly related to their binding properties
(Chakrabarti and Janin, 2002). For instance, the immune response
relies on antigen recognition by a specific antibody and the
Antibody-Antigen (Ab-Ag) complex represents a specific type
of protein-protein interaction characterized by high affinity and
∗ to
whom correspondence should be addressed
specificity. Identifying the key residues and interaction patterns on
the Ab-Ag interface could help improving antibody humanization
as well as the design of new antibodies (Morea et al., 2000) and
peptide ligands based on the antibody properties.
The use of peptides for therapeutic purpose instead of antibodies
has plenty of advantages such as lower manufacturing costs,
less immunogenic profile, greater stability and better organ/tumor
penetration. Several chemical approaches have been generated
to overcome therapeutic peptides limitations such as low oral
bioavailability and biodistribution (Vlieghe et al., 2010). Indeed,
much research effort is focused on the use of peptide ligands as a
viable alternative to antibodies in targeted therapies (Wada, 2013).
For instance, mimetic peptides derived from the anti-HER2/ERBB
antibody can inhibit the tyrosine kinase activity of this receptor
and consequently impair tumour growth (Park et al., 2000; Ponde
et al., 2011). Presently, over 50 peptide drugs are approved for
clinical use (Reichert J., 2010). To guide the design and increase
the affinity and specificity of these peptide drugs, different tools,
based on various methodologies (e.g., directed evolution, highthroughput protein screening or rational design based on proteinpeptide interactions) have emerged (Pei and Wavreille, 2007; Yin
et al., 2007; Vanhee et al., 2011). In silico rational design of peptides
based on molecular interactions is also a fundamental proof-ofconcept for the current understanding of the physical-chemical basis
of molecular recognition. Moreover, this approach could become
a powerful complement to the current library-based screening
methods because it allows targeting specific patches on the surface
of a protein (Fleishman et al., 2011). Computational design
also gives the opportunity to program protein-protein interactions
for specific applications. However, currently no computational
methodology to design this kind of peptides is available.
In this work, we propose a computational method to generate
libraries of peptide ligands or paratope mimetics based on the
Epitope-Paratope Interaction (EPI) patterns and on a target epitope
input sequence. This software, called EPI-Peptide Designer, uses
a set of Ab-Ag complex structures from the Protein Data Bank
(PDB) (Berman et al., 2000) and the Blue Star STING server
and STING DB (Neshich et al., 2006) containing hundreds of
interaction descriptors reported in residue by residue fashion
© The Author (2016). Published by Oxford University Press. All rights reserved. For Permissions, please email:
[email protected]
1
Downloaded from http://bioinformatics.oxfordjournals.org/ at Universidade Federal de Minas Gerais on February 12, 2016
2
Viart et al
to compute the Bayesian probabilities of molecular interactions
between epitope and paratope. EPI-Peptide Designer generates
peptide binder sequences based on the epitope sequence entered
by the user and the patterns extracted from the Ab-Ag interfaces.
The method was experimentally validated using as target a
dermonecrotic protein LiD1 from the brown spider venom. We have
synthesized a library of 460 peptides and 65% of them were able
to bind to LiD1. This is, to our knowledge, the first generator of
peptide ligand libraries based on EPI.
Dataset extraction
To extract structures of Ab-Ag complexes from the PDB (Berman
et al., 2000), we first used the datasets from Ramaraj et al. and
Kunik et al. to select the antibody light and heavy chains to be used
as reference sequences. After redundancy removal using CD-Hit
(Fu et al., 2012), we processed the two reference sequence datasets
with Interface Research Algorithm (IRA), a BioJava program we
developed. IRA automatically computed the Smith and Waterman
local alignment (Smith et al., 1981) of each sequence against each
chain of all the PDB files that contain at least three protein chains.
Using a threshold determined by aligning the reference dataset
against itself, IRA labelled each chain as Antibody Light, Antibody
Heavy or Antigen. IRA selected structures that contain at least one
antigen, one light chain and one heavy chain spatially close (i.e.,
presenting inter-atomic contacts using the 5 Ångström (Å) distance
cut-off). From these, the PDB files with X-ray resolution lower or
equal to 2.5Å and present in STING RDB were extracted (Neshich
et al., 2006).
Interface selection
To analyse the interface of Ab-Ag complexes, we used three
different interface selection methods. First, in the selection based
on the distance between atoms of the antigen and the antibody
(distance-based selection, DBS) (Chothia and Janin, 1975; Lo Conte
et al., 1999), an amino acid of the antigen is considered to be part
of the Distance Selected Epitope (DSE), if one or more of its atoms
are at a distance below a chosen cut-off (in our study, from 3 to 8
Ångström). The Distance Selected Paratope (DSP) is selected in the
same manner. Second, in the approach based on the difference of
Solvent Accessible Surface (∆SAS), interfaces are selected based
on the loss of solvent accessibility between the separated and the
complexed protein (Lo Conte et al., 1999). Third, we developed
a selection method in which the interface computed molecular
interactions are extracted from STING RDB (Neshich et al., 2006).
In this method, the interface is defined by all the amino acids
that are involved in the molecular interactions between the antigen
and the antibody chains and that are called, therefore, Interface
Interacting Residues (I2R). The selected antibody residues form the
I2R Paratope and the selected antigen amino acids constitute the I2R
Epitope.
Computation of the interface molecular interactions
Molecular interactions (salt bridges, hydrogen bonds, aromatic
stacking and hydrophobic interactions) were taken from STING
RDB IFR (Mancini et al., 2004). This tool identifies all potential
intra- and inter-protein chain contacts stored in STING RDB
(Neshich et al., 2006) by (1) classifying the atoms in groups
2
Redundancy removal
To extract meaningful information from the interface dataset,
we removed redundancies by selecting only the DSE and DSP
sequences from the complex (with a cut-off of 6Å). Using the CDHit global sequence identity score (Fu et al., 2012), we only selected
interfaces with a score lower than 0.90 for both interface sides.
Global sequence identity score is define as the number of identical
amino acids in alignment divided by the length of the shorter
sequence. The selected files were manually curated to confirm their
quality. This provided us with a non-redundant dataset composed of
101 PDB structures, 21 antibody-peptide complexes (here, peptides
are defined as molecules smaller than 30 amino acids) and 80
antibody-protein complex.
Interface statistical analysis
To compute the percentage of occurrence (%Occ) of the epitopes
and paratopes selected by I2R we used :
%Occn =
Occn
× 100,
Occtotal
where n is an amino acids, %Occn is the percentage of occurrence
of n, Occn is the occurrence of n and Occtotal is the occurrence
of all the residues. The results were compared to all STING RDB
protein-protein interaction (Neshich et al., 2006) occurrence values
after exclusion of our 101 PDB Files. The statistical comparison of
the amino acids was done using a t-test of differential distribution
and was considered significant when the p-value was lower than
0.01.
Comparison of the interface selection methods
To compare the interface residue selection by the three methods
we computed the Receiver Operating Prime Curve (ROC’) of the
performance of the distance-based selection and ∆SAS, using
various cut-offs, against I2R. As the aim was the comparison of
selected interface residues, the true negatives were not considered.
We computed the ROC’ curve as follows. The True Positive Rate
(TPR), also called recall, was computed as:
TPR =
TP
TP + FN
and the False Discovery Rate (FDR) as:
F DR =
FP
FP + TP
where TP is the True Positive, FP the False Positive and FN the
False Negative.
Computation of the most frequent interface partners using
graph analysis
To analyse the interface in a multi-level manner, we developed
Interface to Graph Generator (IGG). IGG is a BioJava program
that takes as input PDB codes and two sets of chains. Molecular
interactions between those two sets are recovered from PDB
structures using STING RDB (Neshich et al., 2006). The interface is
Downloaded from http://bioinformatics.oxfordjournals.org/ at Universidade Federal de Minas Gerais on February 12, 2016
2 METHODS
according to their electrostatic behaviour and position in the amino
acid (main or side chain) and (2) by then selecting atoms based
on the type of contacts they potentially can make and on the
experimentally defined distance restrictions (Harris and Mildvan,
1999; Sobolev et al., 1999; Swindells, 1995).
EPI-Peptide Designer
automatically transformed into a graph, where all I2Rs are vertices
and all interactions are edges. The vertex label holds the information
concerning the interface side and the amino acid type (Table 1).
The edges are labelled according to the type of interaction, such
as hydrogen bonds, salt bridges, hydrophobic interactions and
aromatic stacking. Using GASTON (Nijssen and Kok, 2004), we
extracted the most conserved sub-graphs from the complete set
of interfaces containing two and three nodes. Subgraphs plot was
done using R (R Development Core Team, 2008) and the “igraph”
package (Csardi and Nepusz, 2006).
Group
Residue
Small
Charged +
Charged Hydrophobic
Alcohol
Aromatic
Polar
A,G
K,R,H
D,E
V,I,L,C,M,P
S,T
Y,W,F
Q,N
Assessment of paratope residue prediction
Based on the Bayesian probabilities extracted from the epitopeparatope graphs, we predicted the amino acid sequence and the
interaction of a given paratope using a given epitope sequence.
To evaluate the prediction of residues and interactions, we used
a leave-one-out cross validation of the 21 antibody-peptide PDB
interfaces from our dataset. Antigens were considered as peptides if
their size was equal or lower than 30 amino acids. The evaluation
considered each residue from the input epitope and defined as
True Positive (TP) a correct ”interaction type and paratope residue”
couple, as False Positive (FP) any interaction where the interaction
type or the residue group was incorrect, as False Negative (FN) any
existing couple not added by the program and as True Negative (TN)
any possible not existing and not added interaction type-paratope
residue couple.
EPI-Peptide Design tool
Using all the Ab-Ag interaction patterns and the residue occurrence
data obtained in this study, we developed EPI-Peptide Designer in
BioJava. EPI-Peptide Designer includes the IGG program described
above. The program takes as input a real or putative epitope
sequence (linear or conformational; gaps in the sequence can be
represented by - ), a cut-off score representing the importance
of the epitope sequence in the design and the number and size
of peptides needed by the user. To design peptide ligands, EPIPeptide Designer uses the Base Residue Library (BRL) composed
of all residues from all the paratopes in the input dataset. The
computed probabilities include: probability of an epitope residue
type to do an interaction and, for each type of interaction, the
probability of the target paratope residue type and the influence
of the epitope neighbour residues on the interaction. Using these
probabilities and the input sequence, EPI-Peptide Designer ranks
the predicted paratope residues in decreasing order of likelihood.
The paratope residues are then added according to the decreasing
EPI-peptide design, peptide synthesis on cellulose membranes
and binding assay
In order to test the effectiveness of the method, we generated 800
EPI-Peptides using the protein LiD1 (GI: 33348850,Felicori et al.
(2006)) catalytic sequence epitope (37 FDDNANPEYTYHGIP51 )
and default parameter of EPI-Peptide Designer (Ab-peptide dataset,
length of 15 amino acid and a score of 50). To ensure solubility, only
sequences which contained less than 50% hydrophobic residues;
at least 25% of charged residues and less than 75% of D, E, H,
K, N, Q, R, S, T and Y were selected and synthesized (Following
recommendations from Life technologies peptide solubility website,
http://www.lifetechnologies.com). Four hundred and sixty peptides
were synthesized on a cellulose membrane as previously described
by Laune et al. The membrane was blocked by incubation
with 3% BSA and 5% sacarose at room temperature overnight,
and then membranes were probed LiD1 covalently linked to
biotin at a concentration of 20µg/ml in blocking buffer at room
temperature for 90 min. Biotinalytion of LiD1 was conducted using
commercial available Biotinylation kit (Sigma-Aldrich, BK101).
Protein binding was revealed by incubation (at room temperature
for 90 min) with alkaline phosphatase-conjugated avidin (1:10,000)
and 5-bromo-4-chloro-3-indolyl phosphate (BCIP) plus 3-(4,5dimethylthiazol-2-yl)-2,5-diphenyltetrazolium bromide (MTT) as
substrate. To remove molecules and precipitated blue die attached,
membranes were sequentially treated with dimethylformamide, 1%
SDS, 0.1% 2-mercaptoethanol in 8 M urea, ethanol/water/acetic
acid (50:40:10, vol/vol/vol) and, finally, methanol and further
employed in other assays. Peptide reactivity was assessed based
on manual reading and consensus of triplicate assays. Positive
sequences were analysed by GibbsCluster (Andreatta et al., 2013)
and Weblogo (Crooks et al., 2004) tools.
3 RESULTS
Analysis of the Interface Interacting Residues (I2R) allows
evaluating the distance-based selection and the difference of
solvent-accessible surface methods
To compare the three interface residue selection techniques, we
selected interfaces from the 101 PDB structures by computing the
Euclidean distance DBS, the ∆SAS and the interface molecular
interactions (I2R). We then compared the selections made with
the DBS and ∆SAS methods against the I2Rs by computing the
ROC’ curves (Fig.1). Comparison of the selection made based on
the Euclidean distance with the extracted I2Rs showed that the
maximum precision was obtained with a 3Å distance, while the
maximum TPR (also called Recall) was reached with 8Å. The
DBS had a higher surface under the curve and the highest value
3
Downloaded from http://bioinformatics.oxfordjournals.org/ at Universidade Federal de Minas Gerais on February 12, 2016
Table 1. Amino acids group used for graph and subgraphs analysis
order of likelihood to the BRL until the defined cut-off score is
reached (i.e., for a BRL of 100 residues and a cut-off score of 10%,
EPI-Peptide Designer will add 10 residues to the BRL). The thus
obtained biased amino acid library (i.e., modified to become specific
for a given epitope sequence) is then used to generate random EPIpeptide sequences of the length and in the number defined by the
user.
Viart et al
of T P R − F DR was reached for a distance of 3.8Å. Most DBSbased Ab-Ag structure studies use a cut-off between 4Å and 6Å.
For a distance of 5Å, with this plot, 91.5% (TPR) of interacting
residues were selected; however, 32% of the selected residues
did not to do any kind of interaction. Surprisingly, to reach the
maximum TPR, a distance cut-off of 8Å was needed. As most of
the molecular interaction maximum distances are lower than 6Å,
we further investigated the interaction repartition.
As all interface interactions are not selected by the 5Å cut-off,
we were interested in the interaction repartition in function of the
distance. The bar plots (Fig.2A) of the interactions relative to the
chosen distance showed that the distance of 5Å, as expected based
on the previous results, allowed the selection of most interactions,
but still missed 8.5% of them, specifically 2% of all salt bridges,
5.2% of all hydrogen bonds and 6.5% of all aromatic stacking,
but none of the hydrophobic interactions. The hydrogen bonds
with a distance bigger than 5Å were all water-mediated, thus
explaining the unusual long distance. The cumulative bar plot of the
interactions (Fig.2B) showed that the hydrophobic interactions were
quantitatively the most important, followed closely by hydrogen
bonds. Conversely, salt bridges and aromatic stacking were less
frequent on the antibody-antigen interface.
Amino acid occurrence in epitopes and paratopes selected with
the Interface Interacting Residue (I2R) method
Compared to all interacting residues in STING RDB, I2R paratopes
(grey columns in Fig.3) were significantly enriched in Tyr, Ser,
Trp, Gly, Asn and Thr. I2R paratopes were depleted of most of
the other amino acids, but for Ala, Asp and Phe the occurrence
of which was not significantly different compared with all STING
RDB interacting residues. I2R epitopes (black columns in Fig.3)
4
Fig. 2. A:Percentage of molecular interactions by type using DSB from 0 to
3Å (black), from 3 to 4Å (dark grey),from 4 to 5Å light grey) and from 5 to
8Å (white). B: Cumulative occurrence of hydrophobic interactions (black),
salt bridges (dark grey), hydrogen bonds (light grey) and aromatic stacking
(white) at the antigen-antibody interface.
Fig. 3. Comparison of the occurrence (in percentage) of all interacting
residues in STING RDB (white), I2R epitopes (black) and I2R paratopes
(grey). Error bars are calculated as the standard deviation divided by the
root square of the set size. Stars represent statistically significant differences
compared to STING RDB, p value <0.01 using a standard t-test.
were enriched in Gly, Pro, Asn, Gln, Ser, Thr and Cys and depleted
of Glu, Arg, His Phe and Tyr.
A bipartite graph representation of the paratope-epitope
interactions indicated that the interacting residues had a very
asymmetric distribution (Fig.4). In the paratope, Tyr, the most
frequent residue, interacted with almost all the epitopic amino acids
via different types of interactions. Tyr interacted most frequently
with hydrophobic amino acids, particularly Pro, Gln, Gly, Phe, and
Downloaded from http://bioinformatics.oxfordjournals.org/ at Universidade Federal de Minas Gerais on February 12, 2016
Fig. 1. Comparison of DBS (black circles) and ∆SAS (red triangles) residue
selection using different cut-offs relative to the I2R method.
EPI-Peptide Designer
with the charged Lys and Arg in the epitope. Indeed, paratopic
Tyr interacted with positively charged epitopic residues via cationπ interactions and with negatively charged epitopic residues via
hydrogen bonds. The Ser in the paratope seemed important for
establishing a network of hydrogen bonds with charged amino acids
and also with Gln and Ser in the epitope. Among the charged
amino acids in the paratope, a high prevalence of salt bridges done
by Arg and Asp was observed. More heterogeneous interactions
were observed among the epitope residues. Although Arg was less
frequent than in other kinds of protein-protein interactions (Fig.4),
it was the most frequent residue in epitopes and was involved in
all kinds of interactions. Epitopic Arg interacted mostly with Tyr
residues in the paratope via aromatic stacking, hydrogen bonds and
hydrophobic interactions. It also formed salt bridges preferentially
with Asp, but also with Glu, and repulsive salt bridges with Arg in
the paratope. Lys in the epitope formed a similar network with Tyr
in the paratope.
The most conserved subgraphs highlight the importance of
cation-π interactions in the epitope-paratope interface
The extraction of the most conserved subgraphs from the complete
dataset with two of the three nodes showed that paratopic aromatic
residues (Tyr) predominantly interacted with positively charged
residues in the epitope through an aromatic stacking interaction
(cation-π interaction) (Fig.5A). Specifically, 84 of the 101 selected
structures contained at least one cation-π interaction in which the
positive charge was hold by the epitope. In addition 51 structures
contained a double cation-π interaction (Fig.5B) composed of a
positively charged residue in the epitope that interacted with two
aromatic amino acids from the paratope. The subgraphs also showed
that salt bridges often involved three residues: two negatively
charged from the paratope with one positively charged from the
epitope. Hydrogen bonds had a low score, although they were
the second most frequent type of interaction observed in Ab-Ag
interfaces. This can be explained by the variety of amino acid group
couples that can form such interaction, thus reducing the frequency
of same residue group - same interaction couples.
Assessment of the paratope residue prediction
Using these antibody-antigen graph patterns, we then developed a
new methodology to design antibody mimetics using the antigen
sequence Fig.6. First, we computed the Bayesian probability of
all kinds of interactions to predict the residue-interaction couples.
Then, to test the predictions, we used the 21 antibody-peptide
interfaces from our dataset and a leave-one-out cross-validation
method with all the interactions and the seven residue groups
(Table 1). Using a cut-off of 5%, meaning that a paratope-residue
interaction couple had to have a Bayesian probability of 0.05 to be
added, we obtained a sensitivity of 23% and a specificity of 95%,
with an accuracy of 92%.
EPI-Peptide Designer tool
From a set of user-defined Ab-Ag complexes (Fig.6A), the
EPI-Peptide Designer computed the graph representation of the
interfaces (Fig.6B). Then, from the set of graphs, the program
computed the amino acid occurrence in the second side (in our study
the paratope) and the interaction probability (Fig.6C and Fig.6D).
To demonstrate how the EPI-Peptide Designer works, we used the
epitope from the PDB structure 1TET that contains the choleric
5
Downloaded from http://bioinformatics.oxfordjournals.org/ at Universidade Federal de Minas Gerais on February 12, 2016
Fig. 4. The bipartite graph representation of the molecular interactions between I2R paratopes and I2R epitopes highlight the strong asymmetric pattern
of epitope-paratope interactions. The sphere size of each residue is proportional to the amino acid occurrence in its respective side. The vertex width is
proportional to the occurrence of the specific type of interaction; green, hydrogen bonds; blue, hydrophobic interactions; orange, attractive salt bridges; black,
repulsive salt bridges; red, aromatic stacking. Only vertices with an occurrence higher than 25 are represented.
Downloaded from http://bioinformatics.oxfordjournals.org/ at Universidade Federal de Minas Gerais on February 12, 2016
Downloaded from http://bioinformatics.oxfordjournals.org/ at Universidade Federal de Minas Gerais on February 12, 2016
Viart et al
8
might be useful for proteomic and high-throughput analyses
for antigen characterization because they minimize the work to
produce antibodies in vivo. Finally, this methodology might guide
the development of a new generation of biosensors as well as
therapeutic and diagnostic molecules.
Funding
This research was supported by Coordenaça̋o de Aperfeioamento de
Pessoal de Nı́vel Superior, Brazil (CAPES), Fundaça̋o de Amparo
a Pesquisa do Estado de Minas Gerais, Brazil (FAPEMIG) and by
funds of the Conselho Nacional de Desenvolvimento Cientı́fico e
Tecnológico, Brazil (CNPq).
REFERENCES
Andreatta, M., Lund, O., and Nielsen, M. (2013). Simultaneous alignment and
clustering of peptide data using a Gibbs sampling approach. Bioinformatics, 29(1),
8–14.
Berman, H. M., Westbrook, J., Feng, Z., Gilliland, G., Bhat, T. N., Weissig, H.,
Shindyalov, I. N., and Bourne, P. E. (2000). The Protein Data Bank. Nucleic Acids
Res., 28(1), 235–242.
Burns, V. A., Bobay, B. G., Basso, A., Cavanagh, J., and Melander, C. (2008). Targeting
RNA with cysteine-constrained peptides. Bioorg. Med. Chem. Lett., 18(2), 565–567.
Chakrabarti, P. and Janin, J. (2002). Dissecting protein-protein recognition sites.
Proteins, 47(3), 334–343.
Chothia, C. and Janin, J. (1975). Principles of protein-protein recognition. Nature,
256(5520), 705–708.
Crooks, G. E., Hon, G., Chandonia, J. M., and Brenner, S. E. (2004). WebLogo: a
sequence logo generator. Genome Res., 14(6), 1188–1190.
Csardi, G. and Nepusz, T. (2006). The igraph software package for complex network
research. InterJournal, Complex Systems, 1695.
Dalkas, G. A., Teheux, F., Kwasigroch, J. M., and Rooman, M. (2014). Cation-, amino, -, and H-bond interactions stabilize antigen-antibody interfaces. Proteins, 82(9),
1734–1746.
Felicori, L., Araujo, S. C., de Avila, R. A., Sanchez, E. F., Granier, C., Kalapothakis,
E., and Chavez-Olortegui, C. (2006). Functional characterization and epitope
analysis of a recombinant dermonecrotic protein from Loxosceles intermedia spider.
Toxicon, 48(5), 509–519.
Fleishman, S. J., Whitehead, T. A., Ekiert, D. C., Dreyfus, C., Corn, J. E., Strauch,
E. M., Wilson, I. A., and Baker, D. (2011). Computational design of proteins
targeting the conserved stem region of influenza hemagglutinin. Science, 332(6031),
816–821.
Fontenot, J. D., Tan, X., and Phillips, D. M. (1998). Structure-based design of peptides
that recognize the CD4 binding domain of HIV-1 gp120. AIDS, 12(12), 1413–1418.
Fu, L., Niu, B., Zhu, Z., Wu, S., and Li, W. (2012). CD-HIT: accelerated for clustering
the next-generation sequencing data. Bioinformatics, 28(23), 3150–3152.
Hanf, K. J., Arndt, J. W., Chen, L. L., Jarpe, M., Boriack-Sjodin, P. A., Li,
Y., van Vlijmen, H. W., Pepinsky, R. B., Simon, K. J., and Lugovskoy, A.
(2013). Antibody humanization by redesign of complementarity-determining region
residues proximate to the acceptor framework. Methods.
Harris, T. K. and Mildvan, A. S. (1999). High-precision measurement of hydrogen
bond lengths in proteins by nuclear magnetic resonance methods. Proteins, 35(3),
275–282.
Holliger, P. and Hudson, P. J. (2005). Engineered antibody fragments and the rise of
single domains. Nat. Biotechnol., 23(9), 1126–1136.
Hudson, P. J. and Souriau, C. (2003). Engineered antibodies. Nat. Med., 9(1), 129–134.
Kringelum, J. V., Nielsen, M., Padkjæ r, S. B., and Lund, O. (2012). Structural analysis
of B-cell epitopes in antibody:protein complexes. Mol. Immunol., 53(1-2), 24–34.
Kunik, V., Peters, B., and Ofran, Y. (2012). Structural consensus among antibodies
defines the antigen binding site. PLoS Comput. Biol., 8(2), e1002388.
Laune, D., Molina, F., Ferrieres, G., Villard, S., Bes, C., Rieunier, F., Chardes, T., and
Granier, C. (2002). Application of the Spot method to the identification of peptides
and amino acids from the antibody paratope that contribute to antigen binding. J.
Immunol. Methods, 267(1), 53–70.
Lo Conte, L., Chothia, C., and Janin, J. (1999). The atomic structure of protein-protein
recognition sites. J. Mol. Biol., 285(5), 2177–2198.
Mancini, A. L., Higa, R. H., Oliveira, A., Dominiquini, F., Kuser, P. R., Yamagishi,
M. E., Togawa, R. C., and Neshich, G. (2004). STING Contacts: a web-based
Downloaded from http://bioinformatics.oxfordjournals.org/ at Universidade Federal de Minas Gerais on February 12, 2016
such as the distance between atoms of the antigen and the antibody
(DBS) and the difference of solvent-accessible surface (∆SAS).
Here, we developed a new method based on the interface molecular
contact (I2R) to extract from the Ab-Ag interface only the amino
acids that make interactions, using the STING database (Neshich
et al., 2006). By comparing the selections obtained using the I2R,
DBS and ∆SAS methods, we show that DBS and ∆SAS missed
part of the interacting residues that are important for the interface.
Indeed, with a distance cut-off of 8Å, 60% of the amino acids
that do not interact are selected in addition to the amino acids that
do interactions. With a distance cut-off of 4Å, more than 10% of
interacting residues are not selected and more than 20% of selected
residues are not involved in interactions.
The I2R method also allowed studying the type of interactions
and gave an approximation of the residue energetic contribution to
the interface in a fast and easy way. Moreover, this selection method
could be used to select targets for free-energy perturbation (FEP)
(Xia et al., 2012), or to identify binding hot-spots to facilitate the
humanization of mouse antibodies (Hanf et al., 2013). As previously
noted with other selection techniques (Rubinstein et al. (2008);
Kringelum et al. (2012); Ramaraj et al. (2012)), we found that the
paratope was significantly enriched in Tyr, Ser and Trp residues.
However, by comparing the occurrence of the I2R-selected amino
acids and of all protein-protein interactions found in the STING
database (Neshich et al., 2006), we found that the occurrence of
most of the Ab-Ag interface residues was significantly different (but
not for Ala, Glu and Phe), thus characterizing the antigen-antibody
interface as a special kind of protein-protein interaction. Concerning
the extraction of the most frequent partners, we highlighted the
importance of the cation-π interaction. Dalkas and colleagues
(Dalkas et al., 2014) previously reported that this type of interaction
represents only 5% of the Ab-Ag interfaces, whereas in our study
84 of the 101 structures contained at least one cation-π interaction,
where the positive charge is hold by the epitope. Moreover, 51
of them contained a double cation-π interaction composed of a
positively charged residue in the epitope that interacted with two
aromatic amino acids from the paratope. These results suggest that
the cation-π interaction is highly conserved interaction in antigenantibody interfaces but with low frequency as showed by Dalkas
et al.
Besides gaining insights into the antigen-antibody interface
characteristics, in this work we also describe a methodology to
design peptide binders based on the epitope-paratope interface. In
addition, this methodology was experimentally validated showing
that 65% of the predicted peptides are reactive. Those peptides
contain two consecutive conserved Tyr, a key residue in paratopes.
Moreover, those Tyr could interact with hydrophobic amino acids
from LiD1 epitope sequence (Phe37, Pro 43, Gly 49, Pro 51) or
positively charged residue (Hys 48) via cation-π or even negatively
charged residues via hydrogen bond (Asp 38 and Asp 39). The
computational design protocol is far from perfect because it does
not take into account the antibody structural properties. However,
strategies, such as cysteine-constrained peptides, could be employed
to mimic antibody loops as shown by Burns et al. and thus
force a constrained conformation of our predicted peptides. In
conclusion, our study provides insights into the principles that
guide Ab-Ag interactions and describes an original methodology
(EPI-Peptide Designer) to design ligand peptide libraries, based on
a given antigen sequence. These targeted peptide ligand libraries
EPI-Peptide Designer
Sela-Culang, I., Alon, S., and Ofran, Y. (2012). A systematic comparison of free
and bound antibodies reveals binding-related conformational changes. J. Immunol.,
189(10), 4890–4899.
Smith, T. F., Waterman, M. S., and Fitch, W. M. (1981). Comparative biosequence
metrics. J. Mol. Evol., 18(1), 38–46.
Sobolev, V., Sorokine, A., Prilusky, J., Abola, E. E., and Edelman, M. (1999).
Automated analysis of interatomic contacts in proteins. Bioinformatics, 15(4),
327–332.
Swindells, M. B. (1995). A procedure for the automatic determination of hydrophobic
cores in protein structures. Protein Sci., 4(1), 93–102.
Timmerman, P., Barderas, R., Desmet, J., Altschuh, D., Shochat, S., Hollestelle,
M. J., Hoppener, J. W., Monasterio, A., Casal, J. I., and Meloen, R. H. (2009).
A combinatorial approach for the design of complementarity-determining regionderived peptidomimetics with in vitro anti-tumoral activity. J. Biol. Chem., 284(49),
34126–34134.
Timmerman, P., Shochat, S. G., Desmet, J., Barderas, R., Casal, J. I., Meloen, R. H., and
Altschuh, D. (2010). Binding of CDR-derived peptides is mechanistically different
from that of high-affinity parental antibodies. J. Mol. Recognit., 23(6), 559–568.
Vanhee, P., van der Sloot, A. M., Verschueren, E., Serrano, L., Rousseau, F.,
and Schymkowitz, J. (2011). Computational design of peptide ligands. Trends
Biotechnol., 29(5), 231–239.
Vlieghe, P., Lisowski, V., Martinez, J., and Khrestchatisky, M. (2010). Synthetic
therapeutic peptides: science and market. Drug Discov. Today, 15(1-2), 40–56.
Wada, A. (2013). Development of Next-Generation Peptide Binders Using In vitro
Display Technologies and Their Potential Applications. Front Immunol, 4, 224.
Xia, Z., Huynh, T., Kang, S. G., and Zhou, R. (2012). Free-energy simulations
reveal that both hydrophobic and polar interactions are important for influenza
hemagglutinin antibody binding. Biophys. J., 102(6), 1453–1461.
Yin, H. and Hamilton, A. D. (2005). Strategies for targeting protein-protein interactions
with synthetic agents. Angew. Chem. Int. Ed. Engl., 44(27), 4130–4163.
Yin, H., Slusky, J. S., Berger, B. W., Walters, R. S., Vilaire, G., Litvinov, R. I., Lear,
J. D., Caputo, G. A., Bennett, J. S., and DeGrado, W. F. (2007). Computational
design of peptides that target transmembrane helices. Science, 315(5820), 1817–
1822.
9
Downloaded from http://bioinformatics.oxfordjournals.org/ at Universidade Federal de Minas Gerais on February 12, 2016
application for identification and analysis of amino acid contacts within protein
structure and across protein interfaces. Bioinformatics, 20(13), 2145–2147.
Margulies, D. and Hamilton, A. D. (2010). Combinatorial protein recognition as an
alternative approach to antibody-mimetics. Curr Opin Chem Biol, 14(6), 705–712.
Morea, V., Lesk, A. M., and Tramontano, A. (2000). Antibody modeling: implications
for engineering and design. Methods, 20(3), 267–279.
Nelson, A. L. and ert, J. M. (2009). Development trends for therapeutic antibody
fragments. Nat. Biotechnol., 27(4), 331–337.
Neshich, G., Mazoni, I., Oliveira, S. R., Yamagishi, M. E., Kuser-Falcao, P. R., Borro,
L. C., Morita, D. U., Souza, K. R., Almeida, G. V., Rodrigues, D. N., Jardine, J. G.,
Togawa, R. C., Mancini, A. L., Higa, R. H., Cruz, S. A., Vieira, F. D., Santos, E. H.,
Melo, R. C., and Santoro, M. M. (2006). The Star STING server: a multiplatform
environment for protein structure analysis. Genet. Mol. Res., 5(4), 717–722.
Nijssen, S. and Kok, J. (2004). A quickstart in frequent structure mining can make a
difference. proceedings of the sigkdd.
Park, B. W., Zhang, H. T., Wu, C., Berezov, A., Zhang, X., Dua, R., Wang, Q., Kao,
G., O’Rourke, D. M., Greene, M. I., and Murali, R. (2000). Rationally designed
anti-HER2/neu peptide mimetic disables P185HER2/neu tyrosine kinases in vitro
and in vivo. Nat. Biotechnol., 18(2), 194–198.
Pei, D. and Wavreille, A. S. (2007). Reverse interactomics: decoding protein-protein
interactions with combinatorial peptide libraries. Mol Biosyst, 3(8), 536–541.
Ponde, D. E., Su, Z., Berezov, A., Zhang, H., Alavi, A., Greene, M. I., and Murali,
R. (2011). Development of anti-EGF receptor peptidomimetics (AERP) as tumor
imaging agent. Bioorg. Med. Chem. Lett., 21(8), 2550–2553.
R Development Core Team (2008). R: A Language and Environment for Statistical
Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3900051-07-0.
Ramaraj, T., Angel, T., Dratz, E. A., Jesaitis, A. J., and Mumey, B. (2012). Antigenantibody interface properties: composition, residue interactions, and features of 53
non-redundant structures. Biochim. Biophys. Acta, 1824(3), 520–532.
Reichert J., Pechon P., T. A. D. M. K. (2010). Report summary: development trends for
peptide therapeutics. Pept. Ther. Found., pages 1–11.
Rubinstein, N. D., Mayrose, I., Halperin, D., Yekutieli, D., Gershoni, J. M., and Pupko,
T. (2008). Computational characterization of B-cell epitopes. Mol. Immunol.,
45(12), 3477–3489.

Documentos relacionados