Uso de métodos computacionais para identificação de epítopos em
Transcrição
Uso de métodos computacionais para identificação de epítopos em
Uso de métodos computacionais para identificação de epítopos em metaloproteases (Snake Venom MetalloProteases –SVMPs) e neurotoxinas (NTx) de venenos de serpentes Edgar Ernesto Gonzalez Kozlova Orientação:Prof. Dr.Carlos Chavez Olórtegui Co-Orientação:Prof. Dr. Ricardo Andrez Machado de Ávila Universidade Federal de Minas Gerais Instituto de Ciências Biológicas Programa de Pós-Graduação em Bioinformática Avenida Presidente Antônio Carlos, 6627 – Pampulha 31270-901 - Belo Horizonte – MG Março 2016 Para minha família, Agradecimentos Primeiramente, gostaria de expressar meus agradecimentos ao meu orientador Prof. Dr. Carlos Chávez-Olórtegui pela oportunidade de fazer o doutorado com sua equipe, assim como o seu contínuo auxílio e paciência que teve comigo durante todo esse tempo. Seus conselhos me serviram de guia para entender melhor o processo do desenvolvimento científico, a importância de detalhes e regras para se realizar uma boa pesquisa. À Prof. Dra. Liza Felicori e ao meu co-orientador Prof. Dr. Ricardo A. Machado de Ávila por terem me tratado de forma tão acolhedora desde o início. Sou eternamente grato, pois eles sugeriram várias hipóteses que tornaram esta tese possível. Sem eles esta pesquisa não teria se encaminhado na direção certa. Seus constantes apoios permitiram com que eu chegasse neste objetivo e entendesse um pouco os epítopos e o fascinante mecanismo das interações anticorpo-antígeno. Aos membros do Instituto de Ciências Biológicas, Prof. Dr. Vasco, Prof. Dr. Miguel, Prof. Dr. Jader, Prof. Dra. Glória, Prof. Dr. Evanguedes, Prof. Dr. Salas, ao técnico Jamil pelo grande apoio. Às secretárias Sheila e Ana Paula, que facilitaram os processos administrativos. Aos Prof. Dr. Loic Cerf e Prof. Augusto dos Santos, por me introduzir e orientar as metodologias de mineração de dados alem das interessantes discussões a respeito da importância dos dados biológicos no ambiente da computação. Dedico esta tese aos meus pais, Jose Gonzalez e Irina Kozlova, que me orientaram durante minha vida. Agradeço pelo grande amor e apoio que sempre me deram, além de me darem liberdade para a conquista de uma profissão de meu interesse. À Bárbara Rossi, um agradecimento muito especial. Ela trouxe muita alegria para meu coração e deu todo o apoio que precisei para nunca ficar triste mesmo estando distante da minha família. Ao Benjamin pela amizade e companheirismo durante todo o doutorado pelos bons momentos que tivemos jogando videogames, jogos de mesa e tomando caipirinhas. A todos os meus amigos e colegas da UFMG, incluindo a família do Labimq, que providenciou tudo o que precisei para o desenvolvimento desta tese e me mostrar um pouco da cultura Mineira. Uso de métodos computacionais para identificação de epítopos em metaloproteases (snake venom metalloproteases –SVMPs) e neurotoxinas (NTx) de venenos de serpentes Edgar Ernesto Gonzalez Kozlova Universidade Federal de Minas Gerais Instituto de Ciências Biológicas Programa de Pós-Graduação em Bioinformática Avenida Presidente Antônio Carlos, 6627 Pampulha 31270-901 Belo Horizonte, MG Resumo Os anticorpos são proteínas que pertencem na família de imunoglobulinas, principalmente secretadas por células plasmáticas. Estas são um componente importante para o sistema imunitário humoral, permitindo identificar e neutralizar antígeno sem posições específicas chamadas epítopos.A identificação destes é uma etapa importante, laboriosa e experimentalmente custosa no desenvolvimento de vacinas, soroterápicos, diagnósticos. O uso de métodos computacionais para identificação de epítopos permite auxiliar e orientar os métodos experimentais além de proporcionar informações bio/físico-químicas e evolutivas dos mesmos.Nesta tese exploramos e analisamos os epítopos lineares de células B obtidos da literatura (PubMed)e bases de dados (IEDB eBCPred) para duas famílias de proteínas, metalaproteases (snake venom metalloproteases-SVMPs) e neurotoxinas (NTx). Avaliamos nesses epítopos as propriedades bio/físico-químicas (PCP), a estrutura secundária predita (PSS) e a combinação de ambas (PCP + PSS). Comparamos o desempenho de vários algoritmos de mineração de dados, incluindo máquina de suporte de vetores (SVM), classificador Bayer ingênuo (NBC), árvore de decisão (DT), kmeans (KM) e regressão linear múltipla (MLR). Através da análise com DT foi possível separar os epítopos de SVMPs e NTx,mostrando que cada família protéica possui características PCP e PSS diferentes. Além disso, proteínas de uma mesma família possuem propriedades semelhantes. Estas propriedades particulares de cada família(SVMPs ou NTx), permitiu classificá-las como epítopos quando comparadas com sequências aleatórias de resíduos de aminoácidos. Posteriormente, usamos três proteínas SVMPs - P1 para validar nosso método: BaP1 uma SVMP do Bothrops asper, Atroxlysine (Atr-I) da serpente Bothrops atrox e Leucurolysine-a (Leuc-a) da serpente Bothrops leucurus. Comparamos nossos resultados com os programas de predição de epítopos ABCPred, Bepipred, TEPRF e com a metodologia experimental SPOT- síntese. Consequentemente, nosso algoritmo mostrou resultados estatisticamente mais precisos, respeito destes preditores, quando comparados com o método experimental. Por fim sintetizamos um peptídeo de 15aa baseado em uma região da Atr-I identificada exclusivamente por nosso algoritmo. Utilizamos ele para produzir anticorpos que mostraram ser capazes de neutralizar o efeito hemorrágico da Atr-I. Nossos resultados apresentam uma nova alternativa para identificação computacional de epítopos em neurotoxinas e metaloproteases de venenos de serpentes. Abstract The antibodies are proteins that belong to the immunoglobin family, mainly secreted by plasma cells. They are an important component for the humoral immune system, that allow to identify and neutralize antigens in specific positions called epitopes. The identification of these is an important, difficult and experimentally expensive step in the development of vaccines, serum-therapy and diagnostics. The use of computational methods to identify epitopes help to guide experimental techniques besides of bringing information regarding the bio/physical properties and evolutionary data of epitopes. The current thesis explore and analyze linear B cell epitopes obtained from literature (PubMed) and databases (IEDB e BCPred) for two protein families, snake venom metalloproteases (SVMPs) e neurotoxins (NTx). We focused on the bio/physical-chemical (PCP) and secondary structure properties (PSS), individually and merged (PCP+PSS) of these epitopes. We also compared the performance of several data mining algorithms including support vector machine (SVM), Naive Bayes classifier (NBC), decision tree (DT), Kmeans (KM) and multiple linear regression (MLR). The analysis with DT allowed to separate the epitopes from SVMPs and NTx, showing that each family posses unique PCP and PSS properties. Also, the different characteristics between these two protein families enable to classify them as epitopes when compared with random protein sequences. Therefore, we used three SVMPs-P1 to validate our computational method: BaP1 a SVMP from the snake Bothrops asper, Atroxlysine (Atr-I) from Bothrops atrox and Leucurolysinea (Leuc-a) from Bothrops leucurus. We compared our results with the epitope prediction software ABCPred, Bepipred, TEPRF and with the experimental technique SPOT-synthesis. Consequently, our algorithm showed more accurate results when compared with the other predictors in relation to the immunobloting results. Finally, we synthesized a peptide of 15aa based on a computationally identified region from Atr-I with our algorithm. We used this peptide to produce antibodies in mice that showed to be capable of neutralize the hemorrhagic effect of Atr-I. Thereby our results show a new alternative for computational identification of epítopos for metalloproteinases and neurotoxins. ÍNDICE Lista de figuras Pag. 10 Lista de tabelas Pag. 11 Lista de abreviaturas Pag. 12 1. Introdução Pag. 13 1.1 Epítopos Pag. 15 1.2 Antigenicidade, imunogenicidade e paratopos Pag. 15 1.3 Tipos de epítopos Pag. 17 1.4 Propriedades de epítopos Pag. 19 1.5 Bases de dados sobre epítopos Pag. 20 1.6 Identificação de epítopos Pag. 22 1.6.1 Métodos experimentais Pag. 22 1.6.1 Métodos computacionais Pag. 24 1.7 Desafios e perspectivas na predição de epítopos Pag. 27 2. Justificativa Pag. 28 3. Objetivos Pag. 30 4. Materiais e métodos Pag. 31 4.1 Extração de dados Pag. 31 4.1.1 Dataset metneu Pag. 31 4.1.2 Dataset Host IEDB Pag. 32 4.1.3 Dataset BCPred Pag. 32 4.2.Descritores de epítopos de células B Pag. 33 4.3.Konstanz information miner Pag. 34 4.4.Kmeans Pag. 34 4.5.Árvore de decisão Pag. 34 4.6. Naive bayes Pag. 35 4.7. Support Vector Machine Pag. 35 4.8. Multiple linear regression Pag. 36 4.9.Análise dos modelos avaliando a curva ROC Pag. 37 4.10. Interface de banco de dados Pag. 38 4.11.SPOT Síntese Pag. 38 4.11.1 Síntese de peptídeos sobre membrana Pag. 38 4.11.2 Ensaio imunoquímico Pag. 39 4.11.3 Regeneração da membrana Pag. 40 4.11.4 Síntese química de peptídeos Pag. 40 4.12.Espectrometria de massa Pag. 42 4.13.Protocolos de imunização Pag. 42 4.14.ELISA Pag. 43 4.15.Atividade hemorrágica Pag. 43 5. Resultados e Discussão 5.1. Propriedades de epítopos de SVMPs e NTx Pag. 44 Pag. 44 5.2. Padrões em epítopos de metaloproteinas e neurotoxinas Pag. 52 5.3. Padrões em epítopos reconhecidos por anticorpos de animais diferentes Pag. 63 5.4. Previsão de epítopos usando MLR e DT Pag. 70 5.5. Mapeamento experimental e computacional de epítopos de metaloproteases Pag. 74 5.5.1 Mapeamento de epítopos pelo método SPOT synthesis Pag. 75 5.5.2 Mapeamento computacional 5.5.3 Seleção de epítopos para síntese de peptídeos e imunização Pag. 82 Pag. 87 5.5.4 Neutralização de Atr-I com anticorpos anti-VDLFIVVDHGMFMKY Pag. 90 5.8. Base de dados UML Pag. 92 6. Conclusão Pag. 94 7. Perspectivas Pag. 95 8. Referências Pag. 96 9.Anexos Pag. 109 10 Lista de figuras 1. Figura 1. Resposta Imune Humoral Pag. 14 5.1. Figura 2. Valor computacional de epítopos Pag. 46 5.1 Figura 3. Composição de aminoácidos de epítopos metneu Pag. 49 5.1 Figura 4. Composição de aminoácidos agrupados de epítopos metneu Pag. 52 5.2 Figura 5. Curvas ROC baseadas propriedades PCP Pag. 56 5.2 Figura 6. Curvas ROC baseadas em propriedades PSS Pag. 56 5.2 Figura 7. Modelo Arvore de decisão para propriedades PSS Pag. 58 5.2 Figura 8. Curvas ROC baseadas em propriedades PSS e PCP Pag. 59 5.2 Figura 9. Modelo Arvore de decisão para propriedades PSS e PCP Pag. 62 5.3 Figura 10. Grupos de aminoácidos agrupados pela espécie do anticorpo Pag. 66 5.3 Figura 11. Aminoácidos agrupados pela espécie do anticorpo Pag. 67 5.3 Figura 12. Curvas ROC baseadas em epítopos agrupados pela espécie de Ac. Pag. 68 5.4 Figura 13. Aminoácidos importantes nos grupos epítopo e não epítopo. Pag. 72 5.4 Figura 14. Curvas ROC em modelos classificadores de epítopos Pag. 73 5.5 Figura 15. Tipos de metaloproteases de venenos de serpente Pag. 75 5.5 Figura 16. Membrana SPOT exposta a soro monoclonal IgG anti-Atr-I Pag. 77 5.5 Figura 17. Membrana SPOT exposta a soro policlonal anti-Leuc-a Pag. 78 5.5 Figura 18. Membrana SPOT exposta a soro policlonal anti-BaP1 Pag. 80 5.5 Figura 19. Identificação computacional de epítopos em SVMPs Pag. 86 5.5 Figura 20. Massa molecular dos peptídeos CPEN e CNEN Pag. 89 5.5 Figura 21.Efeitos neutralizantes dos anticorpos anti-CPEN Pag. 91 5.5 Figura 22. Diagrama da Base de dados em UML Pag. 93 11 Lista de tabelas 5.1 Tabela 1. Lista dos epítopos do conjunto de dados metneu Pag. 47 5.2 Tabela 2. Propriedades importantes dos modelos PCP e PSS Pag. 61 5.2 Tabela 3. Coeficientes do modelo MLR quando usados espécies de anticorpos Pag. 69 5.2 Tabela 4. Epítopos identificados por SPOT síntese para Atroxlisin-I Pag. 77 5.2 Tabela 5. Epítopos identificados por SPOT síntese para Leucurolisina-a Pag. 81 5.2 Tabela 6. Epítopos identificados por SPOT síntese para BaP1 Pag. 82 5.2 Tabela 7. Matriz de distância/identidade entre Atr-I, BaP1 e Leuc-a Pag. 84 5.2 Tabela 8. Propriedades importantes com índices gini e decreased accuracy Pag. 85 5.2 Tabela 9. Epítopos de SVMPs identificados computacionalmente Pag. 85 5.2 Tabela 10. Estatísticas comparativas entre Labimq e outros modelos. Pag. 96 12 Lista de abreviaturas R H K D E S T N Q C G P A V I L M F Y W CSV GRAVY PCP PSS SVM DT MLR NB ou Bayes KM PDB UML IEDB SSH ROC Ag Ac AUC EpiLCB Atr-I DMF CBS PBS Fmoc Leuc-a BaP1 Arginina Histidina Lisina Ácido aspártico Ácido glutâmico Serina Treonina Aspa Glutamina Cistêina Glicina Prolina Alanina Valina Isoleucina Leucina Metionina Fenilalanina Tirosina Triptofano Coma Separated Values Grand average of hydropaty (Índice de hidropatia) Physicochemical Properties (Propriedades fisico-químicas) Predicted Secondary Structure (Estrutura secundária predita) Support Vector Machine (Máquina de suporte de vetores) Árvore de decisão Regressão linear múltipla Classificador ingênuo de Bayes Kmeans Protein Data Bank (Banco de dados de proteínas) Unified Modeling Language (Linguagem de modelagem unificado) Immune Epitope Data Base (Base de dados de epítopos imunes) Secure Shell Receiver Operating Characteristic Antígeno Anticorpo Área embaixo da curva, do Inglês Area Under the Curve. Epítopos lineares de células B Atroxlysine-I Dimethylformamide Citrate Buffer Saline / Tampão citrato salino Phosphate Buffer Saline / Tampão fosfato salino Fluorenylmethyloxycarbonyl chloride Leucurolysine-a Metaloproteinase P1 de Bothrops asper 13 Introdução No quinto século a. C. Thycydides recebeu o crédito pela primeira menção da palavra "ασuλiα" ou imunidade, que dizia respeito a uma infecção que ele chamou de "praga" durante a guerra do Peloponeso entre Esparta e Atenas em 411 a. C. (Cochrane, 1929). O conceito de imunidade pode ter existido muito antes, como sugere o costume chinês de tornar as crianças resistentes à varíola, fazendo-as inalar o pó feito a partir de lesões de pele de pacientes em recuperação da doença (Silverstein, 1989). Uma referência poética ao "Imune" pode ser encontrada no poema "Pharsalia", escrito por Marcos Roman Annaeus Lucanys (39-65 d. C.), que descreve a famosa resistência à picada de cobra da tribo Psylli do Norte de África (Hunter, 1982). Atualmente, a Imunologia é uma ciência experimental que explica fenômenos imunológicos baseados em observações. A evolução dessa ciência tem dependido da nossa capacidade de manipular a função do sistema imunológico, em condições controladas (Abbas, 2005). O primeiro nítido exemplo dessa manipulação, e que permanece entre as mais dramáticas já registradas, foi feita por Edward Jenner, um médico Inglês. Ele notou que crianças que bebiam leite bovino recuperavamse da varíola comum e, após a recuperação, elas não contraíam a varíola mais grave (Jerne, 1955). Com base nesta observação, o médico injetou o material da pústula da varíola bovina no braço de um menino de nove anos de idade. Algum tempo depois, o menino foi intencionalmente inoculado com varíola e a doença não se desenvolveu (Burnet, 1957). Assim, Jenner deu início ao campo da vacinação, ("vaccinus", ou de vacas) e suas pesquisas foram publicadas em 1798. Graças a ele, neste ano houve a primeira vacinação bem sucedida contra a varíola. Diversas pesquisas podem ser encontradas descrevendo a enorme diversidade e plasticidade da resposta imune (Figura 1) dos organismos vivos contra vírus patogênicos, micróbios ou qualquer 14 molécula estranha durante o período da vida. Uma das respostas mais complexas contra agentes externos envolve a resposta imune adaptativa que conta com as células B. Estas reconhecem antígenos através de seus receptores de imunoglobulina ligados a membranas, para a posterior produção de anticorpos específicos (Kurosaki, 2002). Figura 1. Resumo da resposta imune adaptativa. A: Captação do antígeno; B: Ativação das células Th.; C: Diferenciação das células Th.; D: Ativação de células B. Estes processos podem ser dependente ou não das células T. FONTE: Moyle and Toth., 2013. 15 1.1 Epítopos Os Epítopos ou determinantes antigênicos são sequências formadas por resíduos de aminoácidos importantes encontrados no antígeno que participam das interações antígeno-anticorpo (Pellequer et al., 1993). Estas sequências são reconhecidas pelos anticorpos com especificidade variável (Ofran and Kunik, 2013). Quando esta interação é formada, tanto o anticorpo quanto o antígeno sofrem mudanças estruturais. Estas podem neutralizar o antígeno, facilitando seu futuro processamento pelo sistema imune (Toth and Moyle, 2013). Assim, é de fácil compreensão o fato de que os epítopos estão no centro da resposta imune humoral (Wilson, 2012). Entender detalhadamente as propriedades dos epítopos e como eles são reconhecidos é de suma importância para que sejam identificados de maneira rápida e eficiente. Isto propicia à medicina o planejamento de vacinas e ferramentas de diagnóstico, permitindo a utilização de novos imuno-ensaios para a detecção, isolamento e caracterização de moléculas associadas com vários estados de doença, seja viral, bacteriana ou parasitária. Da mesma forma, esses conhecimentos facilitaram o desenvolvimento de produtos, tais como anticorpos monoclonais, mimotopos, proteínas quimeras e dentre outros. (Parren, 2000). 1.2 Antigenicidade , imunogenicidade e paratopos No âmbito das interações antígeno-anticorpo são usados vários termos, taís como antigenicidade e imunogenicidade, para facilitar uma eficiente avaliação e comparação de resultados. A antigenicidade é a habilidade de uma molécula ser reconhecida por um anticorpo em determinantes antigênicos, mas não necessariamente é suficiente para causar uma resposta imune específica (Regenmortel, 2001). Enquanto que a imunogenicidade é a capacidade de um antígeno produzir uma resposta imune no organismo. Além do antígeno ligar-se a um anticorpo, é preciso ativar vários mecanismos regulados por células a fim de que o processamento e a apresentação dos epítopos sejam diferentes. Dessa forma, também é possível classifica-los, como os epítopos 16 reconhecidos por células T ou por células B. As células T estão relacionadas às respostas celular e regulatória, enquanto as células B são de caráter humoral. Os epítopos de células T são apresentados pelas células apresentadoras de antígenos, assim estes fragmentos de antígenos ou epítopos estão ligados a moléculas MHC (Abbas et al., 2005). A maioria de células somáticas nucleadas apresentam moléculas MHC classe I, ligadas a epítopos. Estas são apresentadas para as células T citotóxicas as quais induzem apoptose nas células infectadas ou doentes. O numero de aminoácidos nos epítopos apresentados pelas moléculas MHC classe I se encontra entre 8 e 11, principalmente apresentados a células T CD8+ ou citotóxicas (Huang et al., 2006). As células que apresentadoras de antígenos interagem com as células B as quais reconhecem os epítopos apresentados por estas e se transformam logo em células plasmáticas produtoras de anticorpos. As moléculas MHC classe II apresentam epítopos com tamanhos entre 13 a 17 aminoácidos para células T CD4+ ou Helper as que participan ativando células B (Rocha, 2008). Portanto, as células B ativadas podem-se transformar em células plasmáticas produtoras de anticorpos. A região específica do anticorpo que se une a um epítopo denomina-se paratopo. Este pode estar formado por sequências muito variáveis de resíduos de aminoácidos que encontra-se fixos nos esqueletos dos anticorpos (Parren al., 2000). Esta particularidade permite ao sistema imune reconhecer uma ampla quantidade de antígenos, que podem ser de bactérias, vírus ou toxinas capazes de desregular a homeostase no hospedeiro (Subramanian and Chinnappan, 2013). Os resíduos de aminoácidos presentes no paratopo são encontrados principalmente em regiões CDR (do inglês: complementarity determining regions ou região determinante de complementariedade) mas não exclusivamente. Estas regiões são chamadas de hiper-variáveis nos anticorpos, permitindo sua 17 identificação química pela primeira vez por Rodney Porter, em 1950. Posteriormente, estas regiões foram caracterizadas por Robert A. Good, em 1972 (Saxon W., 2003), sendo o primeiro mapeamento completo da estrutura de um anticorpo. Atualmente, ainda são estudadas as propriedades que influenciam a antigenicidade e imunogenicidade de um antígeno, assim como as diferentes interações entre anticorpo-antígeno (Keskin et al., 2005, Viart et al., 2016). O entendimento destas propriedades permitira um melhor desenho experimental na produção de vacinas, biosensores, métodos imunoterapêuticos e moléculas para diagnostico. 1.3 Tipos de epítopos de células B Os determinantes antigênicos de células B são classificados em dois tipos: Epítopos lineares ou EpiLCB, também chamados de contínuos, e epítopos conformacionais, também chamados de deslineares (Walter, 1986). Os EpiLCB são fragmentos sequenciais localizados ao longo do antígeno. Os epítopos deslineares, por sua vez, são compostos de resíduos de aminoácidos isolados que se encontram próximos devido ao dobramento tridimensional da proteína ou folding. A maioria dos epítopos na natureza protéica são considerados deslineares, com estimativa de 90%, e apenas 10% são considerados lineares (Regenmortel, 2009). Esta classificação de epítopos é usada comumente na literatura mas é importante destacar que todos os epítopos, lineares ou não) possuem uma conformação em três dimensões, tanto os lineares como os conformacionais (Nielsen & Marcatili, 2015). Isso significa que os anticorpos reconhecem sequências especificas dispostas em conformações particulares tanto como para epítopos lineares e conformacionais. Assim em um futuro, quando reveladas todas as características criticas dos epítopos, em teoria deveria ser possível identificar os epítopos de um antígeno independentemente de eles ser lineares ou conformacionais. 18 Além disso, os epítopos dependem da sua conformação estrutural, desta forma ao identificar um epítopo devemos levar em conta os aminoácidos que se ligam ao anticorpo, mas aqueles que não se ligam participam dando uma conformação adequada a essa molécula, de modo que ela possa estar apta a se ligar ao anticorpo. Assim,em um epítopo existe alguns aminoácidos que são considerados mais importantes, estes aminoácidos são denominados críticos ou de contato. Eles, quando substituídos, alteram a conformação do epítopo alterando ou até impedindo sua ligação ao anticorpo (Haste et al., 2006). Identificar estes aminoácidos críticos no epítopo é importante no desenho de peptídeos e proteínas voltadas para a produção de anticorpos (Trier et al., 2012). Alem dos epítopos, os anticorpos podem reconhecer, também, moléculas protéicas ou não que assemelham ou mimetizam os epítopos. Estas moléculas são denominadas como mimotopos. Portanto, mimotopos são sequências de aminoácidos que imitam a sequência original do epítopo (similares mas não idênticas), possuindo afinidade pelo mesmo anticorpo (Regenmortel et al., 1994). Os epítopose/ou mimotopos são interessantes pois, podem ser reproduzidos em peptídeos usando tecnologias, tais como peptídeos sintéticos e phage-display. Estas moléculas que, após uma imunização, permitem gerar anticorpos usados em vacinas, biosensores, métodos imuno-terapêuticos e moléculas para diagnostico. Portanto, determinar um epítopos através da predição e das análises computacionais pode proporcionar o desenho de uma molécula capaz de substituir um antígeno no processo de produção de anticorpos. Tal molécula pode ser sintetizada ou clonada num vetor de expressão. Inclusive, alguns autores sugerem que o tamanho ideal para estes peptídeos que apresentam imunogenicidade esteja entre 10-15 aminoácidos (Sivalingam e Shepherd, 2012). 19 1.4 Propriedades de epítopos de células B Os primeiros esforços para se entender as características de epítopos de células B foram realizados nos anos 80. Estudos sobre as propriedades físico-químicas de aminoácidos mostraram que parâmetros, como flexibilidade (Karplus e McCammon, 1986), hidrofilicidade (Parker et al., 1986), antigenicidade (Jameson 1988, Kolaskar, 1990), estrutura secundária (Fasman e Chou, 1978), volta beta (Pellequer e Westhof, 1993) e acessibilidade (Emini, 1985) tinham influência sobre os epítopos, mas individualmente não eram suficientes para realizar uma predição totalmente precisa. Atualmente há uma discussão sobre as propriedades importantes que caracterizam epítopos de células B. Por exemplo, algumas pesquisas sugerem a existência de aminoácidos que são mais frequentes do que outros em interfaces de proteínas (paratopo-epítopo) (Jones e Thornton, 1996). Outros trabalhos, sugerem que também é possível encontrar alguns aminoácidos sempre presentes em epítopos mas em proporções baixas, sendo, por isso, importantes (Rubinstein et al., 2008. Sun, 2013). Por outro lado, diversas investigações indicaram que os epítopos não possuem, necessariamente, propriedades intrínsecas e particulares que os distinguem em superfícies de proteínas (Bourne, 2007). Dentro desta linha, nosso grupo de pesquisa, chegou a sugerir que este fato poderiam estar relacionado com os diferentes grupos ou famílias de proteínas que possuem características diferente entre si, refletindo em propriedades diferente dos epítopos encontrados para cada família (Machado de Ávila, 2011) . Isso dificultaria a identificação de padrões nestes epítopos. É importante salientar que as interfaces possuem entre elas uma forma definida e complementaridade eletrostática (Janin e Clothia, 1990). 20 Uma idéia interessante foi a hipótese de que a composição de aminoácidos nos epítopos é determinada pela de paratopos, de modo que ambos se complementam mutuamente (Jones e Thornton, 1996). Assim, recentemente um estudo mostrou que a composição de aminoácidos de epítopos é indistinguível da composição de superfície de proteínas (Kunik e Ofran, 2013). Entretanto, outras hipóteses buscam correlacionar a composição dos paratopos com os epítopos, com sucesso similar a técnicas baseadas puramente na composição dos antígenos (Chen et al., 2007). 1.5 Bases de dados de epítopos A imunoinformática oferece diversas ferramentas, técnicas e abordagens para a caracterização in silico dos epítopos. Isso acelera o processo de desenhar peptídeos e moléculas que imitam o epítopo, reduzindo, assim, custos, além de direcionar os experimentos. Um desafio para os métodos computacionais de análise e predição de células B é definir os parâmetros ou propriedades importantes para montar um modelo de predição preciso (Korber et al., 2006. Greenbaum et al., 2010). Conjuntos de dados organizados ou bancos de dados, assim como a Protein Data Bank (PDB) (Berman et al., 2000), o Immune Epitope Data Bank (IEDB) e o Conformational Epitope Database (CED), disponibilizam estruturas de complexos antígeno-anticorpo com informações úteis para os modelos computacionais.Assim tornam acessíveis sequências de epítopos, antígenos, parâmetros experimentais e referências destas pesquisas, facilitando o acesso à informação sobre as propriedades que influenciam centenas de epítopos. Porém, com o aumento rápido destes bancos de dados, novos desafios surgem, taís como o ruído nos dados que pode ser de várias fontes, assim como erros nas anotações, falsos positivos, dados incompletos e outros. 21 Apesar desses desafios, trabalhos feitos com meticulosidade por diversos grupos de pesquisa, mostram que é possível realizar uma predição de epítopos com base em uma ampla variedade de parâmetros e métodos matemáticos, tais como: usando apenas a sequência do antígeno (Chen, 2007), escalas de propensão (Davydov and Tonevitski, 2009), regiões de determinantes da complementaridade ou CDR (Rubinstein, 2009), propriedades físico-químicas (Bremel, 2010), posição dos aminoácidos e a conservação dos resíduos (Wee, 2010), mistura de características bioquímicas e estruturas preditas (Zhang et al., 2012), índices por aminoácido baseado em escalas evolutivas (Lin et al., 2013) e perfis binários baseados em aminoácidos (Singh et al., 2013). As metodologias baseadas somente em propriedades de aminoácidos dos epítopos aproveitadas após a filtração dos bancos de dados permitiu a criação de conjuntos de dados específicos ou datasets para reduzir os ruídos ou erros nas anotações. Blythe e Flower, 2005 fizeram um estudo sobre as informações recolhidas de um banco de dados, o AntiJen (Toseland et al., 2005). O AntiJen, é um banco de dados que consiste em 3541 epítopos, sendo uma boa fonte de informações de EpiLCB e conformacionais. No trabalho de Blythe e Flower, eles viram que o uso somente de parâmetros bioquímicos eram insuficientes para diferenciar estatisticamente antígenos de epítopos e que mais parâmetros deveriam ser utilizados, como os estatísticos Outras fontes de dados públicos, que foram utilizados para o desenvolvimento de ferramentas e de avaliação, incluem: o conjunto de dados do Dr. Jean-Luc Pellequer que, apesar de pequeno, possui alta qualidade, consistindo em 82 EpiLCB bem definidos através de 14 proteínas que têm sido estudadas extensivamente (Peters et al., 2009);o VIH banco de Dados de Imunologia Molecular, hospedado no Los Alamos National Lab (Kuiken et al., 2005);e o banco de dados Bcipep, do grupo do Dr. GPS Raghava (Saha e Raghava, 2006). 22 O IEDB apresentado pelo Dr. Alessandro Sette, é hoje o maior conjunto de dados disponível, que consiste em mais de 600.000 epítopos únicos, incluindo peptídeos imunogênicos (Gomara e Haro, 2007) e gorduras ou produtos químicos (Montañez et al., 2011). A melhor característica do IEDB é sua disponibilidade, uma vez que está sempre online e todos os dados estão acessíveis facilmente através do servidor da web, assim como a BCPred (El-Manzalawy, et al., 2008). Outras características de confiança são que a IEDB disponibiliza observações sobre como os epítopos foram identificados, sobre o tipo de imunização, o tipo de antígeno, o tipo de ensaio e sobre algumas análises dos peptídeos. Juntamente aos epítopos identificados utilizando ensaios funcionais, o IEDB inclui dados sobre epítopos revisados e inferidos a partir das estruturas tridimensionais de complexos antígeno-anticorpo, disponíveis no PDB (Berman et al., 2000). A base de dados também inclui um grande volume de dados negativos, isto é, sequências de peptídeos e proteínas experimentalmente demonstradas que não são reconhecidas por anticorpos num ensaio particular. Deve-se ressaltar que estas regiões podem, de fato, comportarem-se como epítopos quando amostradas sobre um conjunto diferente de condições, ou com uma população de diferentes anticorpos. O IEDB apesar das questões relacionadas com o seu conteúdo abrangente, é um dos bancos de dados mais úteis disponível. 1.6 Identificação de epítopos 1.6.1 Métodos experimentais O sucesso da identificação experimental de epítopos é dependente do desenvolvimento de métodos originários de diversas áreas, como: Biofísica, Bioquímica, Biologia Molecular e Síntese Química (Mullaney e Pallavicini, 2000). Inicialmente os epítopos eram identificados usando fragmentos resultantes da proteólise de um antígeno (Cleveland et al., 1977; Jemmerson e Paterson, 1986) e observando a formação de complexos com anticorpos (Sheshberadaran e Payne, 1988). 23 Estes complexos antígeno-anticorpo são cristalizados e logo com ajuda da difração de raios X são identificados os aminoácidos que participam diretamente destas interações. Esta técnica conhecida como cristalografia de proteínas é considerada como o “Padrão ouro” para mapear os complexos antígeno-anticorpo, (Padlan et al., 1988). No entanto, esta técnica possui uma série de limitações: a dificuldade e custo em se obter um cristal de qualidade, a laboriosidade, e o fato de nem sempre as condições nos quais o cristal foi produzido seja o mesmo em que o complexo se encontra na natureza. Estes fatores reduze o numero de trabalhos com uma boa qualidade de cristais que permita estudar em detalhe essas interações, como observado em pesquisas recentes, a partir do refinamento das estruturas da PDB, foram extraídos 200 complexos a partir de 150 000 estruturas (Viart et al., 2016). Outra técnica de bastante sucesso é a técnica de SPOT Síntese (Frank et al., 2002), desenvolvida com o intuito de obter rapidamente grandes quantidades de diferentes peptídeos, gerando uma biblioteca peptídica fixada em uma membrana de celulose, permitindo assim através de um ensaio imunoquímico, avaliar simultaneamente a reatividade de toda biblioteca frente aos anticorpos de interesse. Além de metodologias para predição de epítopos, uma alternativa é a seleção de mimotopos, moléculas não necessariamente idênticas aos epítopos, mas que são capazes de produzir anticorpos neutralizantes contra o mesmo antígeno de interesse que o epítopo produziria (Geysen et al., 1986). Uma metodologia bem promissora na identificação de mimotopos é a técnica de Phage Display (Smith, 1985). Essa técnica permite testar simultaneamente uma biblioteca peptídica com intuito de encontrar qual deles se ligam ao anticorpo de interesse (Huai et al., 2016). 24 1.6.2 Métodos computacionais Os métodos de predição de epítopos de células B podem se dividir de varias formas, a mais comum é separar eles com base no nível de informação necessária para fazer a predição. Portanto temos uma separação em duas categorias: 1. Métodos que utilizam informações provenientes apenas da sequência de aminoácidos do antígeno ou 2. Métodos usando informações estruturais obtidas de cristais ou ressonância magnética nuclear. Tradicionalmente, os métodos baseados em sequência são construídos a partir de cálculos de hidrofilicidade, flexibilidade, volta beta e acessibilidade (Hopp e Woods, 1981. Parker et al., 1986). A utilização de métodos que usam a composição de aminoácidos e informações do cooperativismo entre aminoácidos (influência no epítopo por parte dos animoácidos vizinhos), também têm mostrado resultados promissores com uma precisão de 70% de acerto (Chen, 2007). Estas metodologias têm uma atuação razoável quando voltada à predição de EpiLCB (Lin, 2013), chegando ate um acerto de até 100% para conjuntos de dados específicos. Assim, estes métodos funcionam como um bom exemplo para modelos que foram padronizado pelo autor, no entanto eles perdem alta especificidade quando utilizados com outros conjuntos de dados (Söllner., 2006). No entanto, estes métodos tampouco conseguem prever epítopos que consistem em segmentos de aminoácidos separados no espaço na proteína e reunidos pela dobragem em três dimensões da cadeia polipeptídica. Também, o uso de conjuntos de dados muito específicos para o desenho de modelos de previsão limita o uso destes métodos a proteínas semelhantes ao conjunto de dados a partir do qual o método foi desenvolvido. Estas pesquisas sobre EpiLCB destacam um dos problemas 25 mais comuns que compreende a variação de resultados dependendo do conjunto de dados utilizado para testar as predições. Quando Haste Andersen e colaboradores investigaram o desempenho da composição de aminoácidos usando a escala de Parker,que é uma medida de hidrofobicidade (Parker et al., 1986), escolheram incluir parâmetros derivados da combinação de propriedades estruturais, como carga e tipo de estrutura na predição de epítopos conformacionais e concluíram que o uso destes dados superava significativamente os métodos baseados em sequência. A inclusão de informação estrutural é baseada na distância entre aminoácidos próximos no espaço para identificá-los como epítopos ou não. Um dos métodos desenvolvidos usando as informações estruturais foi o DiscoTope 2, que age examinando a estrutura do antígeno com esferas de 10 ångström de diâmetro que tem como centro um aminoácido (Kringelum et al., 2012). Estas esferas são avaliadas somando a pontuação resultante das propensões dos resíduos da sequência e a pontuação resultante é usada para determinar os epítopos (Rubinstein et al., 2008). Além dessa metodologia, existe outras que utilizam apenas os dados da estrutura secundaria e terciária sobre a superfície mais próxima exposta aos resíduos analisados, o tipo de carga eletrostática e os diâmetros de Van der Waals, simplificando a análise com resultados similares a uma precisão de 70% (Sun et al., 2013, 2009, Kulkarni et al., 2005). Outros autores, tentarem usar os dados estruturais com o objetivo de ampliar o número de atributos físico-químicos e biológicos que podem ser usados na predição. Por exemplo, no trabalho de Rubinstein et al. 2008, são calculados 45 atributos a partir das estruturas de epítopos conhecidos, entre estes estão propriedades físico-químicas, carga, composição de aminoácidos, e também freqüência destes nas regiões epítopos, área exposta, acessibilidade relativa e absoluta entre outros. Depois de feita a análise destes atributos, apenas uma fração dos que inicialmente tinham sido 26 considerada no estudo resultaram ser relevantes e capaz de distinguir significativamente os epítopos. Da mesma forma, o método desenvolvido por Liang e colaboradores, implementou seis parâmetros estatísticos e aplicando um algoritmo de regressão de vetores de suporte, foi visto que três parâmetros só mostraram ser associados a antigenicidade (Zhao et al., 2012). Estes resultados mostram muita variação respeito dos parâmetros associados a imunogenicidade, e também variam quando são analisados diferentes conjuntos de dados (Bourne e Ponomarenko., 2007). Portanto seria interessante explorar a possibilidade de explorar conjuntos ou famílias de proteínas. Os métodos baseados na estrutura são bem conhecidos por implementar características como estrutura secundária e contagem da vizinhança de aminoácidos, mas não conseguem superar, ou ate mesmo aproximar da precisão dos métodos de predição de EpiLCB (Sun et al., 2013). Tanto os métodos para predições de epítopos conformacionais, como para predição de EpiLCB para serem implementados passaram por um treinamento a partir de conjuntos de dados que possuem um grau de variação pequeno por ter um numero N de amostras pequeno (Krigelum et al., 2012, Blythe e Flower., 2005). Esta pouca variabilidade nos dados gera um resultado de alta precisão no entanto não representa a totalidade dos epítopos possíveis (Bremel e Homan., 2010), por o qual é importante explorar em detalhe os bancos de dados para achar uma amostra representativa (Singh e Mishra., 2016). Este desafio de localizar o conjunto representativo de dados de epítopos reais para fornecer um método de identificação computacional de epítopos é apreciável nos resultados falsos positivos observados em na literatura. (Chang et al., 2010, Zhang et al., 2012(2)). Portanto, as novas gerações de métodos, procuram melhorar a precisão para essa identificação, diminuindo o número de falsos positivos (Toseland et al., 2005). Apesar do número de estruturas de antígeno-anticorpo resolvidos vir aumentando ainda é um desafio obter um conjunto de dados representativo da população de epítopos (Bourne e Ponomarenko., 2007). 27 Uma das tentativas mais promissórias na área de predição de epítopo é o algoritmo conhecido como BEST (Gao et. al 2012) com base em técnicas SVM (do inglês, Support Vector Machine, ou Máquina de suporte de vetores). Gao e colaboradores sugerem acrescentar no processo de identificação de epítopos a utilização da sequência do antígeno para prever o dobramento da estrutura (folding) mostrando um desempenho preditivo superior quando comparado como outros métodos que se baseiam somente na estrutura e sequência da proteína (Gao et. al 2012). 1.7 Desafios e perspectivas na predição de epítopos Um dos desafios na identificação de epítopos quando usadas as informações estruturais é que poucos grupos de antígenos já foram amplamente estudados com o objetivo de mapear o conjunto exaustivo de resíduos de epítopos. Assim, a existência de epítopos não caracterizados, dificulta avaliar com precisão e o desempenho dos modelos de previsão. Desta forma, até um preditor teoricamente perfeito poderá classificar-los com propriedades desconhecidas como falsos positivos (Kunik e Ofran., 2013). Ademais, as proteínas biologicamente relevantes são frequentemente partes de complexos que se comportam como uma única unidade no ambiente biológico (Wang et al., 2011). Por tudo isso, a falta de informações acabam causando o principal impedimento para predizer corretamente epítopos de células-B. Uma possível solução para estes desafios seria unir combinações de informações da estrutura secundária, da sequência de aminoácido e do grau de conservação (Gao et al., 2012). Outra tentativa em se predizer com precisão epítopos de células B resultou estudos sobre o uso de características baseadas no paratopo do anticorpo (Zhang et al., 2012). 28 O desempenho desses métodos, que utilizam um número grande de recursos computacionais e propriedades derivadas com propensões, ainda não são melhores que os valores alcançados pelo desempenho de modelos preditivos muito mais simples que empregam dois ou três atributos (Davydov e Tonevitski, 2009). Uma observação interessante é que quando métodos aplicados aumentam na sua complexidade, no entanto, os padrões de conjuntos de dados não são revisados com o mesmo ritmo. Esta situação cria a necessidade de melhorar a qualidade dos conjuntos de dados que serão utilizados para treinar e validar os algoritmos de predição de epítopos (Lin et al., 2013). Neste sentido, essa tese buscou determinar os parâmetros físico-químicos, bioquímicos e estatísticos de uma mesma família de proteínas que possibilitam diferenciar regiões de EpiLCB e das regiões de não-epítopos. Assim, encontramos alguns padrões nos EpiLCB de células B, que entre outros, poderiam explicar a dificuldade de predizer corretamente os determinantes antigênicos baseados em sequências. Vimos que estes padrões encontrados são específicos para cada família protéica, dentre as que estudamos epítopos (SVMPs e NTx). Esperamos que essa tese possa servir como uma alavanca para outros estudos, direcionando novos trabalhos a encontrar padrões específicos para outras famílias de proteínas e desta forma, possibilitar a criação de um algoritmo de predição de epítopos a partir destas informações. 2. Justificativa Um dos desafios na produção de vacinas, ferramentas imunológicas e biotecnológicas é a utilização de peptídeos capazes de desenvolver uma resposta imune baseada em epítopos (Leinikki et al., 1993. Chavez-Olortegui et al., 2002. Sundaram et al., 2004., Larché et al., 2005. Felicori et al., 2009). Uma solução para uma rápida e eficaz produção desses peptídeos é a predição computacional (Garnier et al., 1978. Oomen et al., 2003. Larsen et al., 2006). Enquanto as predições atuais usam propriedades de todos os epítopos disponíveis poucas pesquisas focam-se em separar os epítopos por 29 grupos. Nosso grupo de pesquisa observo propriedades particulares nos epítopos de SVMPs e NTx (Machado de Ávila et al., 2011. Duarte et al., 2010). Estas têm levado à sugerir que é importante explorar as informações epítopo restritas a famílias de proteínas, por que poderiam ser para melhorar a atuação dos programas de predição de epítopos. Entretanto, até o momento tentativas de predizer epítopos usaram padrões evolutivos, conservação de sequência e transformações matemáticas (transformação binária e escalas de propensão) (Nielsen é Marcatili., 2015. Singh et al., 2016). Portanto, para investigar as propriedades dos epítopos nos escolhemos agrupar-los baseados na categoria família protéica, em busca de um padrão dentro de cada família que permita classificá-las. Nessa tese, criamos um , banco de dados que nos proporcionou uma vantagem por incluir grupos de proteínas amplamente estudadas no laboratório (SVMPs e NTx), permitindo que o trabalho tivesse um bom respaldo de dados. Para isso, utilizamos de ferramentas de mineração de dados buscando reduzir os erros metodológicos ao mínimo, melhorar o desempenho durante a identificação computacional e orientar os métodos experimentais. Assim, neste trabalho foi realizado uma análise computacional das propriedades físicoquímicas e estruturais de epítopos conhecidos, em busca de características em comum dentro de uma família de proteína. O agrupamento dos epítopos nestes parâmetros, permitiu o desenvolvimento de uma metodologia que utiliza de propriedades específicas para cada família ou grupo protéico, permitindo desta forma, uma melhor identificação computacional ou predição de epítopos mais precisa. 30 3. Objetivo geral Desenvolver uma metodologia computacional que permita identificar EpiLCBde células B através da analise de parâmetros físico-químicos, bioquímicos e/ou estatísticos em metaloproteases (SVMPs) e neurotoxinas (NTx) de venenos de serpentes . Objetivos específicos: Revisão sistemática na literatura e bancos de dados, em busca de EpiLCBparaSVMPs e NTx. Criação de um conjunto de dados com epítopos de SVMPse NTx. Identificação de padrões e características presentes em EpiLCBpara SVMPse NTx. Classificação desses epítopos de acordo com seus parâmetros físico-químicos, bioquímicos e estatísticos. Geração de uma base de dados para armazenar sequências de epítopos e antígenos de SVMPs e NTx Desenvolvimento de uma metodologia para identificação de epítoposin silico. Predição e síntese química dos peptídeos correspondentes aos epítopos desenhados in silico. Geração de anticorpos policlonais anti-peptídeos verificando sua capacidade antigênica e imunogênica para validar experimentalmente o método computacional desenhado para identificar EpiLCB em SVMPs. 31 4. Materiais e métodos 4.1- EXTRAÇÃO DOS DADOS A fim de se obter informações para classificar os epítopos já validados, realizamos uma revisão sistemática e utilizamos filtrações a partir de bancos disponíveis na literatura como IEDB (Peters et al., 2005) e BCPred (El-Manzalawy et al., 2010) como também PubMed. Dessa forma, foram extraídos:as sequências de epítopos e dos antígenos;os animais imunizados, a metodologia utilizada no trabalho para validar o epítopo. Estes dados foram formatados em arquivos FASTA e CSV (Comma Separated Values, sem tradução para o português) com scripts em linguagens Perl e Python. Para tal, três datasets ou conjuntos de dados foram usados. Esses conjuntos de dados são descritos da seguinte maneira: 4.1.1 – Dataset Metneu Conjunto de dados tratado manualmente a partir de informações extraídas da literatura, via PubMed (http://www.NCBI.nlm.nih.gov/PubMed/), utilizando-se as palavras chaves: epitope, metalloproteinase, proteinase, peptidase, toxin e neurotoxin de forma isolada ou combinada. Foram obtidos 99 sequências de EpiLCB de células B para dois grupos de antígenos (metaloproteases e neurotoxinas) e foram curados pela nossa equipe. Os epítopos foram manualmente revisados e as informações relevantes foram anotadas. Este conjunto de dados foi atualizado até março de 2014. As seqüências foram analisadas e a redundância foi removida para uma identidade de 100% usando os complementos do programa JalView (Waterhouse et al., 2009), também foi evitado armazenar proteínas iguais. Este conjunto de dados foi criado para explorar as diferencias e semelhanças entre epítopos de metaloproteases e neurotoxinas. 32 4.1.2 – Dataset Host IEDB Todos os epítopos de células B não redundantes (identidade menor que 100%) foram extraídos da base de dados do “Immune Epitope DataBase” (IEDB) (Peters et al., 2005), disponível na internet. Os dados foram tratados utilizando Perl scripts para remover a redundância e informações inconsistentes como epítopos conformados por 1aa ou de tamanho maior a 30aa. O dataset incluiu 15.000 sequências de peptídeos classificados pelo IEDB como EpiLCB de tamanho 3aa até 30aa. Este conjunto de dados foi utilizado para explorar as propriedades de epítopos de famílias diferentes e também as informações de qual era o origem do anticorpo usado para a identificação experimental. 4.1.3 – Dataset BCPred O conjunto de dados BCPred (Chen et al., 2007), disponível em http://ailab.cs.iastate.edu/bcpreds/refs.html, inclui 701 sequências de epítopos ou não-epítopos com o tamanho de 20 resíduos de aminoácidos, cada. Originalmente, este conjunto de dados incluía 947 epítopos únicos extraídos da base de dados BciPep (Saha et al., 2005). Após vários tratamentos, um pelo autores do programa obtiveram um segundo conjunto de peptídeos que foi utilizado para o desenvolvimento do software de predição BCPRED, denominado SEQ194. Além disso, o software inclui 194 sequências de proteínas e foi estudado e usado para o treinamento do kernell SVM do software de predição BEST (Gao et al., 2012). Ambos os conjuntos de dados descritos são parte do dataset que utilizamos, chamado de BCPred. Estes dados foram utilizados com o objetivo de experimentar se os modelos computacionais de classificação para epítopos de diferentes famílias permitiam classificar sequências de epítopos e não epítopos. 33 4.2- Descritores de epítopos de células B Todas as sequências lineares usadas para produzir nossos modelos computacionais de identificação foram processados por scripts em Perl e Pýthon desenvolvidos nesta tese. Estes separam a sequência original do antígeno em sub-sequências de tamanhos diferentes, medindo de 3 a 15aa. Estas sub-sequências se sobrepõem uma com a outra em forma consecutiva com a diferença de 1aa entre elas, cobrindo a totalidade do antígeno. As sub-sequências híbridas, parte epítopo e parte não epítopo, são classificadas como epítopos quando 50% ou mais dos aminoácidos pertencen a um grupo. Uma vez obtidas todas as sub-sequências a partir de um antigeno, são analisadas por outros dois programas, um em python e outro em perl para gerar 33 parâmetros ou descritores constituídos por vários tipos de propriedades físico-químicas (PCP), incluindo a porcentagem de: aminoácidos e de átomos de carbono, enxofre, hidrogênio, oxigênio e nitrogênio; de aminoácidos carregados positiva (RHK) e negativamente (DE), não carregados (STNQ), especiais (SGP) e hidrofóbicos (AVILMFYW); índice de hidropatia (GRAVY), índice do tamanho da cadeia alifática e ponto isoelétrico. Estes descritores foram extraídos a partir da sequência dos epítopos disponíveis nos conjuntos de dados e gerados como descrito por (Gasteiger 2005 et al., Haste et al., 2006), diferenciando, apenas, em que cada característica teve seu valor transformado para porcentagemna remoção das diferenças de comprimento nas sequências de epítopos. Outros seis descritores foram baseados em propriedades estruturais (PSS) calculadas utilizando o algoritmo Stride (Heinig et al., 2004). Neste estavam inclusas as probabilidade de alfa-hélice, folhasbeta, coil, acessibilidade de superfície relativa, absoluta, e acessibilidade absoluta ajustada baseada em fitness (Z-fit). No total, foram utilizadas três matrizes para cada conjunto de dados: a primeira, com informações PCP, a segunda com apenas os dados PSS e um terceiro que contendo os dados combinados de PSS e PCP. 34 4.3- Konstanz Information Miner Várias ferramentas que foram utilizadas neste estudo pertencem ao Konstanz Information Miner (KNIME), plataforma “open-source”, com uma interface gráfica de fluxo de trabalho que suporta uma ampla gama de opções para mineração de dados e informática em geral (Beisken et al., 2013). O KNIME foi utilizado para avaliar os métodos de mineração de dados utilizados na predição de epítopos de células B em um ambiente de fluxo de trabalho. Cada nó inclui uma única análise dos parâmetros descritos para um método matemático específico. Os nós serão descritos mais adiante neste trabalho. 4.4- KMEANS (KM) Utilizamos o algoritmo K-means para encontrar os centros dos grupos para um número pré-definido de dados aglomerados. K-means realiza um agrupamento nítido, que atribui um vetor de dados a exatamente um cluster (Patel et al., 2009). O algoritmo termina quando as atribuições de fragmentação não mais se alteram e usa o agrupamento baseado na distância Euclidiana sobre os atributos escolhidos. A configuração utilizada considerou grupos de dois elementos (centros de fragmentação) com 200 interações, número mínimo para obter uma melhor precisão. 4.5- Árvore de decisão (Decision Tree (DT)) Utilizamos o algoritmo de árvore de decisão para classificar um atributo nominal, por exemplo, metaloprotease ou neurotoxina em atributo alvo ou classe. Os outros atributos utilizados para classificação foram do tipo numéricos e as divisões no momento da classificação foram sempre binárias, capazes de dividir os dados em duas partes. Durante cada interação os valores nominais foram divididos em dois subgrupos. O processo se repete até separar totalmente as duas classes 35 nominais iniciais e, em nosso trabalho, elas foram epítopo e não epítopo. Além disso, muitos modelos de árvore de decisão testando vários parâmetros internos do algoritmo foram feitos, bem como o número de nós, conjunto de dados e alguns elementos particulares dos conjuntos de dados. O algoritmo fornece duas medidas de qualidade para o cálculo de divisão: o índice de Gini e a proporção de ganho, ambas avaliadas. O método de desbaste para reduzir o tamanho da árvore disponível na ferramenta não foi utilizado. As técnicas utilizadas foram descritas por Schaffer, 1996 (Friedman et al., 1996). No obstante a árvore de decisão foi avaliada com detalhe para não ter nós em execesso. Assim, as melhores árvores são aquelas que conseguem descrever o modelo de interesse com o número menor possível de nós. Nesta tese foram avaliadas mais de 100 árvores de decisão para cada conjunto de dados (SVMPs e NTx). 4.6- Naive Bayes (NB) Este algoritmo ou nó do software KNIME, cria um modelo bayesiano calculando o número de linhas por valor do atributo, por grupo de atributos nominais,e pela distribuição de Gauss para os atributos numéricos. O modelo de oráculo ingênuo de Bayes ou Naive Bayes foi utilizado para descrever e identificar as classes. 4.7- Support Vector Machine (SVM) Uma máquina de vetores de suporte foi treinada com os dados introduzidos. Os tipos de SVM avaliados foram polinomial, hiper-tangente e base radial de Gauss. O algoritmo de aprendizagem SVM usado foi descrito por Platt (Platt, 2000). 36 4.8- Multiple linear regression (MLR) O ambiente de software livre R para computação estatística e gráficos foram utilizados para criar os modelos de regressão múltipla e estatísticas. As variáveis nominais foram transformadas em numéricas para os dois grupos a serem classificados, epítopo e não-epítopo. Assim, o valor positivo de log (0,99 / (1-0,99)), é atribuído a epítopos e um valor de log. negativo (0,01/(1-0.01)) para não epítopos. O modelo linear de função (LM) disponível em R foi usado para resolver uma série de cálculos com base na equação de regressão logística, na tentativa de classificar nossos descritores em uma reta com valor positivo para epítopos e negativo para não epítopos. O modelo de regressão múltipla esta baseado nos fatores beta ou coeficientes que multiplicam os parâmetros ou características utilizadas no modelo, que são sempre numéricos. No modelo de regressão múltipla, os atributos ou descritores representam os valores no eixo X, e cada sequência de epítopo é representada por um valor no eixo Y. Já os coeficientes beta são calculados após a solução das equações. Equação de regressão Logística: log(θ/(1 − θ)) = α + β1x1 + β2x2 + ... + βj*xj Equação do modelo regressão múltipla Y1 = a + b1 × X1, 1 + b2 × X1, 2 + b3 × X1, 3. . . Y2 = a + b1 × X2, 1 + b2 × X2, 2 + b3 × X2, 3. . . Depois que a variável de classe foi igualada às variáveis de descritores ou atributos e à resolução de equações, um modelo de regressão linear múltipla é gerado, um valor p é calculado e o modelo é rejeitado para qualquer valor p superior a 0,005 em conformidade com um intervalo de 37 confiança de 99.5% . A pontuação resultante prevista do modelo é dimensionado (0 a 1), usando a fórmula exp (valor previsto. / (1 + valor previsto)) para cada elemento. 4.9- Análise dos modelos avaliando a curva ROC Utilizamos a análise ROC (Receiver Operating Characteristic) para avaliar cada modelo de classificação e predição possível. Esta análise apresenta o melhor desempenho de todos os métodos descritos acima. Além disso, a análise ROC fornece um método "livre de distribuição" para comparar as distribuições, ao contrário de testes estatísticos paramétricos que impõem uma distribuição padrão. A análise ROC não assume que as distribuições são Gaussianas e possuem igualdade de variância (Green e Sweets, 1966). Assim, foi usado o pacote ROCR de ferramentas para a linguagem “R computing” (R development core team et al., 2008). A utilização de curva ROC múltipla foi feita usando o Grau Falso Positivo (FPR) e Verdadeiro Positivo (TPR) calculado da seguinte forma: Sendo, TP -verdadeiro positivo; FP- Falso Positivo; FN - Falso negativo e TN- verdadeiro negativo. Para cada método de mineração de dados, foi utilizado ROC para avaliar o comportamento dos classificadores em resposta ao tipo de dados de entrada. O pacote ROCR do software R oferece várias vantagens para a avaliação dos dados apresentados neste trabalho. Outra vantagem desta análise é que ela não depende de um único valor de corte (cutoff value), mas considera cada 38 possibilidade de decisão possível e estima o desempenho para todos os pontos de corte ou cutoffs que são calculados e comparados um com outro. Além disso, com o método de "livre de distribuição" a comparação entre esses modelos não contam com a suposição de normalidade ou variância fixa. Isso nos permitiu comparar criticamente cada modelo individual e cada grupo de dados usados como entrada dos modelos de predição. Este analises de curvas ROC foram complementados com uma validação cruzada de 10 vezes (Reimer et al., 2009). 4.10- Interface de Banco de Dados Para armazenar as informações de uma forma fácil e acessível, computacionalmente, criamos uma base de dados. Ela foi feita e armazenada usando mySQL, além de ser concebida para aceitar vários dados extraídos a partir da interface PHP. Estes correspondem à produção de dados minerados e transformado para BioJava, Perl e Biopython. O objetivo desta base de dados foi armazenar informações das pesquisas referentes a epítopos e paratopos e se encontra disponível para quem precise usá-la. 4.11- SPOT síntese 4.11.1 Síntese de peptídeos sobre membrana A síntese paralela de peptídeos sobre membrana de celulose ocorreu-se por permitir a síntese rápida e eficiente de um grande número de peptídeos (até 900 peptídeos, dependendo do tamanho da membrana), em delimitações pontuais por volume de deposição de cada resíduo. Dessa forma, as membranas de celulose contendo os peptídeos correspondentes das sequências das metaloproteases Atr-I, BaP1 e Leuc-a foram preparadas segundo Laune et.al. 2002. Os aminoácidos protegidos por um grupamento FMOC foram depositados em um volume de,aproximadamente, 0,6 μL no 39 sintetizador automático (RESPEP/MULTIPEP –Intavis),permitindo obter, em média, 50 nanomoles de peptídeo por ponto na membrana. A síntese dos peptídeos iniciou sempre pelo C-terminal do último aminoácido das sequências estabelecidas para cada ponto. Após a retirada do grupo FMOC que se encontrava acoplado à função amina do aminoácido pela adição de 4-metil-piperidina 25% em dimetilformamida (DMF), esta se tornou disponível para reação com o próximo aminoácido a ser acoplado. Os aminoácidos a serem acoplados foram ativados por DIPC/Oxyma (diisopropilcarbodiimida/Oxyma Pura) e depositados sobre a membrana. Para cada aminoácido foram realizados dois ciclos de acoplamento. As funções NH2 que permaneceram livres após o acoplamento foram acetiladas com anidrido acético 10%, em DMF, a fim de se evitar reações colaterais com os aminoácidos posteriormente adicionados.O grupo protetor FMOC do aminoácido recém acoplado foi novamente eliminado em meio básico pela 4-metilpiperidina a 25%. A membrana foi lavada com metanol e, após a secagem desta, foi reposicionada no sintetizador para outro ciclo. Os ciclos se sucederam desta forma até completar a sequência do peptídeo desejado. Ao final da síntese, os grupos laterais protetores dos aminoácidos foram retirados pelo tratamento da membrana com ácido trifluoracético (TFA) associado a diclorometano e trietilsilano. 4.11.2 Ensaio Imunoquímico As membranas contendo os peptídeos sintéticos foram lavadas três vezes com tampão TBS pH 7.4 e então saturadas em solução contendo 1ml de tampão de bloqueio (coating buffer, Sigma) e 0,5g de sacarose, em 20mL de tampão TBS-Tween 0,1% overnight. Em seguida, a membrana foi lavada com tampão TBS-Tween 0,1% e incubada com uma solução de anticorpos, diluídos na mesma solução de bloqueio em concentrações variáveis a partir de 1/50 até 1/5000, durante 1h e 30min sob agitação constante. Após a incubação, a membrana foi lavada com TBS-Tween 0,01% por 10 min. Logo o anticorpo secundário ligado a fosfatase alcalina, diluído no tampão de bloqueio, foi 40 incubado com a membrana por 1h. Após a nova lavagem sob agitação 10 minutos com TBS-Tween 0,1% e mais duas lavagens de também 10 minutos cada, com CBS ph 7 sob agitação, foi adicionado o substrato contendo MTT, BCIP e MgCl2 (Sigma). Vinte minutos depois, a reação foi parada com água destilada e os spots reativos foram detectados pelo método de colorimétria direta. Para isto, a membrana foi escaneada e os spots foram quantificados pelo software ImageJ (Machado de Avila et al., 2014). 4.11.3 Regeneração da membrana Para reutilizações posteriores, as membranas foram submetidas a um tratamento de regeneração. Primeiramente efetuou-se 3 lavagens de 10 minutos cada com reagente A (Uréia 8M + 1% de SDS + 0.1% de 2-mercaptoetanol) e finalmente outras 3 lavagens de 10 minutos cada com reagente B (etanol/ água / acido acético nas proporções 50:40:10 vol./vol./vol.). 4.11.4 Síntese química de peptídeos Foi utilizado o método desenvolvido por Merrifield, 1969. para sintetizar os peptídeos CNEN (computacionalmente negativo experimentalmente negativo) e CPEN (computacionalmente positivo experimentalmente negativo). Ele consiste em fixar o aminoácido C-teminal do peptídeo sobre um suporte solido insolúvel e depois alongar a cadeia peptídica por adições sucessivas de resíduos da porção C-terminal para N-terminal. Estes aminoácidos possuem o agrupamento amina protegido pelo agrupamento FMOC (fluorenil-metil-oxicarbonila), sua cadeia lateral também esta protegida por um grupo protetor para evitar reações indesejadas. O suporte solido insolúvel normalmente é uma resina que também se encontra protegida pelo FMOC. 41 Foi utilizada a resina Rink Amide como suporte solido, o protocolo usado para formação do peptideo é semelhante ao utilizado para a síntese em membrana. O tubo de síntese contendo a resina foi lavado 3 vezes com 5mL de DMF e em seguida foi adicionada piperidina 20%, deixando sob agitação por 20 minutos para eliminar o FMOC da resina. Após novas 3 lavagens com DMF, iniciouse a etapa de acoplamento. Nesta etapa, o primeiro aminoácido (100μM) a ser acoplado foi adicionado junto com os ativadores da sua função carboxila, o HOBt (100μM) e o DIPC (100μM) e deixado por 30 minutos sob agitação. Após acoplagem, três novas lavagens com DMF são realizadas e é iniciada a etapa de desproteção. Nesta etapa o agrupamento FMOC do aminoácido acoplado é removido com a presença de piperidina 20%, por 20 minutos. Ao final desta etapa, 3 novas lavagens com DMF são realizadas e o protocolo de acoplagem inicia para segundo aminoácido. Este ciclo de acoplagem/desproteção é feito até que todos os aminoácidos do peptídeo a ser sintetizado estejam acoplados. Após o termino do ultimo ciclo, o peptídeo já sem o agrupamento FMOC do ultimo aminoácido então é removido da resina por uma etapa chamada de clivagem. Nesta etapa também se elimina os agrupamentos protetores de cadeia lateral. Para isto, o peptídeo é incubado por 3 horas com uma solução de clivagem contendo 2.5% de EDT (etanolditiol - Fluka) + 2,5% de água destilada + 2,5% de TES (trietilsilano - Fluka) em TFA (ácido trifluoroacetico). Em seguida esta solução filtrada é precipitada com éteretílico gelado obtendo assim o peptídeo. Após centrifugação o éter é eliminado e o peptídeo é re-suspendido em água mili-Q e liofilizado. 42 4.12- Espectrometria de massa As análises por espectrometria de massa foram realizadas no Núcleo de Estudo de Estrutura e Função de Biomoléculas do Departamento de Bioquímica e Imunologia do Instituto de Ciências Biológicas na Universidade Federal de Minas Gerais,utilizando o equipamento AutoflexIII MALDITOF- TOF™ (Bruker Daltonics), no modo refletor/positivo controlado pelo software FlexControl™. A calibração do instrumento foi obtida usando o Peptide Calibration Standard II (Bruker Daltonics) como referência e ácido α-ciano-4-hidroxicinâmico como matriz.Uma gota da mistura contendo a amostra a ser analisada e a matriz ácido α-ciano-4-hidroxicinâmico, na proporção de 1:1 foi adicionada em uma placa MTP AnchorChip™ 400/384 (Bruker Daltonics). Após a secagem da gota, aplaca foi levada ao aparelho para análise. 4.13- Protocolos de Imunização Camundongos fêmeas da raça BALB/C pesando em torno de 18-22g, foram usadas para coletar soro pré imune. Consequentemente, receberam injeções subcutâneas (s.c.) de 50 ug de peptídeo incorporado em lipossomas de asolectina como descrito por Mendes e colaboradores (Mendes et al.,2013) (dia 1). Nove reforços foram dados via subcutânea, com 50 ug de peptídeo acoplado ao lipossoma, com o primeiro intervalo após 30 dias e os seguintes a cada 7 dias. Um grupo controle negativo recebeu lipossoma vazio (sem peptídeo acoplado) nas mesmas condições. O soro imune foi coletado a partir a quarta dose e usado em ensaios ELISA e de neutralização. 43 4.14- ELISA (Enzyme-Linked Immunosorbent Assay) O método utilizado para detecção de anticorpos específicos foi o ELISA (Olortegui et al., 1991). O ensaio foi feito em placas Maxisorp (Nunc) de 96 wells sensibilizadas com 100mL de antígeno, nas concentrações de 10µg/mL e5µg/mL, em tampão (Na2CO3 0.05M buffer, pH9.6) incubadas overnight a 4°C. Posteriormente, a placa foi lavada com solução salina - Tween 0.05%. Logo os poços foram bloqueados com 100µL de uma solução de leite em pó (2%) em PBS-tween (0,1%) por 1 hora.Após o bloqueio, foram feitas três lavagens com tampão PBS-tween (0,05%)e adicionados 100µL dos anticorpos IgG produzidos em camundongos em diluções de 1:100, 1:500, 1:2500, 1:12500, 1:57500 em PBS-tween 0,05%, 0,25% leite em pó, e incubados por 1 hora, à 37°C. Os poços foram lavados e em seguida adicionados 100µL de anticorpos IgG, contra IgG de camundongos, produzidos em cabra conjugados com Peroxidase em uma concentração de 1:5000 por uma hora a 37°C . Após a lavagem dos poços adicionou-se 100 µL de substrato OPD (SIGMAFAST, Sigma-Aldrich) e logo de 20 minutos a reação foi parada pela adição de 25µL de uma solução de acido sulfúrico (1:20). Os valores de absorbância foram determinados a 490nm, usando o leitor de placas ELISA (Bio-RAD, 680 models). Os experimentos foram realizados em duplicada e as medias e desvios padrões foram calculados. 4.15- Atividade hemorrágica A atividade hemorrágica foi determinada através do método de Kondo et al., 1960 e modificado por Gutierrez, et al., 2002. Foi inoculado em camundongos com Atr-I a dose de 19ug,equivalente a 1 dose mínima hemorrágica (definida como aquela que causa uma lesão no local da injeção de pelo menos 1cm2) e pré-incubada com anticorpos diluídos em (1:100), durante 1 hora, à 37°C. Como controle positivo, Atr-I foi inoculada sem anticorpos. Ao final todos os animais foram submetidos à eutanásia e a pele foi removida para a avaliação da hemorragia. 44 5. Resultados e Discussão 5.1 Propriedades de Epítopos de Metaloproteases e Neurotoxinas Na atualidade são conhecidas mais de 13.000 famílias de proteínas, segundo o PFAM (Punta et al., 2012) ou 559 clãs ou conjuntos formados pelo que, anteriormente, era chamado de família (Finn et al., 2016). Cada família descreve um grupo concreto de proteínas que compartilham características em comum. Nesta tese escolhemos validar nossa hipótese utilizando os dados de EpiLCB obtidos das famílias de metaloproteases e neurotoxinas extraídos a partir da literatura. A tabela 1 apresenta as sequências de epítopos selecionados após uma revisão sistemática detalhadas de todas os trabalhos publicados que envolvia EpiLCB de metaloproteases e neurotoxinas, formadas por 29 metaloproteases (cor preto) e 70 neurotoxinas (cor vermelho). Verificamos que estas sequências foram mapeadas experimentalmente e foram inclusos os códigos UNIPROT da proteína de qual o epítopo foi mapeado, além da referência do artigo de origem (Tabela 1). Conferimos que estes epítopos não sejam redundantes evitando problemas com durante o uso de técnicas de classificação de dados. Logicamente, usar dados não redundantes é essencial para o desenho de um bom modelo na identificação computacional de epítopos (Saha et al., 2005). As sequências de epítopos selecionadas não incluíram resultados de experimentos que continham grandes fragmentos de proteína (tamanho superior a 20 aminoácidos). Poucos aminoácidos (5-15) conformam epítopos que são apresentados por moléculas MHC e reconhecidos por anticorpos, sendo importante o tamanho do epítopo no máximo de 20aa (Bremel and Homan, 2010). 45 Para avaliar corretamente as sequências lineares dos epítopos consideramos toda a extensão dos antígenos (a sequência), e separamos estas em subsequências de 3aa até 15aa como descrito na metodologia. O Critério usado foi o de considerar uma subsequência como positiva ou epítopo quando ela contiver mais de 50% dos aminoácidos de sua composição idênticos com os aminoácidos do epítopo experimental, como ilustra a figura 2C (para sequências pequenas) e a figura 2D (para sequências longas). Esta metodologia de analise tem como vantagem, identificar melhor os epítopos, por que ela cria uma margem maior nas bordas dos epítopos (Fig. 2C e 2D) e assim aumentando a sensibilidade dos modelos computacionais. Desta forma, quando comparado com subsequências que possuem 100% dos aminoácidos de sua composição como epítopos, mostram ter uma sensibilidade reduzida (Fig. 2E e 2F). Outra vantagem deste algoritmo é proporcionar menos resultados falsos positivos, do que as metodologias que utilizam uma janelas de 1aa (Fig. 2A e 2B). Esta metodologia de analise é similar a de outros métodos (Ansari et al., 2013) que tentam lidar com o problema de pouca quantidade de dados ou informações redundantes, mostrando sempre que é vantajoso apresentar as sequências de forma que seja melhor interpretado pelos métodos computacionais (Costa et al., 2013). Assim os EpiLCB das metaloprotases e neurotoxinas foram transformados em subsequências e classificados usando o critério de ter no mínimo 50% de aminoácidos idênticos. Estas sequências de epítopos experimentais, como descrito acima, foram analisados em scripts na linguagem Perl e Python criados por nos exclusivamente para essa tese baseados nos algoritmos disponíveis nos servidores Expasy (Gasteiger et al., 2005). Esta analise permitiu descrever as subsequências como dados numéricos, baseados na composição de aminoácidos, propriedades bioquímicas e de estrutura predita usando os algoritmos previamente descritos. 46 Figura 2. Representação da pontuação ("score") de epítopos quando separados em subsequências. No O eixo X apresenta o numero de aminoácidos e o eixo Y, a porcentagem de um aminoácido ser epítopo. As curvas de cor laranja, representam os epítopos experimentais e a curva de cor preto a região predita computacionalmente como epítopo. Em 2A e 2B, têm-se o valor de cada aminoácido quando as subsequências são consideradas epítopos quando apenas 1 aminoácido destas pertence a um epítopo experimental. Em 2C e 2D, se mostra a previsão para cada aminoácido quando mais de 50% das subsequências pertencem a um epítopo experimental. Já em 2E e 2F, se mostram os resultados quando todos os aminoácidos da subsequência precisam pertencer a um epítopo experimental para ser classificadas. 47 Tabela 1. Conjunto de epítopos usados para o desenvolvimento dos modelos de previsão para SVMPs e NTx Journal_ID Epitope_sequence uniprot, PDB, genebank 21763377 21763377 21763377 21763377 21763377 16212890 16212890 16212890 16212890 16212890 20093370 19509157 15607634 15607634 16428330 16737347 16737347 16737347 16737347 16737347 16737347 16737347 19084031 19084031 17014879 17014879 17014879 18061641 18061641 7690110 9784249 9276446 9276446 9276446 9276446 9276446 22922018 22922018 22922018 22922018 22922018 22922018 22922018 22922018 11275260 11275260 9517541 9517541 21149386 21149386 SCMLDQGRSRCR HCTMDQGRLRCR HCFHDQGRVRCA TCATDQGRLRCT QCTMDQGRLRCR MEASHTHARPAP TLAHTSQIGLTA TSFGSMLSKWQK ITSHTGYLQLRL SNPPGMALSAPP GFEESLEVDTNPL YTFRYPLSL IRIKRDMS GTSMATPHVAG IADCTYRWHVGTWMECSVSCGD DVKCGRLYC GTICKMARGDNMHDYCN GTKCEDGKVC TECRGIRSECDLPEYCTGQ NCRDPCCDAASCKLHSW GEECDCGSPENCQ HNLGMNHDGNQCNCGAAGCIMSAIISQYRS HNLGMEHDGKDCL NTVNGFFRSMN SEGPSYEFSDCS LKTFGEWRERVL VVADHGMFTKYN IVNTLNEIYRYLYVR EQQRYLNNFRFIELV VKDGYIVD KKYRYYLKPLCKK IVDDVNCTYFCGRNAYC NEECTKLKGESGYCQ ACYCYKLPDHVRTKG YKLPDHVRTKGPGRCH ACYCYKLPDHVRT FTNPEEGDLNPPPEAKQVPVSYYDSTYLST VPVSYYDSTYLSTDNEKDNYLKG SPDFTFGFEESLEVDTNPLLGAGKFATDP DFTFGFEESLEVDTNPLLG KMLTEIYTEDNFVFFKVLNRKTYLNFDKAVFK PKVNYTIYDGFNLRNTNLAANFNGQNTEINNMNFTK FNGQNTEINNMNFTKLKNFTGLFEF FNGQNTEINNMNFTKLKNFTGLFEFYK KDLYG NVKTSPKQSKP KVWRDHRGTIIE KPGI YNQYTEEEK YKKYSGSDK P22796 P22796 P22796 P22796 P22796 Q5C1N0 Q5C1N0 Q5C1N0 Q5C1N0 Q5C1N0 P10845 B3KQS8 AAG32166 AAG32166 Q76LX8 (EOC0028-06-63-24),(EOC0063-24) (EOC0028-06-63-24),(EOC0006) (EOC0028-06-63-24),(EOC0063-24) (EOC0028-06-63-24),(EOC0063-24) (EOC0028-06-63-24),(EOC0063-24) (EOC0028-06-63-24),(EOC0063-24) (EOC0028-06-63-24),(EOC0028-06-63) Q9I9R4 Q9I9R4 P22796 P22796 P22796 2ERO(B);Q8JIR2 2ERO(B);Q8JIR2 P01484;1AHO 1CLP 1AHO;P01484 1AHO;P01484 1AHO;P01484 1AHO;P01484 1AHO;P01484 2ILP;Q7B8V4 2ILP;Q7B8V4 2ILP;Q7B8V4 2ILP;Q7B8V4 2ILP;Q7B8V4 2ILP;Q7B8V4 2ILP;Q7B8V4 2ILP;Q7B8V4 Q9TXD1, P08815 Q9TXD1, P08815 3NDS,1IQ9;P01426 3NDS,1IQ9;P01426 2ILP;Q7B8V4 2ILP;Q7B8V4 48 Journal_ID 22149274 Epitope_sequence WTLQDTQEIKQRVVF uniprot, PDB, genebank 2ILP;Q7B8V4 22952786 SKWY 2NM1;P10844 22952786 SDEFY 2NM1;P10844 22952786 KSDP 2NM1;P10844 19162253 NPVEWFMSTVNT 1CTX;P01391 16647121 EENISLDLIQQYYLTFNFI 2ILP;Q7B8V4 16647121 SGAVILLEFIPEIAIPVLG 2ILP;Q7B8V4 16647121 TKAIINYQYNQYTEEENN 2ILP;Q7B8V4 16647121 NKFLNQCSVSYLMNSMIPY 2ILP;Q7B8V4 16647121 CMENNSGWKVSLNYGEIIW 2ILP;Q7B8V4 16647121 GEIIWTLQDTQEIKQRVVF 2ILP;Q7B8V4 16647121 NNIMPKLGCRDTHRYIWI 2ILP;Q7B8V4 16647121 KYVDVNNVGIRGYMYLKGP 2ILP;Q7B8V4 16647121 SRTLGCSWEFIPVDDGWGERPL 2ILP;Q7B8V4 11425742 KGTFDPLQEPRT 2ILP;Q7B8V4 8576079 TNCYKKRWRDHRGYRTE P60770 7945236 CAPGQNLCY 1NTN;P01382 7945236 PGQNLCYTK 1NTN;P01382 7945236 KTWCDAWCG 1NTN;P01382 7945236 DAWCGSRGK 1NTN;P01382 11602284 LPDSEPTKTNGKCKS 2sn3;P15226 11602284 GREGYPADSKGCKIT 2sn3;P15226 11602284 TLKKGSSGYCAWPAC 2sn3;P15226 11602284 PDSVKIWTSETNKCG 2sn3;P15226 15302529 VPDHIKVWDYATNK 2sn3;P15226 15302529 GLPDSEPTKTNGKCK 2sn3;P15226 15302529 LPNWVKVWDRATNKC 2sn3;P15226 15970301 KEGYAMDHEGCKFSC 2sn3;P15226 15970301 CDGYCKTHLKASSGY 2sn3;P15226 15970301 PDHIKVMDYATNKKC 2sn3;P15226 15970301 KEGYLMDHEGCKLSC 2sn3;P15226 15970301 IRPSGYCGRECGIKK 2sn3;P15226 15970301 LPNWVKVWDRATNKC 2sn3;P15226 15970301 KKDGYPVEYDMCAYI 2sn3;P15226 15970301 WNYDNAYCDKLCKDK 2sn3;P15226 9022703 GYIVDDV P01484 9022703 IVDDVNC P01484 9022703 LKGESGY P01484 9022703 VKDGYIVD P01484 9022703 YIVDDVN P01484 9276446 IVDDVNCTYFCGRNAYC P01484 9276446 NEECTKLKGESGYCQ P01484 9276446 PDHVRTKGPGRCH P01484 9276446 YKLPDHVRT P01484 11750040 KELYGSSA P01484 11750040 TSPKQCSKPC P01484 19962461 GRNAYCN Q7YXD3 19962461 YIVDDVNCT Q7YXD3 A primeira coluna mostra o código PUBMED do periódico do qual o epítopo foi extraído. A segunda coluna indica a lista de EpiLCB. A terceira coluna mostra o código Uniprot, PDB ou genebank. Os epítopos em preto pertencem a SVMPs eem vermelho NTXs. 49 A composição de aminoácidos mostra diferenças para epítopos de NTX e SVMPs (Fig. 3). Os aminoácidos que possuem as maiores diferenças ou variações mais significativas,expressos em porcentagem foram a lisina (3.05 e 10.6), tirosina (3.16 e 7.9), arginina (8.5 e 3.5), alanina (5.6 e 2.8), histidina (3.4 e 1.5), aspartato (5.3 e 8.1), isoleucina (2.6 e 4.4), metionina (3.6 e 1.07) e triptofano (1.3 e 2.5), sendo o primeiro valor para a família das metaloproteases e o segundo para a família das neurotoxinas. Figura 3. Gráfico de barras apresentando o porcentagem dos aminoácidos de epítopos para as famílias SVMPs e NTx. Em preto, os epítopos da família das SVMPs e em cinza os epítopos para as família das NTx. As propriedades com uma estrela acima das colunas indicam um e-val menor a e*10-5 se indica com asterisco sobre as barras. Estes resultados mostram variações entre os aminoácidos de EpiLCB de duas famílias reforçando a hipótese de que EpiLCB de famílias diferentes como SVMPs e NTXs, possuem propriedades diferentes. Estas propriedades podem ser aproveitadas com fins de desenvolvimento de 50 ferramentas de previsão de antigenicidade e epítopos (Westhof et al., 1984, Malito e Rapuoli, 2013). Alguns trabalhos atuais reforçam indiretamente essa sugestão ao afirmarem que o mais difícil atualmente é entender as variações que existem dentro dos EpiLCB (Sivalingam e Shepherd, 2012. Kunik e Ofran, 2013) e algumas similaridades ou padrões dentro de grupos de epítopos pertencentes a uma mesma família ou grupo de proteínas (Subramanian and Chinnappan, 2013., Liu and J. Hu, 2011). Essas variações são aproveitadas pelos modelos computacionais de mineração de dados, dependendo do modelo, a importância de cada aminoácido pode variar. Por este motivo foram explorados 5 tipos de modelos de mineração de dados. Os modelos MLR, Bayes e Kmeans utilizam comparações das medias das propriedades dos epítopos rígidas reduzindo a sensibilidade do modelo. Enquanto SVM e a arvore de decisão permitem uma maior flexibilidade respeito ao analise de cada propriedade aumentando a sensibilidade dos modelos. Dependendo da complexidade do modelo, as vezes é melhor focar na precisão dos modelos e não na sensibilidade (Sun et al., 2013). Como consequência, explorar estes modelos permitiu uma analise bem detalhada com o intuito de decidir qual modelo se ajustaria melhor aos nossos dados e culminaria em um resultado mais preciso. Assim, utilizando a linguagem Python e Pearl geramos 33 parâmetros ou descritores físicoquímicos e classificados como descritores do tipos PCP. Nele estavam incluindo parâmetros, como a percentagem decada aminoácidos e percentagem de cada átomos, propriedades dos aminoácidos,índice de hidropaticidade, cadeia alinfática, ponto isoelétrico etc. Outros seis descritores foram baseados em propriedades estruturais, e chamado de PSS. Neste grupo, estavam inclusos as probabilidade de alfa-hélice, folhasbeta, coil, acessibilidade de superfície relativa e absoluta, pontuação de acessibilidade Z-fit. Assim obtivemos três matrizes para cada conjunto de dados: a 51 primeira, com informações PCP, a segunda com apenas os dados PSS e um terceiro que contendo os dados combinados de PSS e PCP. Utilizamos os valores estatísticos diretamente no método MLR. Tanto para os descritores, “PCP”, como para os descritores “PCP + PSS”, formado pela analise dos dois tipos descritores juntos na tabela 2. Por tratar-se de um modelo rígido, sabe-se que pequenas variações nas somas das propriedades podem alterar facilmente o modelo. Interessantemente os resultados para ambos grupos de dados PCP e PCP + PSS, foram similares, indicando que nossos dados podiam ser explicadas de diversas formas, e que isso era um indicativo da boa qualidade e parcimônia nos dados utilizados. Avaliamos também os EpiLCB de duas famílias de acordo com as características dos aminoácidos, ou seja, porcentagem de aminoácidos com carga positiva (R, H e K), com carga negativa (D e E), sem carga (S , T , N e Q), considerados especiais(C , G e P) e hidrofóbicos (A, V, I, L, M, F, Y e W). Os aminoácidos C, G e P são considerados especiais, por não estarem classificados dentro de nenhum das outras categorias anteriores. Estes resultados são mostrados na Fig. 4 e pode se observar que não ha diferenças significativa entre as duas famílias, comprovado pelo teste estatístico de “Welch Two sample T-test”. Quando agrupados os aminoácidos por tipo, se reduzem as diferencias entre as duas famílias, dificultando sua classificação, de forma similar ao encontrado na literatura (Odorico e Pellequer, 2003, Sollner e Mayer, 2006, Kunik e Ofran, 2013). Assim estes resultados poderiam ser exemplo que além de focalizar dados de epítopos a grupos de proteínas ou famílias é importante não generalizar as propriedades dos epítopos por que pode conduzir a uma perda da sensibilidade dos modelos preditivos (Lustrek et al., 2013). 52 Figura 4. Gráfico de barras apresentando a porcentagem do aminoácidos por grupos. No eixo X temos os grupos com carga positiva (RHK), com carga negativa (DE), sem carga (STNQ), considerados especiais (CGP) e hidrofóbicos (VISLMFYW). No eixo Y temos a porcentagem destes grupos do 100% dos epítopos. Em cor cinza se mostram as estatísticas para NTx e em preto para SMPs 5.2 Padrões em epítopos das famílias das SVMPs e NTx. Como foi encontrado diferencias promissóras entre estas duas famílias de proteínas, utilizamos técnicas de mineração de dados em buscas de padrões específicos nos EpiLCB em cada família com suficiente significância para permitir classifica-los. Um padrão específico se refere a uma propriedade que é constante dentro de um grupo mas é suficientemente diferente de outro grupo, assim permitindo separar e classificar aos dois grupos participantes da analise. Assim, o primeiro parâmetro que mostrou foi o índice de hidrofobicidade/hidrofilicidade (hidropaticidade) ou índice de GRAVY, que é um excelente indicador de avaliação de quanto hidrofóbico ou hidrofílico uma sequência de resíduos pode ser. Os primeiros estudos sobre epítopos mostraram que as regiões 53 hidrofóbicas de antígenos em solução se encontravam sobrepostas ou próximas a regiões antigênicas (Parker e Osterland, 1970). Posteriormente, um ajuste nos cálculos destas regiões considerando os aminoácidos no polares em condições fisiológicas (pH 6.5 - 7.4) permitia correlacionar resíduos preditos como acessíveis com regiões antigênicas (Parker et al., 1986). Assim a média do índice de GRAVY para as metaloproteases foi -0.8462 e para as neurotoxinas -0.4928 (tabela 2) apresentando importância estatística pelo T-test. Esta diferença induz a importância deste, parâmetro como padrão na seleção de EpiLCB destas duas famílias. Este resultado também se encontra relacionado ao encontrado por na tese de doutorado de Machado de Ávila, 2011. Naquele trabalho, foi visto uma diferença entre o ponto isoelétrico de duas família de proteínas (citosinas e neurotoxinas escorpiônico), e composição de epítopos de neurotoxinas com vários aminoácidos hidrofóbicos a diferencia de citosinas (Duarte et al., 2010, Machado de Ávila et al., 2011). Por sua vez, os resultados do PSS mostraram pouca variação estatística com p-value superiores ao 0.05. As PSS não são a melhor forma de avaliar estruturas mas permitem uma aproximação aos dados reais, sendo a única opção possível devido da pouca quantidade de estruturas de qualidade disponíveis (Chen et al., 2009). Nós encontramos que o parâmetro estrutural de maior relevância foi o de superfície absoluta com medias diferentes para estes dois grupos, 78.3 para neurotoxinas e 73 para metaloproteases e um p-value de 0.08. Esta propriedade representa a área total que ocupa o epítopo na superfície da proteína. No entanto, o valor estatístico encontrado para o parâmetro superfície absoluta dentro de um intervalo de confiança de 90%. A diferença das PCP que mostro maior diferença estatística com valores dentro de um de um intervalo de confiança de 95%. No entanto, é importante sinalar que os descritores PSS, ainda se encontram em desenvolvimento e como descrito por outros autores e são propriedades consideradas precisas (Liu et al., 2012, Sun et al., 2013), por isso acreditamos serem promissoras. A importância de investigar e comparar as 54 propriedades estruturais e sua comparação com a sequência de aminoácidos dos antígenos radica na melhora dos algoritmos atuais de previsão de epítopos (Zhang et al. 2012). Estas relações entre estrutura e sequência podem levar a um entendimento melhor da localização de epítopos nos antígenos, resultando em melhores estratégias de produção de anticorpos contra estas regiões (Correia et al., 2010). O Z -fit que é um valor derivado dos parâmetros de acessibilidade mostrou ter medias com valores -0.51 e -0.69 para as metaloproteases e neurotoxinas respectivamente, indicando significância estatística com um p-value de 0.04949. Como esperado, demostrando que esse parâmetro relacionado a acessibilidade possam ter algum tipo de relevância.. O conjunto de dados Metneu contendo os epítopos para as metaloproteases e neurotoxinas além de ser considerado por nos como o melhor "dataset”. para estas proteínas ainda possui um numero pequeno de amostras (Kozlova et al., 2015). Por esse motivo, a interpretação dos resultados da análise da curva ROC foi realizada com cautela, por que cada método de agrupamento ou mineração de dados utiliza parâmetros diferentes, a comparação nem sempre é fácil (El-Manzalawy e Honavar, 2008, Bremel et al., 2010). Na analise das curvas ROC se avalia a área embaixo da curva, o qual permite uma boa comparação do desempenho dos métodos de classificação. Desta forma, foi escolhido melhor método para classificar epítopos de não-epítopos foi baseado nos critérios de precisão, de sensibilidade e de interpretabilidade dos resultados. Com isso, SVM que é por definição um dos melhores métodos de mineração de dados, foi deixado de lado devido a dificuldade de interpretar os modelos gerados (Peters et al., 2007, Wang et al., 2011). 55 A figura 5 mostra o desempenho de cada um dos modelos de agrupamento baseado nas propriedades PCP a fim de diferenciar epítopos lineares de metaloproteases dos EpiLCB das neurotoxinas. Entre os resultados foi encontrados com uma alta precisão (acima de 0.9) para cada método, com a exceção de NV (0.800) e KM (0.493). KM é considerado um dos algoritmos mais simples e o dentre os algoritmos utilizado nesse trabalho, o pior método para classificar dados complexos com várias dimensões, tais como nosso conjunto de dados utilizado nesta simulação (Baydogan et al., 2013, Kozlova et al., 2015). Além disso, como esperado, a SVM realizada teve como resultado uma pontuação alta (0.999 AUC). Do mesmo modo, MLR (0.986 AUC) e DT (0.957) tiveram um desempenho similar, entretanto são técnicas mais simples e menos demoradas, além de ser mais simples sua interpretação. As Curvas ROC são a melhor forma de avaliar modelos de classificação, já que permitem dar uma idéia clara do comportamento do modelo. As curvas ROC permitem identificar problemas metodológicos, ruído nos dados, sensibilidade e precisão dos modelos gerados pelas técnicas de mineração de dados (Marcatili and Houen, 2015). Assim, vimos que o uso de propriedades PSS resultou em um baixo rendimento para a maioria dos métodos. Um destes, como o algoritmo DT, foi o que provou ter o melhor desempenho em comparação com os outros classificadores de dados. Este algoritmo teve resultado de 0.920 de AUC em comparação com MLR, que obteve um valor de 0.650, como observado na figura 6.Dessa forma, estes resultados tiveram respaldo na teoria de divergência de Kullback-Leibler, conhecida popularmente como “Informações de Divergência”, que explica que os ganhos de informação são causados por uma medida não simétrica da diferença entre duas distribuições de probabilidades (Kullback e Leibler, 1955). 56 Figura 5. Curva ROC para os modelos de classificação EpiLCB das neurotoxinas e metaloproteases baseada em PCP. Figura 6. Curva ROC para os modelos de epítopos de neurotoxinas e metaloproteases baseada em características PSS 57 O algorítmo DT aproveita este fenômemo com o fim de aumentar o desempenho na classificação dos dados, utilizando repetidamente as mesmas propriedades, tais como Z-fit (níveis 2 e 4) e Absolute Surface Accessibility. Estas propriedades se repetem nos níveis 3 e 4, na árvore de decisão mostrada na figura 7. Significando que este algoritmo cria um intervalo quando repete as propriedades. Por exemplo: Em acessibilidade absoluta de superfície, o valor referente para neurotoxinas é inferior ou igual a 79.5 e maior de 88.9. Já para metaloproteases a característica é valida quando o valor está acima de 79.5 e abaixo de 88.9. Isso faz com que DT seja um método muito interessante, apesar dele não ser usado com a mesma freqüência que outros métodos tais como SVM (Gao et al., 2012). Também houve redução do desempenho no modelo de predição MLR. Essa redução foi de um valor AUC de 0.986 (PCP) para 0.650 (PSS). Por outro lado, todos os outros métodos mostraram valores de AUC perto de 0.500 (PSS), indicando que o uso somente de propriedades de estrutura secundaria não são suficientes para uma boa classificação dos dados. As estruturas secundarias preditas são muito exploradas na literatura com a intenção de ser usadas na previsão de EpiLCB e conformacionais (Singh et al., 2013), com um bom rendimento próximo de 70% de precisão para EpiLCB e 60% para epítopos conformacionais (Sun et al., 2013). Este rendimento não é suficiente para orientar métodos experimentais e também é variável dependendo da natureza do antígeno estudado (Kam et al., 2014). Como consequência as pesquisas mais recentes focam em dados experimentais sobre estrutura (Neilsen et al., 2010) e não PSS mas também existem metodologias que ressaltam a utilidade das PSS (van oss et al., 1997, Regenmortel et al., 20067). Portanto nos avaliamos estas propriedades encontrando que podem ser utilizadas dentro do intervalo de confiança de 90% más não quando se procura uma maior confiabilidade estatística. 58 A combinação dessas características, PCP e PSS, provoca um aumento no desempenho com o método MLR. O modelo baseado neste método passou de um valor AUC de 0.986 (PCP) para 1.00 (PCP+PSS), que é o máximo de predição possível. Entretanto, o desempenho com o método DT foi alterado para um valor de 0.940 (PCP + PSS), sendo que anteriormente era de 0.957 para PCP. Significando que um modelo rígido como MLR mostra o melhor resultado quando avaliando um conjunto de dados específicos. Figura 7. Árvore de decisão para o conjunto de dados metneu usando os parâmetros PSS (neuro = neurotoxinas, metallo = metaloproteases, absolute = acessibilidade absoluta de superfície e relative = acessibilidade relativa). 59 Por outro lado, o DT, um modelo mais sensível e flexível perde precisão na adição de dados PSS. Assim indicando algum possível conflito entre estas propriedades o que poderia reduzir a precisão durante uma previsão de epítopo. Este é outro beneficio de usar mais de uma técnica de mineração de dados, similar ao analise realizado com os SVM e Bayes (Zhao e Li., 2010), De forma similar, o algorítmo NB que tinha um valor de 0.800 para PCP, caiu para 0.790 (PCP + PSS). Este analise com curvas ROC para os modelos que usam as características combinadas(PCP + PSS) estão disponíveis na figura 8. Estes resultados podem se explicar baseado no valor de cada propriedade. Os métodos Bayes e DT, revisam todas as propriedades com os mesmos valores e procuram correlação entre estes para classificar os dados, enquanto o MLR atribui um valor para as propriedades que considera importantes e reduze a importância das propriedades que entram em conflito com a classificação. Figura 8. Curvas ROC para os epítopos das famílias das neurotoxinas e das metaloproteases, baseadas em características PCP+PSS. 60 As propriedades estatisticamente relevantes para o agrupamento dos epítopos com MLR são mostrados na tabela 2, juntamente com os modelos de predição MLR para PCP+PSS e PCP. É importante ressaltar que a adição de PSS mencionada anteriormente alterou o significância estatística das características PCP. Além disso, alguns aminoácidos, tais como: asparagina (N), glutamina (Q), treonina (T), alanina (A) e serina (S) se destacam em ambos os modelos. Este fenômeno é observado também nos grupos de aminoácidos não carregados e especiais, como pode ser visto na tabela 2. Esta ocorrência é provavelmente explicada com a teoria “Ganho de Informação”, descrita previamente. Os parâmetros relevantes utilizados pelo método árvore de decisão são idênticos para ambos os modelos (PCP e PCP + PSS), como pode ser visto na figura 9. As características mais importantes são as estatísticas dos aminoácidos D, K, M, W e I. Nem todos esses aminoácidos têm as mesmas significâncias estatísticas, embora todos são usados em conjunto nos modelos de predição descritos. Assim sendo, nesta parte da tese foi possível separar epítopos de metaloproteases dos epítopos de neurotoxinas através da combinação dos diferentes métodos usados e utilizando diferentes modelos de predição. Uma descrição mais detalhada das diferenças entre metaloproteases e neurotoxinas foi publicada por nos na revista BMC Bioinformatics (Kozlova et al., 2015) que se encontra em anexos. 61 Tabela 2. Estatísticas dos parâmetros usados para a predição. A: Modelo usando as propriedades PCP. B: Modelo usando as propriedades PSS+PCP. A primeira coluna é o nome da matriz seguida do nome do parâmetro; A segunda coluna é o coeficiente usado na regressão; A terceira coluna é o erro padrão; A quarta coluna é o valor t e a quinta é o valor p, enquanto menor o valor p, maior a influencia da característica no modelo. 62 Figura 9. Árvore de decisão usada para os modelos com PCP e PCP+PSS dos dados metneu. Cada nó mostra a propriedade usada para separa SVMPs e NTx e as estatísticas da separação que incluem o porcentagem e o numero de elementos separados. 63 5.3 Padrões em epítopos baseados no reconhecimento por anticorpos de animais diferentes Atualmente, sabe-se que existem diferenças nas respostas imunes entre as espécies de animais imunizados. Da mesma forma, existe diferença no reconhecimento dos epítopos a partir de anticorpos de diferentes animais, por exemplo: a albumina de coelho é imunogênica no camundongo e não no coelho (Ponomarenko et al., 2007). Sendo o Imune Epitope Data Base (IEDB), referenciada por vários artigos (Sun et al., 2013, Carrasco et al., 2015, Juhász et al., 2015, Vita et al., 2015), como o banco de dados mais completo e detalhado em relação às informações sobre os epítopos, chegando a conter informações relativamente redundantes (Ponomarenko et al., 2008, Gao et al., 2012). O IEDB contém dados de métodos experimentais usados para obter os epítopos, referências e outras informações relevantes, tais como os tipos de animais imunizados antígenos inoculados na imunização. Inicialmente a base de dados foi analisada procurando famílias de proteínas mas 80% dos antígenos disponíveis pertencem a proteínas de cápside de vírus (Reimer 2009, Liu J et al., 2014). Este numero pequeno de antígenos pertencente a diferentes famílias de proteínas não foi suficiente para um analise significativo (Caoili et al., 2014, Kim et al., 2014, Soria-Guerra et al., 2015, Vita et al., 2015). Por estes motivos, assim como pela facilidade de acesso das outras informações contidas nesta base de dados foi escolhido o parâmetro tipo de animal imunizado (Scalia et al., 2015, Díaz et al., 2014, Steeland et al., 2016). O animal produtor de anticorpos é importante por que diferentes animais possuem diferentes sistemas imunes e os anticorpos também são diferentes entre si, apesar de compartilhar algumas semelhanças (Gerts et al., 2002, Hein et al., 2003, Arora et al., 2005). Estas considerações são criticas no momento do desenho experimental na produção de anticorpos (Schunk et al., 2005, Ohia-Nwoko et al., 2016). 64 Assim, primeiramente filtramos os dados do IEDB, já que este continha mais de 300.000 anotações de epítopos. O resultado de filtrar estas informações gerou um conjunto de dados de 15.000 anotações. Esses epítopos resultantes foram novamente revisados e os mais abundantes eram os pertencentes as espécies Homo sapiens, com 7.518 anotações. A maioria desses dados para H. sapiens são epítopos de vírus e doenças comuns. A espécie de Mus musculus continha 3210, seguido por Oryctolagus, com 1959 e Canis, com 852. O total de modelos animais utilizados neste estudo para classificar os epítopos foi limitado em 14 gêneros. Assim os epítopos foram classificados como proveniente de estudos de 4 classes: Aves, Antiodactylamorpha, Roedores e Primata. Para aves, tem-se os gêneros tais como Anas(121 anotações), Anser(51) e Gallus(170). Para a Antiodactylamopha têm-se os gêneros Canis (852), Bos(40), Capra (426), Equus(58) e Sus (358) como representantes. Os Roedores com Cavia(72), Mus (3210), Rattus(263) e Oryctolagus(1959). Enquanto os primatas foram representados com os gêneros Aotus (76) e Homo (7518). A composição de grupos de aminoácidos com base na sua característica mais importante é mostrada na figura 10, enquanto que o gráfico de barras cumulativo para os aminoácidos de cada gênero pode ser visualizado na figura 11. Existem algumas variações entre os parâmetros dos representantes dos modelos animais utilizados, de forma que algumas são significativas e outras não. Estas propriedades significativas mostradas na figura 11 permitem identificar estes grupos como se fossem assinaturas. Como a quantidade de dados é vasta foi usado MLR e DT. Estes métodos são melhores nesta situação devido as suas versatilidades com matrizes e pouco gasto computacional (Beisken et al., 2013). 65 Todos os coeficientes usados na MLR para os 14 modelos são mostrados na tabela 3. Cada parâmetro usado nos modelos é visto como parte de uma equação, de forma que nesta o coeficiente é o multiplicador que define a significância dos parâmetros. Cada variável nominal ou gênero é transformada em uma variável numérica, resultado da combinação de vários parâmetros e coeficientes definidos em uma função linear. Estes números são importantes, pois permitem mostrar quais características são as mais influentes para descrever cada gênero, como mostrado na tabela 3. O MLR apresentou um desempenho superior para dividir esses grupos em comparação com DT. Este fato foi provavelmente causado pela complexidade da matriz para esses dados. A figura 12 mostra a curva ROC para cada grupo modelado com a técnica MLR. Os valores de AUC são maiores do que 0.720 para a maioria dos grupos, entretanto os mais altos valores de AUC atingiram 0.830 para Canis e 0.825 para Equus. Mus e Oryctolagus obtiveram os menores valores de AUC, com 0.652 e 0.625, respectivamente, o que pode ter sido causado por uma série de razões, tais como a similaridade de dados entre ambos os grupos. Estas características precisariam ser exploradas com mais detalhes, e incluindo outros dados que não foram levados em conta neste trabalho, como informações evolutivas, descritas por conservação de aminoácidos detalhadas por Lin (Lin et al., 2013). O valor AUC destes modelos foi menor que do que o agrupamento feito para as famílias de proteínas do antígeno no dataset metneu, mas ainda assim os resultados são promissores por que foram obtidos valores de AUC superiores a 0.7. Este resultado representa também a primeira tentativa de classificar epítopos baseado no origem dos anticorpos que os reconhecem. 66 Figura 10. Desenho de barras acumulativo para grupos de aminoácidos para cada gênero. No eixo X encontramos os gêneros pertencentes ao origem dos anticorpos que foram usados para identificar os epítopos. No eixo Y se apresenta o porcentagem dos aminoácidos de cada conjunto de epítopo para cada gênero. Nas caixas laterais direitas se mostra o cor pertencente aos grupos de aminoácidos, carregados positivamente (RHK), negativamente(DE), sem carga(STNQ), especiais(CGP) e hidrofóbicos(AVILMFYW) de baixo para cima. É importante ressaltar que uma parte significativa dos dados utilizados para esta classificação não são precisos como os dados obtidos manualmente (conjunto de dados metneu).). Estas limitações são discutidas na literatura (Ponomarenko et al., 2007) mas também como resultado deste problema a qualidade dos dados nos bancos de dados melhora gradualmente (Peters et al., 2005). 67 Figura 11. Desenho de barras acumulativo para grupos de aminoácidos para cada gênero. No eixo X encontramos os gêneros pertencentes ao origem dos anticorpos que foram usados para identificar os epítopos. No eixo Y se apresenta o porcentagem dos aminoácidos de cada conjunto de epítopo para cada gênero. Nas caixas laterais direitas se mostram caixas com os aminoácidos correspondentes para cada cor. Os epítopos extraídos da IEDB não foram verificados e validados como foi feito para o conjunto de dados metneu em vista da quantidade de dados. Assim, este banco de dados pode conter um serie de sequências classificadas como epítopos, mas que na realidade não, gerando uma serie de dados falsos epítopos e interferindo na nossa analise. Para este banco de dados, apenas a redundância foi removida usando scripts em Perl e Python, embora outros autores utilizam outras modificações tais como conservação de aminoácidos, combinatórias de propriedades e métodos experimentais (Singh et al. 2013). Singh reduziu a IEDB a um banco de dado contendo 1.300 epítopos e 1.300 nãoepítopos. 68 Entretanto, apesar desse possível erro no banco de dados (redundância), este fator engrandecesse ainda mais os resultados apresentados nesta tese. Por que mesmo com o possível erro, o efeito deles na classificação seria o de reduzir o desempenho em geral, o qual foi bom (superior a 0.7). Ou seja, hipoteticamente, sem esses possíveis erros os resultados deste trabalho teriam um desempenho ainda maior do que o apresentado aqui. Figura 12. Curva ROC para cada gênero usando MLR. 69 Tabela 3. Coeficientes para os parâmetros relevantes para o spliting baseado no tipo de animal imunizado. 70 5.4 Predição de Epítopos usando MLR e DT BCPred é uma base de dados usada como referência para a predição de EpiLCB (Saha et al., 2005). A maior quantidade de epítopos de células B existentes pertencem ao grupo de epítopos conformacionais e possivelmente apenas 10% do total de epítopos são lineares (Rubinstein et al., 2008). A vantagem de identificar EpiLCB consiste em sua utilização nas áreas de imunodiagnóstico e imuno-ferramentas. O BCpred foi desafiado várias vezes nos últimos anos por vários modelos de predição. Existem muitas variações sobre os dados usados para treinar esses algoritmos de predição (Gao et al., 2012), que estão baseados nas propriedades já descritas (Zhang et al., 2012 (2)). Acontece uma interessante discussão sobre como predizer corretamente os epítopos. As razões para esta discussão tem como base a seleção de parâmetros, como a estrutura secundária (ElManzalawy et al., 2008) e propensões e estatísticas de aminoácidos (Subramanian e Chinnappan, 2013). Na maioria dos exemplos conhecidos são aplicados métodos computacionais interessantes, tais como: SVM e redes neurais que mostram o seu melhor desempenho com dados complexos (Saha and Raghava, 2006). O desafio aqui é identificar qual é o melhor método e forma de analisar os dados biológicos, assim a maioria dos métodos conhecidos tem um desempenho de 0.8 AUC (Liu et al., 2014). Um fato interessante é que cada método computacional altera o conjunto de dados para obter os melhores resultados, mesmo quando alguns dados de epítopos podem ser falsos (Zarebski et al., 2008, Vita et al., 2010). O resultado destas pesquisas é uma grande variedade de conjuntos de dados diferentes e métodos que funcionam melhor com alguns dados, mas são ruins para outros (Lian et al., 2015, Shen et al., 2015, Sela-Culang et al., 2015). Portanto, sobre este panorama nós decidimos usar nossos melhores métodos de previsão, MLR e DT, para avaliar o poder de predição sobre epítopos. Como conjunto de dados foi escolhido o BCPred, que é o mais utilizado (Saha et al., 71 2005, El-Manzalawy et al., 2008, Gao et al., 2012). Em este, os epítopos são validados experimentalmente e como controle negativo são usadas sequências aleatórias baseadas nas estatísticas do banco de dados swissprot. Os aminoácidos dos epítopos e falsos epítopos do conjunto de dados BCPred têm um maior grau de similaridade do que os conjuntos de dados vistos anteriormente, mas ainda existem diferenças significativas, tais como: Percentagem de prolina com 6.75% para epítopos positivos experimentalmente e 4.67% para negativos; Leucina com 6.94% para positivos e 9.60% para negativos; Fenilalanina, 3.04 e 4.05 para positivos e negativos, respectivamente (figura 13). Quando examinadas as propriedades, como índice alifático, GRAVY e ponto isoelétrico, a diferença mais relevante foi entre o índice de alifático (72 para positivos e 89 para negativos) e GRAVY (-0.25 para negativo e -0.59 para positivos). Estas diferencias podem ser relativas ao conjunto de dados usado, pelo que se espera uma variacao de um conjunto de dados para outro. Já o ponto isoelétrico ficou em 6.8 em média para ambos os grupos, sem mostrar variações significativas. Assim as diferenças mostram a importância de um conjunto de dados bem descrito e também as variações que sofrem os dados quando são outros antígenos os considerados (Blythe and Flower, 2005). Assim como visto na literatura (Huang et al., 2007) alguns aminoácidos em epítopos se diferenciam de peptídeos aleatórios, o problema radica em que estes variam dependendo do antígeno (Bremel and Homan, 2010). 72 Figura 13. Estatísticas dos aminoácidos para os epítopos e os não epítopos do conjunto de dados BCPred. Em preto, os epítopos reais ou positivos e em cinza os não epítopos ou epítopos negativos. Assim, o primeiro método avaliado foi MLR, que tem sido utilizado por Liu R., em 2011 para outro conjunto de dados (Liu and Hu, 2011), com o valor de AUC 0.8 para um conjunto de dados extraídos da PDB. Liu também combinou as estatísticas de aminoácidos com propriedades físicoquímicas semelhantes como as descritas por nós. Outros métodos (SVM), também combinam propriedades resultando em valores de AUC de 0.8 para vários conjuntos de dados (Zhang et al., 2012 (1)(2)). A figura 14 mostra o desempenho em forma de curvas ROC para a predição de epítopos no conjunto de dados BCPred, com tamanhos de 12aa a 30aa de comprimento. O método usado por nós incluiu a combinação de todos os tamanhos de comprimento, desde 12aa até 30aa. Nosso modelo tentou melhorar a predição aproveitando o efeito de “Ganho de Informação”. Esta estratégia ficou sem sucesso para o modelo com MLR, mas os mesmos dados utilizando a metodologia DT resultou 73 em um desempenho com AUC de 0.966. Este resultado pertence a uma matriz conformada por todos os tamanhos de epítopo, assim como indicado na figura 14. Este modelo mostrou ter o melhor desempenho quando comparado com métodos descritos na literatura até o momento (Zhao et al., 2010, Soria-Guerra et al., 2015). Como mencionado anteriormente, as propriedades mais relevantes neste cenário foi o índice alifático, estatísticas de Prolina, fenilalanina e o índice de GRAVY. Figura 14. Curva ROC para as predições com os diferentes modelos para os métodos MLR e a árvore de decisão (em vermelho com AUC: 0.966). Em contraste os modelos para MLR não superarem o AUC:0.82. Cada tamanho e numero de epítopos se encontra padronizado neste conjunto de dados (Saha et al., 2005) 74 Portanto, nesta etapa do projeto através das diferentes propriedades físico-químicas calculadas com scripts em Perl e Python como descrito por Gasteiger e composição de aminoácidos como parâmetro é possível decompor a sequência de antígenos e epítopos em uma matriz de dados. Logo, usando o árvore de decisão conseguimos diferenciar epítopos e não epítopos dentro do conjunto de dados BCpred. Os resultados aqui obtidos serviram de base para a implementação de um novo algoritmo de identificação computacional de epítopos que além da determinação do epítopo estaria usando informações importantes como famílias de proteínas e organismo de origem. 5.5 Mapeamento experimental e computacional de epítopos de metaloproteases. Com o objetivo de testar nossas metodologias de identificação computacional escolhemos mapear as metaloproteases que são proteínas estudadas em nosso laboratório. Estas proteínas pertencem ao grupo de snake venom metaloproteases (SVMPs), tipo P-Ia, significando que somente possuem o domínio metaloproteinase, a diferencia das outras classes que incluem outros domínios assim como desintegrina (P-II) e porção rica em cysteinas (P-III) (Figura 15) (Fox et al., 2008). Estes detalhes são importantes por que nosso método de identificação para metaloproteases foi desenvolvido com epítopos especialmente para este domínio protéico o que incrementa a especificidade do método. Assim nos escolhemos usar as proteínas BaP1 (Bothrops asper), Atr-I (Bothrops atrox) e Leu-a (Bothrops leucurus) para identificar os epítopos experimentais e computacionais e compará-los entre si e frente aos métodos mais usados disponíveis na web (Greenbaun et al., 2007). 75 Figura 15. Esquema mostrando os tipos de SVMPs classificados acorde seus domínios. Os símbolos "?" indicam que o a molécula participante ainda não foi identificada. As SVMPs usadas em este trabalho encaixam no grupo P-Ia (A Figura foi adaptada de Fox et al., 2008). 5.5.1 Mapeamento de epítopos pelo método de SPOT-synthesis As proteínas BaP1, Leu-a e Atr-I foram mapeadas na busca de EpiLCB usando a metodologia SPOT síntese como descrita na seção de métodos usando pentadecapeptídeos e octopeptídeos sobrepostos por três resíduos cobrindo toda a sequência. Estas três proteínas foram sintetizadas na mesma membrana e esta foi exposta a soros IgG produzidos em camundongos. Foram usados três soros diferentes: Um soro IgG de camundongo anti-Atr-I altamente purificado (Schneider et al., 2014); Um soro policlonal IgG de camundongo anti-BaP1 de B. asper e outro soro policlonal IgG de camundongo anti-Leuc de B. leucurus. Estes soros foram testados contra a membrana contendo estas 76 proteínas. Portanto, foi possível mapear os peptídeos reconhecidos especificamente por cada soro contra as respectivas SVMPs alvo e também os peptídeos que mostrarem reatividade cruzada. Esta reatividade cruzada poderia ser causada pela similaridade destas proteínas que é até de 70% (Tabela 7). Assim a reatividade cruzada dos três soros foi avaliada frente a membrana contendo as três proteínas. Cada ponto o SPOT representa um peptídeo assim como descrito na metodologia. Estes pontos logo são avaliados manualmente atribuindo um valor de 0 até 5. Os SPOT de cor azul indicam reatividade frente aos anticorpos enquanto os amarelos ou marrons e em branco não (Martens et al., 1995, Frank et al., 1996). As diversas variações de coloração são causadas por vários fatores, idade da membrana, estado de conservação dos peptídeos sintetizados (Kramer et al., 1999, Weiser et al., 2005). Portanto um re-uso prolongado da membrana incrementa a possibilidade de erros nestas anotações. Esta metodologia tem sendo utilizada com sucesso para mapear EpiLCB (Duarte et al., 2010, Figueiredo et al., 2014). Os peptídeos correspondentes aos SPOTs de cor azul foram anotados como reativos e considerados como epítopos experimentais. É importante ressaltar que o soro antiAtr-I somente mostro reatividade contra Atr-I de 15aa de longitude (SPOTs 1 até 9) e Atr-I de 8aa em lugar de 15aa (SPOTs 10 até 15). Estes epítopos foram números do 1 até o 15 (Tabela 4). As regiões identificadas na proteína Atr-I como epítopos identificados experimentalmente com soro Anti-Atr-I se mostram na Figura 16 em azul. Estes SPOTs reativos para esta membrana se encontram publicados em Schenider et al., 2016. Logo a membrana foi lavada e regenerada como indicado na secção de métodos, e exposta logo contra soro Anti-BaP1, identificando assim outras regiões dentro da sequência da Atr-I (Tabela 5) indicadas em cor laranja na Figura 16. Esta reatividade é chamada de cruzada e é causada pela semelhança destas proteínas (Cohn 1953). Por ultimo a membrana foi lavada e exposta contra o soro Anti-Leuc-a identificando regiões diferentes na Atr-I representadas em amarelo (Figura 16). 77 Figura 16. Reatividade na membrana ligada mostrando a reatividade contra a sequência primaria da proteína Atr-I exposta a anticorpos IgG purificados Anti-Atr-I produzidos em coelhos (línea azul). O soro Anti-BaP1 e Anti-Leuc-a foram produzidos em camundongos estão representados por uma línea laranja e o soro Anti-Leuc-a por amarelo. Tabela 4. Epítopos identificados por SPOT síntese usando o soro Anti-Atroxlysin-I Na primeira coluna se indica o numero do epítopo. Na segunda se mostra a sequência de aminoácidos e na terceira a proteína na qual pertence o epítopo. 78 Utilizando esta metodologia foi possível avaliar a proteína BaP1 de Bothrops asper frente a os soros anti-Bap-I, Atr-I e Leuc-a (Figura 17.). Esta mostro reatividade contra os soros anti-Leuc-a e anti-BaP1, indicando reatividade cruzada. Esta reatividade pode se dever a vários fatores como: similaridade na composição dos epítopos, resíduos críticos iguais, semelhança com outros antígenos expostos naturalmente no organismo onde o soro foi produzido entre outros. As sequências dos epítopos identificados com este soro foram numerados como epítopos #16 até #24 dos quais, o numero 16 pertencente a proteína Atr-I sintetizada com peptídeos de 8aa no lugar de 15aa. Os números 17 e 18 pertencem na proteína Leuc-a. Os números 19 até 24 pertencem na proteína BaP1, a qual é a proteína alvo do soro anti -veneno de B. asper. Entretanto os epítopos 16 ao 18 representam a reatividade cruzada do soro. Estes epítopos se encontram listados na tabela 5. Figura 17. Reatividade na membrana dos soros anti-Atr-I, anti-BaP1 e anti-Leuc-a contra a Proteina BaP1. As regiões relativas a os soros anti-Leuc-a e anti-BaP1 estão representados por líneas amarela e laranja respectivamente. O soro antiAtr-I não mostro reatividade contra peptídeos referentes a esta proteína. 79 Tabela 5. Epítopos identificados por SPOT síntese usando o soro anti-BaP1 Na primeira coluna se indica o numero do epítopo. Na segunda se mostra a sequência de aminoácidos e na terceira a proteína na qual pertence o epítopo. A reatividade estes três soros anti- proteínas Atr-I, BaP1 e Leuc-a contra a proteína Leuc-a se mostra na Figura 18. O maior numero de epítopos foi identificado com o soro anti-Leuc-a. Este soro que mostro ser o mais reativo identificando 13 peptídeos de Atr-I, números 26 até 38. Na Leuc-a se identifico 18 peptídeos, números 39 ao 56. Entretanto na proteína BaP1 foram 5 peptídeos identificados como epítopos, números 57 até 61. Todas as sequências identificadas na membrana (Fig.18) se mostram na tabela 6. Todas estas regiões identificadas foram consideradas como o controle experimental positivo ao momento de ser comparados com os resultados computacionais. É importante indicar que estes resultados experimentais são parte de outros projetos do laboratório e principalmente da pesquisa realizada sobre metaloproteases realizada pelo Francisco Santos (Schneider et al., 2012, 2015). 80 Figura 18. Reatividade na membrana dos soros anti-Atr-I, anti-BaP1 e anti-Leuc-a contra a Proteina Leuc-a. As regiões relativas a os soros anti-Leuc-a e anti-BaP1 estão representados por líneas amarela e laranja respectivamente. O soro antiAtr-I não mostro reatividade contra peptídeos referentes a esta proteína. A reatividade entre os soros anti-Leuc-a e anti-BaP1 poderia estar atribuída na similar identidade que eles apresentam (78.22%) mas não explica por que são reativos com a proteína Atr-I sendo que a similaridade é de 50% com Leuc-a e 55.45% com BaP1. Este resultado poderia estar relacionado a tipo de animal imunizado, como mostrado anteriormente, anticorpos produzidos em animais diferentes mostram diferencias nos epítopos que reconhecem (Gerdts et al., 2007). Assim, o soro anti-Atr-I tinha sido produzido em coelho enquanto os soros anti-Leuc-a e anti-BaP1 foram produzidos em camundongos. Outra variável que pode afetar o sucesso durante a produção de anticorpos é a via de inoculação como demonstrado na literatura (Gerdts et al., 2001 Mutwiri et al., 2002). 81 A tabela 7 mostra estas identidades entre as proteínas Atr-I, Leuc-a e BaP1, após de um alinhamento entre elas mesmas usando o software ClustalW. Tabela 6. Epítopos identificados em membrana usando soro anti-Leuc-a Na primeira coluna se indica o numero do epítopo. Na segunda se mostra a sequência de aminoácidos e na terceira a proteína na qual pertence o epítopo. 82 Tabela 7. Identidade entre as proteinase Atr-I, BaP1 e Leuc-a. Estes resultados são interessantes por tratar-se da identificação de epítopos novos em um grupo bem conhecido de enzimas de venenos (Fox et al., 2008). Mostramos aqui que alem destas proteínas ser similares com um mínimo de 50% e um Maximo de 78%, possuem epítopos diferentes em 1-2 aminoácidos mas em regiões similares, ressaltando a importância da conservação de estruturas e possivelmente indicando resíduos críticos em comum. (Takeda et al., 2011). 5.5.2 Mapeamento computacional Uma serie de modelos produzidos com a metodologia arvore de decisão foram criados e avaliados utilizando validação cruzada e incluindo o uso do algoritmo SMOTE, como descrito na metodologia (Chawla et al., 2002). O melhor modelo foi escolhido baseado em desempenho (Performance), menor numero de falsos positivos e maior numero de verdadeiros positivos. Este modelo foi inicialmente chamado de Labimq, em homenagem ao laboratório em que este trabalho está sendo desenvolvido. Os resultados dos valores estatísticos do modelo Labimq foram comparados com os índices "gini" e precisão reduzida (decreased accuracy) do pacote Random Forest do software R (Tabela 8). Estes resultados mostram as diferencias na importância das propriedades quando avaliadas estatisticamente por modelos diferentes, similar ao observado na literatura (Greenbaun et al., 2007). 83 Os EpiLCB resultado da identificação computacional para a BaP1, Leu-a e Atr-I (Tabela 9) foram comparados com a previsão de epítopos dos métodos Bepipred, ABCpred e TEPRF (Rubinstein et al., 2008, Greenbaun et al., 2010). Estes resultados foram avaliados usando curvas ROC o que permitiu identificar exatamente as vantagens e desvantagens destes métodos bioinformáticos (Tabela 10). Por consequência, podemos concluir que o Labimq foi superior aos outros métodos computacionais por apresentar uma menor quantidade de resíduos de aminoácidos identificados como falsos positivos (FPR ou False Positive Rate), e uma melhor precisão (Precision and Accuracy) em comparação com os métodos ABCpred, TEPRF e Bepipred. Entre estes métodos, o melhor desempenho Após o método Labimq pertence ao Bepipred (Larsen et al., 2006), o qual mostro ter uma precisão (Accuracy) de 0.5655 com os parâmetros indicados pelo autor em comparação com 0.6175 para Labimq. ABCpred (Saha et al., 2008) e TEPRF (Huang et al., 2014) apresentarem valores de 0.4384 e 0.4972 o que é considerado um resultado similar a escolher peptídeos como epítopos aleatoriamente. Posteriormente foram testados todos os possíveis cutoffs para estes 4 algoritmos com o objetivo de testar os limites destes programas maximizando a precisão (Precision) e AUC. Assim, encontramos que quando maximizamos AUC o método ABCpred possui valores similares de desempenho ao Bepipred mas ainda estes valores são menores aos mostrados pelo Labimq. Também nosso método apresento o menor numero de falsos positivos (FPR) em comparação com os outros algoritmos. A principal diferencia entre estes programas alem do tipo de técnica de mineração de dados usada e o foco dos programas por que geralmente tentam achar todos os epítopos possíveis reduzindo a precisão do método e acrescentando muitos falsos positivos. 84 Tabela 8. Descritores importantes para o modelo arvore de decisão em comparação com as pontuações obtidas para o índice "gini" e "decreased accuracy" do pacote Random Forest em R. 85 Tabela 9. Epítopos identificados computacionalmente usando o método arvore de decisão Labimq. Tabela 10. Resultados do analise das curvas ROC resultantes da comparação do modelo Labimq com os preditores ABCpred, Bepipred e TEPRF. AUC indica área da curva. Accuracy– acurácia do método. TPR - Porcentagem de verdadeiros positivos. FPR - Porcentagem de falsos positivos. Precision, - precisão do método . Specificity– especificidade do método. 86 Para chegar nesses dados, o resultado da predição através do modelo Labimq foi comparado com os resultados encontrados experimentalmente por SPOT. É interessante destacar que a maioria dos epítopos identificados computacionalmente são os mesmos obtidos pela reatividade cruzada entre estes soros no teste de SPOT. Essa informação é importante pois reforça a nossa hipótese das que dentro de uma mesma famílias de proteínas seus epítopos possuem características parecidas e por isso são bastante similares.A sobreposição dos resultados experimentais com respeito da resposta da membrana com cada um dos soros testados se encontra na figura 19. Figura 19. Esquema representando os epítopos identificados computacionalmente pelo modelo Labimq em comparação com os soros Anti-Atr-I, Anti-BaP1 e Anti -Leuc-a. No eixo X encontramos o numero correspondente na posição dos resíduos de aminoácidos. No eixo Y é o valor em porcentagem até 100% da resposta obtida pelos método experimental e computacional. A mostra estas respostas para a proteínaBaP1. B mostra estas respostas para a Atr-I e C mostra estes resultados para a proteína Leuc-a 87 Estes resultados são importantes por que mostram um incremento significativo na precisão da identificação computacional quando o modelo se encontra baseado em um grupo restringido de proteínas ou família de proteínas, similar a algumas pesquisas encontradas na literatura (Liu and Hu, 2011). Assim verificamos nossa hipótese e abrimos a possibilidade de redigir os esforços dos métodos atuais de previsão de epítopos a incluir outros detalhes ainda não explorados como família de proteína ou tipo de animal para imunizar.Em lugar de ter um modelo geral aplicável para todas as proteínas, a melhor solução seria ter vários modelos que se ajustem melhor a grupos de proteínas permitindo assim resultados mais confiáveis (Wilson e Andrews, 2012) .Também mostramos algumas das limitações e variações das respostas imunes que também dificultam o processo de identificação de epítopos, tanto experimentalmente como computacional as quais foram pouco reportadas na literatura (Toseland et al., 2005). 5.5.3 Seleção de epítopos para síntese de peptídeos correspondentes e imunização. Finalmente, o ultimo passo deste trabalho, foi verificar se um epítopo predito computacionalmente pelo modelo Labimq seria realmente capaz de induzir a produção anticorpos neutralizantes. Para isso, sintetizamos um epítopo predito computacionalmente e em seguida produzirmos anticorpos policlonais que eram capaz de neutralizar a proteína de interesse, no caso, a proteína a Atr-I (Sanchez et al., 2010). O EpiLCB predito contendo a sequência 9VDLFIVVDHGMFMKY-23, chamamos este epítopo de Computacionalmente Positivo e Experimentalmente Negativo, ou CPEN. Ele recebe a denominação de experimentalmente negativo devido a não te apresentado reatividade nos testes de SPOT (Figs. 16, 17 e 18.). o CPEN possui uma massa molecular de 1814.19 e um pI de 5.21, valores confirmados com espectrometria de massas (Figura 20). 88 Como controle negativo, sintetizamos uma sequência peptídica da Atr-1 (99LTSTDFNGPTIGLAY113) que quando testada experimentalmente na membrana SPOT apresentou resultado negativo para todos os três soros e as previsões computacionais. Portanto foi denominado Computacionalmente Negativo e Experimentalmente Negativo, ou CNEN. Logo da síntese química dos dois peptídeos pelo método de FMOC sínteses como descrito neste trabalho, realizamos a espectrometria de massas também descrito na metodologia para confirmar a massa dos peptídeos e assim garantir que a sínteses foi bem efetuada. A figura 20 mostra os espectros de massas correspondentes a estes peptídeos. Após a sínteses e confirmação dos peptídeos, utilizamos esses para produzir um anticorpos (anti-CPEN e anti-CNEN), com o intuído de avaliar efeito neutralizante hemorrágicos destes soros. Estes foram produzidos em dois grupos de 5 camundongos cada. Os peptídeos foram injetados usando lipossomas, os quais causam danos mínimos aos animais em comparação com técnicas que requerem o uso de adjuvantes (Gomes et al., 2011). O titulo de reatividade dos anticorpos produzidos foi avaliado após a terceira dose com a técnica de ELISA como descrito na seção de métodos. Após a novena dose o reconhecimento da proteína Atr-I foi satisfatório com o soro anti-CPEN (próximo de 0.9 de absorbância a 490nm). No obstante a absorbância registrada para o CNEN se manteve menor com valores em torno de 0.4, a diferencia do controle anti-liposoma que não mostro produção de anticorpos contra a Atr-I. O controle positivo anti-Atr-I mostro o máximo de atividade contra a Atr-I com valores próximos de 0.9 apos a terceira dose. 89 Figura 20. Espectro de massa indicando a pureza dos peptídeos CNEN (massa molecular de 1501.2) e CPEN (massa molecular de 1814.1) Após a síntese. 90 5.5.4 Neutralização da Atr-I com anticorpos anti-VDLFIVVDHGMFMKY Para a neutralização da Atr-I, foi usada como referencia 1 dose media hemorrágica (DMH) da Atr-1 descrita em Schenider et al., (2015). Desta forma, quatro grupos de camundongos Swiss foram utilizados no experimento injetados. O primeiro grupo foi injetado com o valor correspondente a 1 DMH equivalente a 19μg de Atr-I de B. atrox dissolvido em 100μL de tampão PBS, como controle positivo de hemorragia. O segundo grupo foi injetado com 1 DMH de Atr-I e 50μL de soro Anti-CNEN dissolvido em 100μL de PBS. O terceiro grupo foi injetado com 1 DMH e 50μL de soro Anti-CPEN dissolvido em 100μL de PBS e um quarto grupo foi injetado com 1 DMH e 50μL de soro Pre-imune também dissolvido em 100μL de PBS. Após o protocolo os camundongos foram sacrificados e a pele foi removida para ser avaliada a hemorragia (figura 21). A dose de 50μL de soro Anti-CPEN foi suficiente para neutralizar a hemorragia prevenindo a formação do halohemorrágico como observado a figura 21-D. Como controle, a hemorragia referente a 1 DMH da Atr-I (Figura 21-A)não é neutralizada pelo soro anti-CNEN (figura 21 B) ou soro pre-imune (figura 21C). Entretanto o 100% de hemorragia Após de 1 DMH com Atr-I é apreciável na figura 21.A, e uma hemorragia um pouco menor foi visível respeito do soro anti-CNEN e pre-imune possivelmente devido da interação destas moléculas com a Atr-I. Portanto, aqui nos reportamos a validação de um peptídeo identificado como epítopo somente pelo nosso método Labimq, e que os anticorpos contra este foram capazes de neutralizar a hemorragia causada pela Atr-I. Estes resultados são similares a os obtidos com anticorpos monoclonais durante o desenvolvimento de um bio-sensor para neutralizar a mesma proteína Atr-I (Scheinder et al., 2014). 91 Figura 21. Ensaio de Neutralização do efeito hemorrágico da Atr-1. Em A, controle positivo - Efeitos hemorrágicos da enzima Atr-I. Em B, efeito anti-hemorrágico da Atr-1 que não é neutralizado com o uso do peptídeo CNEN. Em C, o efeito anti-hemorrágico da Atr-1 não é neutralizado com o soro pre-imune. Em D,o efeito anti hemorrágico neutralizado pelo soro anti-CPEN baseado no epítopo identificado computacionalmente pelo método Labimq. Esta sucedida neutralização mostra que uma metodologia de produção de anticorpos baseado em peptídeos é viável como demonstrado na literatura (Felicori et al., 2009, Ramada et al., 2013). Mas também demonstramos que epítopos identificados computacionalmente podem ser tão viáveis quanto epítopos identificados experimentalmente. As implicações no momento de desenhar a metodologia na produção de soro são importantes, já múltiplos fatores afetam a efetividade dos epítopos e sua identificação (Huang et al., 2015). Possivelmente os fatores como família do antígeno (Kozlova et al., 2015), tipo de animal imunizado (Hein et al., 2003, Gerdts et al., 2007), via de imunização 92 (Gerdts et al., 2002, Ranasinghe et al., 2015) e tipo de adjuvante (Ranasinghe et al., 2014, Pasquale et al., 2015) sejam fatores que precisam mais atenção para um refinamento maio das técnicas na produção de anticorpos assim como da seguridade no seu uso (Stassijns et al., 2016, Trandrup et al., 2016), qualidade neutralizante destes anticorpos (Levast et al., 2014, Poland et al., 2015). 5.6 Base de dados UML Finalmente, com o objetivo de armazenar de forma eficiente e acessível os dados deste projeto referente aos epítopos e suas propriedades, bem como de informações ligadas a eles, foi desenhado uma base de dados. A figura 22 contêm a estrutura desta base de dados em linguagem UML (Unified Modeling Language) da estrutura deste banco de dados, desenhada especialmente para aceitar resultados de experimentos, estruturas e parâmetros de epítopos ou paratopos. Por consequência o uso deste banco de dados através do servidor SSH (Secure Shell) facilito varias pesquisas incluindo esta tese de doutorado de Benjamin Viart e o desenvolvimento do EPI-Peptide designer (Viart et al., 2016). Este banco de dados também armazena as informações dos epítopos de metaloproteases e neurotoxinas publicados em BMC Bionformatics através do congresso X-meeting do ano 2014 (Kozlova et al., 2015). 93 Figura 22. Esquema UML da base de dados do laboratório. 94 6. Conclusão Nesta tese, descrevemos o desenvolvimento de um algoritmo baseado em conjuntos de dados capazes de identificar computacionalmente epítopos para células B dispostos linearmente na seqüência do antígeno. Mostramos que os principais métodos de mineração de dados possuem desempenhos similares, entretanto os dados de entrada e orientação dos modelos são ainda limitados. A árvore de decisão que utilizamos permitiu o entendimento das propriedades físico-químicas. Estes foram utilizados para classificar famílias de epítopos e discriminar de epítopos de não epítopos. Por conseqüência foi possível encontrar padrões que asseguraram a separação de grupos de epítopos baseados em famílias de proteínas e no tipo de animal usado para produzir anticorpos. A árvore de decisão escolhida foi capaz de avaliar facilmente os descritores importantes durante a classificação permitindo gerar modelos computacionais confiáveis estatisticamente. Escolhemos focar o modelo e nosso trabalho em metaloproteases, uma vez que é um dos grupos de proteínas relacionadas com a gravidade do envenenamento nos acidentes por serpentes. Utilizamos as proteínas Atr-I, BaP1 e Leuc-a, cujos epítopos foram previamente identificados, pelo método experimental de SPOT-Syntesis. Refinamos o modelo bioinformático Labimq, capaz de identificar EpiLCB corretamente nestas três proteínas. Este algoritmo mostrou melhor desempenho que outros mais usados disponíveis na web (ABCPred, Bepipred e TEPRF). A proteína Atr-I foi escolhida para realizar a validação experimental de nosso algoritmo de predição. Duas sequências da proteína foram escolhidas, um epítopo identificado somente pelo método computacional e outra que não foi identificada como epítopo por nenhum método ate o momento. Os correspondentes peptídeos foram sintetizados e usados para produzir anticorpos em 95 camundongos. Uma vez que os anticorpos anti-epítopo neutralizou a atividade hemorrágica da proteína Atr-I, confirmamos a eficiência das previsões bioinformáticas. O sucesso demonstrado durante a neutralização e eficácia de nossa metodologia computacional é que esta pode ser usada em outros venenos ou enzimas das famílias metaloproteases ou neurotoxinas. 7. Perspectivas - Aprofundar a automatização desta metodologia e o refinamento dos dados, tornando possível a filtragem de todas as famílias de proteínas ou grupos, assim como observado em Pfam com o uso de clãs. O sucesso demonstrado durante a neutralização e eficácia de nossa metodologia computacional é que esta pode ser usada em outros venenos ou enzimas das famílias metaloproteases ou neurotoxinas. - Explorar a possibilidade de usar os Clãs disponíveis em Pfam em cambio de famílias de proteínas. - Aumentar os esforços para fornecer estes métodos via web. - Explorar as diferencias entre EpiLCB e epítopos conformacionais usando a sequência de aminoácidos do antígeno. - Desenhar um esquema de validação estatística de epítopos sobre um set de proteínas hipotéticas baseado em estáticas extraídas a partir da literatura para incrementar o numero de mostras permitindo assim resultados mais precisos. 96 Referências Andrew H. Abbas, Abul K. Lichtman. Cellular and Molecular Immunology. 5th(1):3–14, 2005. Alvarenga L1, Moreau V, Felicori L, Nguyen C, Duarte C, Chavez-Olortegui C, Molina F, MartinEauclaire MF, Granier C. Design of antibody-reactive peptides from discontinuous parts of scorpion toxins. Vaccine. 2010 Jan 22;28(4):970-80. doi: 10.1016/j.vaccine.2009.10.135. Epub 2009 Dec 3. Ansari HR1, Raghava GP. In silico models for B-cell epitope recognition and signaling. Methods Mol Biol. 2013;993:129-38. doi: 10.1007/978-1-62703-342-8_9. Arora S, Sharma S, Goel SK, Singh US: Effect of different adjuvants in equines for the production of equine rabies immunoglobulin. Natl Med. J. India. 18, 289–289 (2005). Atassi. M. Z., Azzazy H. M. and Highsmith. W. E. Phage display technology: clinical applications and recent innovations. Clin. Biochem., 35(6):425–445, Sep 2002. Baydogan MG1, Runger G, Tuv E.. A bag-of-features framework to classify time series. IEEE Trans Pattern Anal Mach Intell. 2013 Nov;35(11):2796-802. doi: 10.1109/TPAMI.2013.72. Beisken S1, Meinl T, Wiswedel B, de Figueiredo LF, Berthold M, Steinbeck C. KNIME-CDK: Workflow-driven cheminformatics. BMC Bioinformatics. 2013 Aug 22;14:257. doi: 10.1186/14712105-14-257. Berman H. M., Westbrook J., Feng Z., Gilliland G., Bhat T. N., Weissig H., Shindyalov I. N., and Bourne P. E. The Protein Data Bank. Nucleic Acids Res., 28(1):235–242, Jan 2000. Blythe M. J. and Flower. D. R. Benchmarking B cell epitope prediction: underperformance of existing methods. Protein Sci., 14(1):246–248, Jan 2005. Bourne PE. Ponomarenko JV. Antibody-protein interactions: benchmark datasets and prediction tools evaluation. BMC Struct Biol., 2:7–64, Oct 2007. Bremel RD1, Homan EJ. An integrated approach to epitope analysis I: Dimensional reduction, visualization and prediction of MHC binding using amino acid principal components and regression approaches. Immunome Res. 2010 Nov 2;6:7. doi: 10.1186/1745-7580-6-7. Burnet. FM. A modification of Jerne’s theory of antibody.Australian Journal of Science, 20:67–69, 1957. Caoili SE1. Benchmarking B-cell epitope prediction with quantitative dose-response data on antipeptide antibodies: towards novel pharmaceutical product development. Biomed Res Int. 2014;2014:867905. doi: 10.1155/2014/867905. Epub 2014 May 11. Carrasco Pro S, Sidney J, Paul S, Lindestam Arlehamn C, Weiskopf D, Peters B, Sette A. Automatic Generation of Validated Specific Epitope Sets. J Immunol Res. 2015;2015:763461. doi: 10.1155/2015/763461. Epub 2015 Oct 19. 97 Chang HT1, Liu CH, Pai TW. Estimation and extraction of B-cell linear epitopes predicted by mathematical morphology approaches. J Mol Recognit. 2008 Nov-Dec;21(6):431-41. doi: 10.1002/jmr.910. Charles Norris Cochrane. Thucydides and the Science of History. Oxford University Press, 35(3):584–585, Apr 1929. Chavez-Olortegui C1, Molina F, Granier C. Molecular basis for the cross-reactivity of antibodies elicited by a natural anatoxin with alpha- and beta-toxins from the venom of Tityus serrulatus scorpion. Mol Immunol. 2002 Mar;38(11):867-76. Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP. SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research 16 (2002) 321–3 Chen J1, Liu H, Yang J, Chou KC. Prediction of linear B-cell epitopes using amino acid pair antigenicity scale.Amino Acids. 2007 Sep;33(3):423-8. Epub 2007 Jan 26. Chen SW1, Van Regenmortel MH, Pellequer JL. Structure-activity relationships in peptide-antibody complexes: implications for epitope prediction and development of synthetic peptide vaccines. Curr Med Chem. 2009;16(8):953-64. Cleveland DW, Fischer SG, Kirschner MW, Laemmli UK. Peptide mapping by limited proteolysis in sodium dodecyl sulfate and analysis by gel electrophoresis. J Biol Chem. 1977 Feb 10;252(3):11026. Cohn M. A note on the use of the antigen excess zone to reveal the existence of certain types of cross reactions in unidentified mixtures of antigens. J Immunol. 1953 Mar;70(3):317-20. Correia BE1, Ban YE, Holmes MA, Xu H, Ellingson K, Kraft Z, Carrico C, Boni E, Sather DN, Zenobia C, Burke KY, Bradley-Hewitt T, Bruhn-Johannsen JF, Kalyuzhniy O, Baker D, Strong RK, Stamatatos L, Schief WR. Computational design of epitope-scaffolds allows induction of antibodies specific for a poorly immunogenic HIV vaccine epitope. Structure. 2010 Sep 8;18(9):1116-26. doi: 10.1016/j.str.2010.06.010. Costa JG1, Faccendini PL, Sferco SJ, Lagier CM, Marcipar IS. Evaluation and comparison of the ability of online available prediction programs to predict true linear B-cell epitopes. Protein Pept Lett. 2013 Jun;20(6):724-30. Davies DR, Sheriff S, Padlan EA. Antibody-antigen complexes. J Biol Chem. 1988 Aug 5;263(22):10541-4. Review. No abstract available. Davydov I. a. I. and Tonevitski A. G. Linear B-cell epitope prediction. Mol. Biol. (Mosk.), 43(1):166–174, 2009. Díaz P1, Malavé C2, Zerpa N2, Vázquez H3, D'Suze G1, Montero Y2, Castillo C2, Alagón A3, Sevcik C4. IgY pharmacokinetics in rabbits: implications for IgY use as antivenoms. Toxicon. 2014 Nov;90:124-33. doi: 10.1016/j.toxicon.2014.07.021. Epub 2014 Aug 9. 98 Duarte CG1, Alvarenga LM, Dias-Lopes C, Machado-de-Avila RA, Nguyen C, Molina F, Granier C, Chávez-Olórtegui C. In vivo protection against Tityus serrulatus scorpion venom by antibodies raised against a discontinuous synthetic epitope. Vaccine. 2010 Feb 3;28(5):1168-76. doi: 10.1016/j.vaccine.2009.11.039. Epub 2009 Nov 28. El-Manzalawy Y1, Dobbs D, Honavar V. Predicting linear B-cell epitopes using string kernels. J Mol Recognit. 2008 Jul-Aug;21(4):243-55. doi: 10.1002/jmr.893. El-Manzalawy Y1, Honavar V. Recent advances in B-cell epitope prediction methods. Immunome Res. 2010 Nov 3;6 Suppl 2:S2. doi: 10.1186/1745-7580-6-S2-S2. Emini EA, Perlow DS Boger J, Hughes JV. Induction of hepatitis A virus-neutralizing antibody by a virus-specific synthetic peptide. J Virol., 55(3):836–839, 1985. Fasman GD. Chou PY. Prediction of the secondary structure of proteins from their amino acid sequence. Adv Enzymol Relat Areas Mol Biol., 47:45–148, 1978. Felicori L1, Fernandes PB, Giusta MS, Duarte CG, Kalapothakis E, Nguyen C, Molina F, Granier C, Chávez-Olórtegui C. An in vivo protective response against toxic effects of the dermonecrotic protein from Loxosceles intermedia spider venom elicited by synthetic epitopes. Vaccine. 2009 Jun 24;27(31):4201-8. doi: 10.1016/j.vaccine.2009.04.038. Epub 2009 May 3. Figueiredo LF1, Dias-Lopes C2, Alvarenga LM3, Mendes TM2, Machado-de-Ávila RA2, McCormack J4, Minozzo JC5, Kalapothakis E6, Chávez-Olórtegui C7. Innovative immunization protocols using chimeric recombinant protein for the production of polyspecific loxoscelic antivenom in horses. Toxicon. 2014 Aug;86:59-67. doi: 10.1016/j.toxicon.2014.05.007. Epub 2014 May 28. Finn RD1, Coggill P2, Eberhardt RY3, Eddy SR4, Mistry J2, Mitchell AL2, Potter SC2, Punta M5, Qureshi M2, Sangrador-Vegas A2, Salazar GA2, Tate J3, Bateman A2. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Res. 2016 Jan 4;44(D1):D279-85. doi: 10.1093/nar/gkv1344. Epub 2015 Dec 15. Fox JW1, Serrano SM. Insights into and speculations about snake venom metalloproteinase (SVMP) synthesis, folding and disulfide bond formation and their contribution to venom complexity. FEBS J. 2008 Jun;275(12):3016-30. doi: 10.1111/j.1742-4658.2008.06466.x. Epub 2008 May 8. Frank R1, Overwin H. SPOT synthesis. Epitope analysis with arrays of synthetic peptides prepared on cellulose membranes. Methods Mol Biol. 1996;66:149-69. Frank R1. The SPOT-synthesis technique. Synthetic peptide arrays on membrane supports-principles and applications. J Immunol Methods. 2002 Sep 1;267(1):13-26. Gao J1, Faraggi E, Zhou Y, Ruan J, Kurgan L. BEST: improved prediction of B-cell epitopes from antigen sequences. PLoS One. 2012;7(6):e40104. doi: 10.1371/journal.pone.0040104. Epub 2012 Jun 27. 99 Garnier J, Osguthorpe DJ, Robson B. Analysis of the accuracy and implications of simple methods for predicting the secondary structure of globular proteins. J Mol Biol. 1978 Mar 25;120(1):97-120. Gasteiger E., Hoogland C., Gattiker A., Duvaud S., Wilkins M.R., Appel R.D., Bairoch A.; Protein Identification and Analysis Tools on the ExPASy Server;(In) John M. Walker (ed): The Proteomics Protocols Handbook, Humana Press (2005). pp. 571-607 Gerdts V, Snider M, Brownlie R, Babiuk LA, Griebel PJ: Oral DNA immunization in utero induces mucosal immunity and immune memory in the neonate. J. Immunology 168, 1877–1885 (2002). Gerdts V.; Sylvia van Drunen Littel-van den Hurk; Philip J Griebel; Lorne A Babiuk. Use of Animal Models in the Development of Human Vaccines. Disclosures Future Microbiol. 2007;2(6):667-675. Geysen HM, Rodda SJ, Mason TJ. The delineation of peptides able to mimic assembled epitopes. Ciba Found Symp. 1986;119:130-49. Gomara MJ, Haro I. Synthetic peptides for the immunodiagnosis of human diseases. Curr Med Chem 14(5):531–546. 2007. Gomes MT1, Guimarães G, Frézard F, Kalapothakis E, Minozzo JC, Chaim OM, Veiga SS, Oliveira SC, Chávez-Olórtegui C. Determination of sphingomyelinase-D activity of Loxosceles venoms in sphingomyelin/cholesterol liposomes containing horseradish peroxidase. Toxicon. 2011 Mar 15;57(4):574-9. doi: 10.1016/j.toxicon.2011.01.001. Epub 2011 Jan 12. Greenbaum JA Emami H Hoof I Salimi N Damle R Sette A Peters B. Vita R, Zarebski L. The immune epitope database 2.0. Nucleic Acids Res., D:854–862, Nov 2010. Greenbaum JA1, Andersen PH, Blythe M, Bui HH, Cachau RE, Crowe J, Davies M, Kolaskar AS, Lund O, Morrison S, Mumey B, Ofran Y, Pellequer JL, Pinilla C, Ponomarenko JV, Raghava GP, van Regenmortel MH, Roggen EL, Sette A, Schlessinger A, Sollner J, Zand M, Peters B. Towards a consensus on datasets and evaluation metrics for developing B-cell epitope prediction tools. J Mol Recognit. 2007 Mar-Apr;20(2):75-82. Haste Andersen P1, Nielsen M, Lund O. Prediction of residues in discontinuous B-cell epitopes using protein 3D structures. Protein Sci. 2006 Nov;15(11):2558-67. Epub 2006 Sep 25. Hein WR, Griebel PJ: A road less travelled: large animal models in immunological research. Nature Reviews - Immunology 3, 7–14 (2003). Heinig M1, Frishman D. STRIDE: a web server for secondary structure assignment from known atomic coordinates of proteins. Nucleic Acids Res. 2004 Jul 1;32(Web Server issue):W500-2. Hopp TP, Woods KR. Prediction of protein antigenic determinants from amino acid sequences. Proc Natl Acad Sci U S A. 1981 Jun;78(6):3824-8. Houtao Deng, George Runger, and Eugene Tuv. Bias of importance measures for multi-valued attributes and solutions. Lecture Notes in Computer Science, 6792:293–300, 2011. 100 Huai Y1,2, Dong S1, Zhu Y2, Li X2, Cao B2, Gao X1, Yang M3, Wang L1, Mao C2,4. Genetically Engineered Virus Nanofibers as an Efficient Vaccine for Preventing Fungal Infection.Adv Healthc Mater. 2016 Apr;5(7):786-94. doi: 10.1002/adhm.201500930. Epub 2016 Feb 18. Huang J1, Honda W, Kanehisa M. Predicting B cell epitope residues with network topology based amino acid indices. Genome Inform. 2007;19:40-9. Huang JH1, Wen M1, Tang LJ2, Xie HL3, Fu L3, Liang YZ4, Lu HM5. Using random forest to classify linear B-cell epitopes based on amino acid properties and molecular features. Biochimie. 2014 Aug;103:1-6. doi: 10.1016/j.biochi.2014.03.016. Epub 2014 Apr 8. Huang WL, Tsai MJ, Hsu KT, Wang JR, Chen YH, Ho SY. Prediction of linear B-cell epitopes of hepatitis C virus for vaccine development. BMC Med Genomics. 2015;8 Suppl 4:S3. doi: 10.1186/1755-8794-8-S4-S3. Epub 2015 Dec 9. Hunter J. A treatise on the blood, inflammation, and gun-shot wounds. 1794. Clin Orthop Relat Res. 2007 May;458:27-34. Jameson BA, Wolf H (1988): The antigenic index: a novel algorithm for predicting antigenic determinants. Comput Appl Biosci 4(1):181–186. Janin J1, Chothia C. The structure of protein-protein recognition sites. J Biol Chem. 1990 Sep 25;265(27):16027-30. Jemmerson R, Paterson Y. Mapping epitopes on a protein antigen by the proteolysis of antigenantibody complexes. Science. 1986 May 23;232(4753):1001-4. Jerne NK. The natural-selection theory of antibody formation.Proceedings of the National Academy of Sciences, 41:849–857, 1955. Jones S1, Thornton JM. Principles of protein-protein interactions. Proc Natl Acad Sci U S A. 1996 Jan 9;93(1):13-20. Juhász A1, Haraszi R2, Maulis C3. ProPepper: a curated database for identification and analysis of peptide and immune-responsive epitope composition of cereal grain protein families. Database (Oxford). 2015 Oct 8;2015. pii: bav100. doi: 10.1093/database/bav100. Print 2015. Kam YW1, Lee WW2, Simarmata D1, Le Grand R3, Tolou H4, Merits A5, Roques P3, Ng LF6. Unique epitopes recognized by antibodies induced in Chikungunya virus-infected non-human primates: implications for the study of immunopathology and vaccine development. PLoS One. 2014 Apr 22;9(4):e95647. doi: 10.1371/journal.pone.0095647. eCollection 2014. Karplus M, McCammon JA. The dynamics of proteins. Sci Am. 1986 Apr;254(4):42-51. Keskin O1, Ma B, Rogale K, Gunasekaran K, Nussinov R. Protein-protein interactions: organization, cooperativity and mapping in a bottom-up Systems Biology approach. Phys Biol. 2005 Jun;2(2):S2435. 101 Kim Y, Sidney J, Buus S, Sette A, Nielsen M, Peters B1. Dataset size and composition impact the reliability of performance benchmarks for peptide-MHC binding predictions. BMC Bioinformatics. 2014 Jul 14;15:241. doi: 10.1186/1471-2105-15-241. Kolaskar AS1, Tongaonkar PC.Kolaskar AS1, Tongaonkar PC. A semi-empirical method for prediction of antigenic determinants on protein antigens. FEBS Lett. 1990 Dec 10;276(1-2):172-4. Korber B1, LaBute M, Yusim K. Immunoinformatics comes of age. PLoS Comput Biol. 2006 Jun 30;2(6):e71. Kozlova E, Viart B, de Avila R, Felicori L, Chavez-Olortegui C. Classification epitopes in groups based on their protein family. BMC Bioinformatics. 2015;16 Suppl 19:S7. doi: 10.1186/1471-210516-S19-S7. Epub 2015 Dec 16. Kramer A1, Reineke U, Dong L, Hoffmann B, Hoffmüller U, Winkler D, Volkmer-Engert R, Schneider-Mergener J. Spot synthesis: observations and optimizations. J Pept Res. 1999 Oct;54(4):319-27. Kringelum JV1, Lundegaard C, Lund O, Nielsen M. Reliable B cell epitope predictions: impacts of method development and improved benchmarking.PLoS Comput Biol. 2012;8(12):e1002829. doi: 10.1371/journal.pcbi.1002829. Epub 2012 Dec 27. Kuiken C, Yusim K, Boykin L, Richardson R. The Los Alamos hepatitis C sequence database. Bioinformatics. 2005 Feb 1;21(3):379-84. Epub 2004 Sep 17. Kulkarni-Kale U1, Bhosle S, Kolaskar AS. CEP: a conformational epitope prediction server. Nucleic Acids Res. 2005 Jul 1;33(Web Server issue):W168-71. Kullback, S.; Leibler, R.A. (1951). "On information and sufficiency". Annals of Mathematical Statistics 22 (1): 79–86. doi:10.1214/aoms/1177729694. MR 39968 Kunik V., Ofran Y. The indistinguishability of epitopes from protein surface is explained by the distinct binding preferences of each of the six antigen-binding loops. Protein Eng Des Sel., 26(10):599–609, Oct 2013. Kurosaki T. Regulation of B cell fates by BCR signaling components. Curr Opin Immunol. 2002 Jun;14(3):341-7. Kurosaki T. Regulation of B-cell signal transduction by adaptor proteins. Nat. Rev. Immunol., 2(5):354–363, May 2002. CW. Larché M1, Wraith DC. Peptide-based therapeutic vaccines for allergic and autoimmune diseases. Nat Med. 2005 Apr;11(4 Suppl):S69-76. Larsen JE1, Lund O, Nielsen M. Improved method for predicting linear B-cell epitopes. Immunome Res. 2006 Apr 24;2:2. Leinikki P1, Lehtinen M, Hyöty H, Parkkonen P, Kantanen ML, Hakulinen J. Synthetic peptides as diagnostic tools in virology. Adv Virus Res. 1993;42:149-86. 102 Levast B1, Awate S2, Babiuk L3, Mutwiri G4,5, Gerdts V6,7, van Drunen Littel-van den Hurk S8,9. Vaccine Potentiation by Combination Adjuvants. Vaccines (Basel). 2014 Apr 14;2(2):297-322. doi: 10.3390/vaccines2020297. Lian Y1, Huang ZC2, Ge M3, Pan XM1. An Improved Method for Predicting Linear B-cell Epitope Using Deep Maxout Networks. Biomed Environ Sci. 2015 Jun;28(6):460-3. doi: 10.3967/bes2015.065. Lin SY1, Cheng CW, Su EC. Prediction of B-cell epitopes using evolutionary information and propensity scales. BMC Bioinformatics. 2013;14 Suppl 2:S10. Liu J1, Zhang W. Databases for B-cell epitopes. Methods Mol Biol. 2014;1184:135-48. doi: 10.1007/978-1-4939-1115-8_7. Liu R1, Hu J. Computational prediction of heme-binding residues by exploiting residue interaction network. PLoS One. 2011;6(10):e25560. doi: 10.1371/journal.pone.0025560. Epub 2011 Oct 3. Luštrek M1, Lorenz P, Kreutzer M, Qian Z, Steinbeck F, Wu D, Born N, Ziems B, Hecker M, Blank M, Shoenfeld Y, Cao Z, Glocker MO, Li Y, Fuellen G, Thiesen HJ. Epitope predictions indicate the presence of two distinct types of epitope-antibody-reactivities determined by epitope profiling of intravenous immunoglobulins. PLoS One. 2013 Nov 11;8(11):e78605. doi: 10.1371/journal.pone.0078605. eCollection 2013. Machado de Avila RA1, Stransky S, Velloso M, Castanheira P, Schneider FS, Kalapothakis E, Sanchez EF, Nguyen C, Molina F, Granier C, Chávez-Olórtegui C. Mimotopes of mutalysin-II from Lachesis muta snake venom induce hemorrhage inhibitory antibodies upon vaccination of rabbits. Peptides. 2011 Aug;32(8):1640-6. doi: 10.1016/j.peptides.2011.06.028. Epub 2011 Jul 6. Malito E1, Rappuoli R. Finding epitopes with computers. Chem Biol. 2013 Oct 24;20(10):1205-6. doi: 10.1016/j.chembiol.2013.10.002. Martens W1, Greiser-Wilke I, Harder TC, Dittmar K, Frank R, Orvell C, Moennig V, Liess B. Spot synthesis of overlapping peptides on paper membrane supports enables the identification of linear monoclonal antibody binding determinants on morbillivirus phosphoproteins. Vet Microbiol. 1995 May;44(2-4):289-98. Montañez MI1, Mayorga C, Torres MJ, Blanca M, Perez-Inestrosa E. Methodologies to anchor dendrimeric nanoconjugates to solid phase: toward an efficient in vitro detection of allergy to ?lactam antibiotics. Nanomedicine. 2011 Dec;7(6):682-5. doi: 10.1016/j.nano.2011.07.008. Epub 2011 Aug 10. Mullaney BP1, Pallavicini MG. Protein-protein interactions in hematology and phage display. Exp Hematol. 2001 Oct;29(10):1136-46. Nielsen M1, Lund O, Buus S, Lundegaard C. MHC class II epitope predictive algorithms. Immunology. 2010 Jul;130(3):319-28. doi: 10.1111/j.1365-2567.2010.03268.x. Epub 2010 Apr 12. 103 Nielsen M1,2, Marcatili P3. Prediction of Antibody Epitopes. Methods Mol Biol. 2015;1348:23-32. doi: 10.1007/978-1-4939-2999-3_4. Nielsen M1,2, Marcatili P3RD. An integrated approach to epitope analysis I: Dimensional reduction, Novotny J, Handschumacher M, Haber E, Bruccoleri RE, Carlson WB, Fanning DW, Smith JA, Rose GD (1986): Antigenic determinants in proteins coincide with surface regions accessible to large probes (antibody domains). Proc Natl Acad Sci USA 83(2):226–230. Odorico M, Pellequer JL (2003): BEPITOPE: predicting the location of continuous epitopes and patterns in proteins. J Mol Recognit 16(1):20–22. Ofek G1, Guenaga FJ, Schief WR, Skinner J, Baker D, Wyatt R, Kwong PD. Elicitation of structurespecific antibodies by epitope scaffolds. Proc Natl Acad Sci U S A. 2010 Oct 19;107(42):17880-7. doi: 10.1073/pnas.1004728107. Epub 2010 Sep 27. Olortegui, C. C.; Amara, D.A.; Rochat, H.; Diniz, C. In vivo protection against scorpion toxins by liposomal immunization. Vaccine, n9, v.12, p. 907-910, 1991. Oomen CJ1, Hoogerhout P, Bonvin AM, Kuipers B, Brugghe H, Timmermans H, Haseley SR, van Alphen L, Gros P. Immunogenicity of peptide-vaccine candidates predicted by molecular dynamics simulations. J Mol Biol. 2003 May 16;328(5):1083-9. Parker CW, Osterland CK. Hydrophobic binding sites on immunoglobulins. Biochemistry. 1970 Mar 3;9(5):1074-82. Parker JM, Guo D, Hodges RS. New hydrophilicity scale derived from high-performance liquid chromatography peptide retention data: correlation of predicted surface residues with antigenicity and X-ray-derived accessible sites. Biochemistry. 1986 Sep 23;25(19):5425-32. Parren PW1, Poignard P, Ditzel HJ, Williamson RA, Burton DR. Antibodies in human infectious disease. Immunol Res, 21(2-3):265–278, 2000. Pasquale AD1, Preiss S2, Silva FT3, Garçon N4. Vaccine Adjuvants: from 1920 to 2015 and Beyond. Vaccines (Basel). 2015 Apr 16;3(2):320-43. doi: 10.3390/vaccines3020320. Pasteur L: Methode pour prevenir la rage après morsure. C.R. Acad. Sci. 51, 765–773 (1885). •• Original references by Pasteur formed the basis for the concept of vaccination. Patel VL1, Shortliffe EH, Stefanelli M, Szolovits P, Berthold MR, Bellazzi R, Abu-Hanna A. The coming of age of artificial intelligence in medicine. Artif Intell Med. 2009 May;46(1):5-17. doi: 10.1016/j.artmed.2008.07.017. Epub 2008 Sep 13. Pellequer JL1, Westhof E, Van Regenmortel MH. Correlation between the location of antigenic sites and the prediction of turns in proteins. Immunol Lett. 1993 Apr;36(1):83-99. Pellequer JL1, Westhof E. PREDITOP: a program for antigenicity prediction. J Mol Graph. 1993 Sep;11(3):204-10, 191-2. 104 Peters B, Sidney J, Bourne P, Bui HH, Buus S, Doh G, Fleri W, Kronenberg M, Kubo R, Lund O, Nemazee D, Ponomarenko JV, Sathiamurthy M, Schoenberger S, Stewart S, Surko P, Way S, Wilson S, Sette A. "The Design and Implementation of the Immune Epitope Data Base and Analysis Resource". Immunogenetics. 2005 Jun;57(5):326-36. Epub 2005 May 14. Poland GA1, Whitaker JA2, Poland CM3, Ovsyannikova IG4, Kennedy RB4. Vaccinology in the third millennium: scientific and social challenges. Curr Opin Virol. 2016 Mar 30;17:116-125. doi: 10.1016/j.coviro.2016.03.003. [Epub ahead of print] Ponomarenko JV1, Bourne PE. Antibody-protein interactions: benchmark datasets and prediction tools evaluation. BMC Struct Biol. 2007 Oct 2;7:64. Punta M1, Coggill PC, Eberhardt RY, Mistry J, Tate J, Boursnell C, Pang N, Forslund K, Ceric G, Clements J, Heger A, Holm L, Sonnhammer EL, Eddy SR, Bateman A, Finn RD. The Pfam protein families database. Nucleic Acids Res. 2012 Jan;40(Database issue):D290-301. doi: 10.1093/nar/gkr1065. Epub 2011 Nov 29. R Development Core Team (2008). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.Rproject.org. Ramada JS1, Becker-Finco A, Minozzo JC, Felicori LF, Machado de Avila RA, Molina F, Nguyen C, de Moura J, Chávez-Olórtegui C, Alvarenga LM Synthetic peptides for in vitro evaluation of the neutralizing potency of Loxosceles antivenoms. Toxicon. 2013 Oct;73:47-55. doi: 10.1016/j.toxicon.2013.07.007. Epub 2013 Jul 13. Ranasinghe C1. New advances in mucosal vaccination. Immunol Lett. 2014 Oct;161(2):204-6. doi: 10.1016/j.imlet.2014.01.006. Epub 2014 Jan 21. Reimer U1. Prediction of linear B-cell epitopes. Methods Mol Biol. 2009;524:335-44. doi: 10.1007/978-1-59745-450-6_24. Rocha N, and J Neefles. MHC class II molecules on the move for successful antigen presentation. EMBO Iournal 27:l-5,2008. Rubinstein ND1, Mayrose I, Halperin D, Yekutieli D, Gershoni JM, Pupko T. Computational characterization of B-cell epitopes. Mol Immunol. 2008 Jul;45(12):3477-89. Epub 2007 Nov 26. Saha S1, Bhasin M, Raghava GP. Bcipep: a database of B-cell epitopes. BMC Genomics. 2005 May 29;6:79. Saha S1, Raghava GP. Prediction of continuous B-cell epitopes in an antigen using recurrent neural network. Proteins. 2006 Oct 1;65(1):40-8. Sanchez EF1, Schneider FS, Yarleque A, Borges MH, Richardson M, Figueiredo SG, Evangelista KS, Eble JA. The novel metalloproteinase atroxlysin-I from Peruvian Bothrops atrox (Jergón) snake venom acts both on blood vessel ECM and platelets. Arch Biochem Biophys. 2010 Apr 1;496(1):920. doi: 10.1016/j.abb.2010.01.010. Epub 2010 Jan 25. 105 Saxon, W. Robert A. Good, 81, Founder Of Modern Immunology, Dies. The New York Times. June 18, 2003. Scalia CR1, Gendusa R1, Basciu M1, Riva L1, Tusa L1, Musarò A1, Veronese S1, Formenti A1, D'Angelo D1, Ronzio AG1, Cattoretti G2, Bolognesi MM1. Epitope recognition in the human-pig comparison model on fixed and embedded material. J Histochem Cytochem. 2015 Oct;63(10):80522. doi: 10.1369/0022155415597738. Epub 2015 Jul 24. Schneider FS1, de Almeida Lima S2, Reis de Ávila G2, Castro KL2, Guerra-Duarte C2, Sanchez EF3, Nguyen C4, Granier C4, Molina F4, Chávez-Olortegui C5. Identification of protective B-cell epitopes of Atroxlysin-I: A metalloproteinase from Bothrops atrox snake venom. Vaccine. 2016 Mar 29;34(14):1680-7. doi: 10.1016/j.vaccine.2016.02.035. Epub 2016 Feb 23. Schneider FS1, Nguyen DL2, Castro KL1, Cobo S2, Machado de Avila RA1, Ferreira Nde A1, Sanchez EF3, Nguyen C2, Granier C2, Galéa P2, Chávez-Olortegui C1, Molina F2. Use of a synthetic biosensor for neutralizing activity-biased selection of monoclonal antibodies against atroxlysin-I, an hemorrhagic metalloproteinase from Bothrops atrox snake venom. PLoS Negl Trop Dis. 2014 Apr 24;8(4):e2826. doi: 10.1371/journal.pntd.0002826. eCollection 2014. Schunk MK1, Macallum GE. Applications and optimization of immunization procedures. ILAR J. 2005;46(3):241-57. Sela-Culang I1, Ofran Y1, Peters B2. Antibody specific epitope prediction-emergence of a new paradigm. Curr Opin Virol. 2015 Apr;11:98-102. doi: 10.1016/j.coviro.2015.03.012. Epub 2015 Mar 31. Shen W1, Cao Y2, Cha L3, Zhang X4, Ying X3, Zhang W1, Ge K5, Li W3, Zhong L4. Predicting linear B-cell epitopes using amino acid anchoring pair composition. BioData Min. 2015 Apr 29;8:14. doi: 10.1186/s13040-015-0047-3. eCollection 2015. Sheshberadaran H1, Payne LG. Protein antigen-monoclonal antibody contact sites investigated by limited proteolysis of monoclonal antibody-bound antigen: protein "footprinting". Proc Natl Acad Sci U S A. 1988 Jan;85(1):1-5. Silverstein AM. A History of Immunology.Academic Press, San Diego, 1989. Singh H1, Ansari HR, Raghava GP. Improved method for linear B-cell epitope prediction using antigen's primary sequence. PLoS One. 2013 May 7;8(5):e62216. doi: 10.1371/journal.pone.0062216. Print 2013. Singh SP1, Mishra BN2. Major histocompatibility complex linked databases and prediction tools for designing vaccines. Hum Immunol. 2016 Mar;77(3):295-306. doi: 10.1016/j.humimm.2015.11.012. Epub 2015 Nov 14. Sivalingam GN1, Shepherd AJ. An analysis of B-cell epitope discontinuity. Mol Immunol. 2012 Jul;51(3-4):304-9. doi: 10.1016/j.molimm.2012.03.030. Epub 2012 Apr 20. Smith GP. Filamentous fusion phage: novel expression vectors that display cloned antigens on the virion surface. Science. 1985 Jun 14;228(4705):1315-7. 106 Sollner J, Mayer B (2006): Machine learning approaches for prediction of linear B-cell epitopes on proteins. J Mol Recognit 19(3):200–208. Söllner J1. Selection and combination of machine learning classifiers for prediction of linear B-cell epitopes on proteins. J Mol Recognit. 2006 May-Jun;19(3):209-14. Soria-Guerra RE1, Nieto-Gomez R2, Govea-Alonso DO2, Rosales-Mendoza S3. An overview of bioinformatics tools for epitope prediction: implications on vaccine development. J Biomed Inform. 2015 Feb;53:405-14. doi: 10.1016/j.jbi.2014.11.003. Epub 2014 Nov 10. Stassijns J1, Bollaerts K1, Baay M1, Verstraeten T2. A systematic review and meta-analysis on the safety of newly adjuvanted vaccines among children. Vaccine. 2016 Feb 3;34(6):714-22. doi: 10.1016/j.vaccine.2015.12.024. Epub 2015 Dec 28. Steeland S1, Vandenbroucke RE1, Libert C2. Nanobodies as therapeutics: big opportunities for small antibodies. Drug Discov Today. 2016 Apr 11. pii: S1359-6446(16)30107-6. doi: 10.1016/j.drudis.2016.04.003. [Epub ahead of print] Subramanian N1, Chinnappan S. Prediction of promiscuous epitopes in the e6 protein of three high risk human papilloma viruses: a computational approach. Asian Pac J Cancer Prev. 2013;14(7):416775. Sun P1, Ju H, Liu Z, Ning Q, Zhang J, Zhao X, Huang Y, Ma Z, Li Y. Bioinformatics resources and tools for conformational B-cell epitope prediction. Comput Math Methods Med. 2013;2013:943636. doi: 10.1155/2013/943636. Epub 2013 Jul 21. Sundaram R1, Lynch MP, Rawale SV, Sun Y, Kazanji M, Kaumaya PT. De novo design of peptide immunogens that mimic the coiled coil region of human T-cell leukemia virus type-1 glycoprotein 21 transmembrane subunit for induction of native protein reactive neutralizing antibodies. J Biol Chem. 2004 Jun 4;279(23):24141-51. Epub 2004 Apr 1. Takeda S1, Takeya H, Iwanaga S. Snake venom metalloproteinases: structure, function and relevance to the mammalian ADAM/ADAMTS family proteins. Biochim Biophys Acta. 2012 Jan;1824(1):164-76. doi: 10.1016/j.bbapap.2011.04.009. Epub 2011 Apr 20. Tandrup Schmidt S1,2, Foged C3, Korsholm KS4, Rades T5, Christensen D6. Liposome-Based Adjuvants for Subunit Vaccines: Formulation Strategies for Subunit Antigens and Immunostimulators. Pharmaceutics. 2016 Mar 10;8(1). pii: E7. doi: 10.3390/pharmaceutics8010007. Toseland CP1, Clayton DJ, McSparron H, Hemsley SL, Blythe MJ, Paine K, Doytchinova IA, Guan P, Hattotuwagama CK, Flower DR. AntiJen: a quantitative immunology database integrating functional, thermodynamic, kinetic, biophysical, and cellular data. Immunome Res. 2005 Oct 6;1(1):4. Toth I. Moyle, PM. Modern subunit vaccines: development, components, and research opportunities. ChemMedChem., 8(3):360–376, Mar 2013. 107 Trier NH1, Hansen PR, Houen G. Production and characterization of peptide antibodies. Methods. 2012 Feb;56(2):136-44. doi: 10.1016/j.ymeth.2011.12.001. Epub 2011 Dec 8. Vallabhajosyula RR1, Chakravarti D, Lutfeali S, Ray A, Raval A. Identifying hubs in protein interaction networks. PLoS One. 2009;4(4):e5344. doi: 10.1371/journal.pone.0005344. Epub 2009 Apr 28. van Oss CJ1. Kinetics and energetics of specific intermolecular interactions. J Mol Recognit. 1997 Sep-Oct;10(5):203-16. Van Regenmortel MH. Immunoinformatics may lead to a reappraisal of the nature of B cell epitopes and of the feasibility of synthetic peptide vaccines. J Mol Recognit. 2006 May-Jun;19(3):183-7. Van Regenmortel MH. What is a B-cell epitope?. Methods Mol Biol. 2009;524:3-20. doi: 10.1007/978-1-59745-450-6_1. Van Regenmortel MH1. Synthetic peptides versus natural antigens in immunoassays.Ann Biol Clin (Paris). 1993;51(1):39-41. Van Regenmortel MH1. Antigenicity and immunogenicity of synthetic peptides. Biologicals. 2001 Sep-Dec;29(3-4):209-13. Viart B1, Gonzalez E1, Dias-Lopes C1, Oliveira CF1, Nguyen C2, Neshich G3, Chávez-Olórtegui C1, Molina F2, Felicori L4. EPI-Peptide Designer : a tool for designing specific peptide ligand libraries based on Epitope-Paratope Interactions. Bioinformatics. 2016 Jan 18. pii: btw014. [Epub ahead of print] Vita R1, Overton JA2, Greenbaum JA3, Ponomarenko J4, Clark JD5, Cantrell JR5, Wheeler DK5, Gabbard JL6, Hix D6, Sette A2, Peters B2. The immune epitope database (IEDB) 3.0. Nucleic Acids Res. 2015 Jan;43(Database issue):D405-12. doi: 10.1093/nar/gku938. Epub 2014 Oct 9. Vita R1, Zarebski L, Greenbaum JA, Emami H, Hoof I, Salimi N, Damle R, Sette A, Peters B. The immune epitope database 2.0. Nucleic Acids Res. 2010 Jan;38(Database issue):D854-62. doi: 10.1093/nar/gkp1004. Epub 2009 Nov 11. Walter G. Production and use of antibodies against synthetic peptides. J Immunol Methods. 1986 Apr 17;88(2):149-61. Wang HW1, Lin YC, Pai TW, Chang HT. Prediction of B-cell linear epitopes with a combination of support vector machine classification and amino acid propensity identification. J Biomed Biotechnol. 2011;2011:432830. doi: 10.1155/2011/432830. Epub 2011 Aug 23. Waterhouse AM1, Procter JB, Martin DM, Clamp M, Barton GJ. Jalview Version 2--a multiple sequence alignment editor and analysis workbench. Bioinformatics. 2009 May 1;25(9):1189-91. doi: 10.1093/bioinformatics/btp033. Epub 2009 Jan 16. 108 Waterhouse, A.M., Procter, J.B., Martin, D.M.A, Clamp, M. and Barton, G. J. (2009) "Jalview Version 2 - a multiple sequence alignment editor and analysis workbench"Bioinformatics25 (9) 1189-1191 Wee LJ1, Simarmata D, Kam YW, Ng LF, Tong JC. SVM-based prediction of linear B-cell epitopes using Bayes Feature Extraction. BMC Genomics. 2010 Dec 2;11 Suppl 4:S21. doi: 10.1186/14712164-11-S4-S21. Weiser AA1, Or-Guil M, Tapia V, Leichsenring A, Schuchhardt J, Frömmel C, Volkmer-Engert R. SPOT synthesis: reliability of array-based measurement of peptide binding affinity. Anal Biochem. 2005 Jul 15;342(2):300-11. Westhof E, Altschuh D, Moras D, BloomerAC, Mondragon A, Klug A, Van RegenmortelMH(1984): Correlation between segmental mobility and the location of antigenic determinants in proteins. Nature 311(5982):123–126. Wilson, PC and Andrews SF. Tools to therapeutically harness the human antibody response. Nat Rev Immunol., 12(10):709–719, Oct 2012. Zarebski LM1, Vaughan K, Sidney J, Peters B, Grey H, Janda KD, Casadevall A, Sette AAnalysis of epitope information related to Bacillus anthracis and Clostridium botulinum. Expert Rev Vaccines. 2008 Feb;7(1):55-74. doi: 10.1586/14760584.7.1.55. Zepp F1. Principles of Vaccination. Methods Mol Biol. 2016;1403:57-84. doi: 10.1007/978-1-49393387-7_3. Zhang W1, Liu J, Zhao M, Li Q. Predicting linear B-cell epitopes by using sequence-derived structural and physicochemical features. Int J Data Min Bioinform. 2012;6(5):557-69. Zhang W1, Niu Y, Xiong Y, Zhao M, Yu R, Liu J. Computational prediction of conformational Bcell epitopes from antigen primary structures by ensemble learning. PLoS One. 2012;7(8):e43575. doi: 10.1371/journal.pone.0043575. Epub 2012 Aug 21. Zhao L1, Li J. Mining for the antibody-antigen interacting associations that predict the B cell epitopes. BMC Struct Biol. 2010 May 17;10 Suppl 1:S6. doi: 10.1186/1472-6807-10-S1-S6. Zhao, L. Wong, L. Lu, S. C. Hoi, and J. Li. B-cell epitope prediction through a graph model. BMC Bioinformatics, 13 Suppl 17:S20, 2012. 109 Anexos Kozlova et al. BMC Bioinformatics 2015, 16(Suppl 19):S7 http://www.biomedcentral.com/1471-2105/16/S19/S7 RESEARCH Open Access Classification epitopes in groups based on their protein family Edgar Ernesto Gonzalez Kozlova1, Benjamin Thomas Viart1, Ricardo Andrez Machado de Avila2, Liza Figueredo Felicori1, Carlos Chavez-Olortegui1* From Brazilian Symposium on Bioinformatics 2014 Belo Horizonte, Brazil. 28-30 October 2015 Abstract Background: The humoral immune system response is based on the interaction between antibodies and antigens for the clearance of pathogens and foreign molecules. The interaction between these proteins occurs at specific positions known as antigenic determinants or B-cell epitopes. The experimental identification of epitopes is costly and time consuming. Therefore the use of in silico methods, to help discover new epitopes, is an appealing alternative due the importance of biomedical applications such as vaccine design, disease diagnostic, anti-venoms and immunetherapeutics. However, the performance of predictions is not optimal been around 70% of accuracy. Further research could increase our understanding of the biochemical and structural properties that characterize a B-cell epitope. Results: We investigated the possibility of linear epitopes from the same protein family to share common properties. This hypothesis led us to analyze physico-chemical (PCP) and predicted secondary structure (PSS) features of a curated dataset of epitope sequences available in the literature belonging to two different groups of antigens (metalloproteinases and neurotoxins). We discovered statistically significant parameters with data mining techniques which allow us to distinguish neurotoxin from metalloproteinase and these two from random sequences. After a five cross fold validation we found that PCP based models obtained area under the curve values (AUC) and accuracy above 0.9 for regression, decision tree and support vector machine. Conclusions: We demonstrated that antigen’s family can be inferred from properties within a single group of linear epitopes (metalloproteinases or neurotoxins). Also we discovered the characteristics that represent these two epitope groups including their similarities and differences with random peptides and their respective amino acid sequence. These findings open new perspectives to improve epitope prediction by considering the specific antigen’s protein family. We expect that these findings will help to improve current computational mapping methods based on physico-chemical due it’s potential application during epitope discovery. Background Living organisms often encounter a pathogenic virus, microbe or any foreign molecule during it’s lifetime [1]. The B cells of the immune system recognize the foreign body or pathogen’s antigen by their membrane bound immunoglobulin receptors, which later produce antibodies against this antigen [2,3]. The recognized sites on * Correspondence: [email protected] 1 Laboratório de Imunoquímica de Proteínas, Departamento de BioquímicaImunologia, Instituto de Ciências Biológicas, Universidade Federal de Minas Gerais, CP: 486; CEP: 31270-901, Belo Horizonte-MG, Brazil Full list of author information is available at the end of the article the antigen’s surface, known as epitopes, represent the minimum wedge recognized by the immune system [4]. Therefore, epitopes lie at the heart of the humoral immune response [5]. The rapid reaction to a previously encountered antigen depends on the binding ability of the antibodies found in the immune system of the organism [6], the physico-chemical properties of the epitope and it’s structural conformation [7]. Thus, understanding epitope characteristics and how they are recognized, in sufficient detail, would allow us to identify and predict their position in the antigen [8]. © 2015 Kozlova et al. This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http:// creativecommons.org/licenses/by/4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited. The Creative Commons Public Domain Dedication waiver (http://creativecommons.org/publicdomain/ zero/1.0/) applies to the data made available in this article, unless otherwise stated. Kozlova et al. BMC Bioinformatics 2015, 16(Suppl 19):S7 http://www.biomedcentral.com/1471-2105/16/S19/S7 The main objective of epitope prediction is to design a molecule that can replace an antigen in the process of either antibody production or antibody detection [4,9-11]. Such a protein can be synthesized in case of peptides or in case of a larger protein, produced by yeast after the gene is cloned into an expression vector [12]. After 30 years of research, it is known that the optimum size of peptides possessing cross-reactive immunogenicity is between 10-15 amino acids [13]. The earliest efforts made to understand and predict B-cell epitopes were based on the amino acid properties, such as flexibility [14], hydrophaty [15], antigenicity [7], beta turns [16] and accessibility [17]. Epitope prediction is important to design epitope-based vaccines and precise diagnostic tools such as diagnostic immunoassay for detection, isolation and characterization of associated molecules for various disease states. These benefits are of undoubted medical importance [18,19]. Recently developed prediction methods face several challenges like data quality [20,7], a limited amount of positive learning examples [21] or difficulty in choosing an appropriate negative learning examples [22]. These negative training samples may harbor genuine B cell epitopes and affect the training procedure, resulting in a poor classification performance [23,24]. Moreover, none of the published work took into account the protein family or function to predict epitopes [25]. The present study explores the possibility of epitopes belonging to same protein family share common properties. For these purpose, the amino acid statistics, physicochemical and structural properties were compared within each other [26] for two protein’s group. This assumption is based on previous studies showing that it exists amino acid trends in composition and shared properties for intravenous immunoglobulins [27]. Despite the difficulty of distinguishing epitopes from non epitopes [28] the addition of information, such as evolutionary and propensity scales, proved to be helpful for epitope prediction [21]. Therefore, it is interesting to assume including information about the protein antigen’s family may be resourceful to improve prediction. Methods Dataset composition We have obtained experimentally validated 106 linear Bcell epitopes for two groups of antigens (metalloproteinases and neurotoxins) extracted from Pubmed (http://www.ncbi. nlm.nih.gov/pubmed/). They were manually curated until September 2012 following several search criteria based on the keywords: epitope, metalloproteinase, proteinase, peptidase, toxin and neurotoxin in a joint and disjoint manner. The redundancy was removed for repeated sequences using 100% identity as threshold and the maximum size of the Page 2 of 7 epitopes was fixed to be equal or less than 32. As non epitope data, we created 49 linear random peptides proportional number to the mean of the amount of epitopes in the groups metallorproteinase and neurotoxin. These random peptides are based on the statistics from the dataset UniProtKB/Swiss-Prot, meaning that the sum of the random peptides amino acids are equal to the percentages found in uniprot database. The final set contained 99 non redundant epitopes, containing 29 metalloproteinases, 70 neurotoxins and 49 random peptides as showed in Additional file 1. Feature selection for data mining analysis In this study, we generated and used 33 physico-chemical parameters composed by aliphatic index, GRAVY, isoelectric point, amino acid content in percentages, amino acid groups such as hydrophobic (AVILMFYW), positive charged (RHK), negative charged (DE), not charged (STNQ) and specials (SGP) as described by Gasteiger with the difference that each feature was transformed to percentage removing the length difference for the epitope sequences [29]. Also 6 predicted secondary structure properties such as strand, helix, coil, relative surface accessibility, absolute surface accessibility and z-fit which were calculated with Netsurf algorithm [29]. These parameters were calculated for the three groups in study (Metalloproteinase, Neurotoxin and Random) and the results where compared using Welch two sample t-test available in the statistical software R. In total, we evaluated 3 different matrices for the classification purpose of discover how much sequence-derived information was needed to obtained a good classification. The first matrix based of purely PCP information, a second with only PSS data and a third one which was merely the addition of the PSS features to the PCP matrix. Selection of data mining methods and statistical analysis The Konstanz Information Miner (KNIME) [30] was used to evaluate Kmeans (KM), decision tree [31] (DT), naive bayes classifier (NB), support vector machine [32] (SVM) for the matrices generated with our dataset. The free software environment R for statistical computing and graphics was used to create the multiple regression models (LMR). For LMR the nominal class variable was transformed into a numerical variable for the two groups, a positive with value log(0.99/(1-0.99)) for metalloproteinases and a negative been log(0.01/(1-0.01)) for neurotoxins. The linear model function available in R was used to solve a series of equations where the class variable was equal to the feature variables. After solving the equations, a linear multiple regression model was generated, a p-value was calculated and the model was rejected for any p-value superior to 0.005. The predicted resulting score of the model was Kozlova et al. BMC Bioinformatics 2015, 16(Suppl 19):S7 http://www.biomedcentral.com/1471-2105/16/S19/S7 Page 3 of 7 scaled (0 to 1) by using exp(predicted value./(1+predicted value)) formula. The performance of all the generated models was evaluated for every possible decision threshold with ROCR package by using the parameters AUC (area under the curve formed by true and false positive rates) and accuracy, which gives an overall view of the performance of the classification method used [33]. Results Statistical differences of amino acid composition between metalloproteinase and neurotoxin linear epitopes compared with random sequences The dataset contain 11 metalloproteinases and 16 neurotoxins. The two protein families (or group) respectively contains 29 and 70 epitopes with an average sequence length of 13.8 amino acids (aa). The minimum length was 4 aa and maximum 32 aa. The negative or non epitope set contained 49 sequences of 14 aa length (Table 1). These epitope groups also indicated variation when compared to our non epitope control for the amino acids K, C, A, V and I for metalloproteinases and R, K, D, N, Q, C, A, I, K, M and W for neurotoxins (Table 2 columns 2 and 3). As expected, we also detected differences in other parameters such as aliphatic index, grand average of hydropaty and isoelectric point (Table 2 last three rows). Therefore, we were able to identify common characteristics in epitope’s composition within unique antigen groups and differences between neurotoxin and metalloproteinase epitope groups. Decision tree and multiple regression models can distinguish linear B-cell epitopes from two different antigen groups We investigated our capacity to discriminate if an epitope belonged to neurotoxin or metalloprotease based on the statistical significant differences observed in epitopes amino acids composition, isoeletric point, gravy and aliphatic index (Table 2). For this purpose, we used five different methods: SVM, NB, DT, KM and LMR. Our analysis used three different input matrices as described before: Only physico-chemical properties (PCP), only secondary structure (PSS) and the Table 1. Dataset composition Groups Proteins Epitopes Non epitopes 544996 – – Neurotoxin 16 29 0 Metalloproteinase 11 70 0 Negative examples 13 0 49 Uniprot The metalloproteinase and neurotoxin epitopes showed to be different from each other showing a statistical dissemblance for a confidence interval of 95% for the amino acids R, K, M and Y (Table 2, column 1). Also when compared these epitopes to their respective proteins they showed differences for the amino acids R, Q, V and M for metalloproteinases (Table 2, column 4) and D and C for neurotoxins (Table 2, column 5). combination of both (PCP+PSS) for each algorithm. The performances displayed as AUC values for all data mining methods are showed in table 3. All the methods with the exception of KM were able to group and distinguish correctly both groups of epitopes. As expected, the best results were for SVM followed by similar performance by much simpler techniques, LMR and DT. During the use of PSS features as input, a reduction in the performance of 0.1-0.3 AUC value was noticed for MLR and NB techniques (Table 3). Only SVM and DT obtained an AUC superior to 0.9 while all the other methods performed poorly with AUC of 0.65 for LMR and close to 0.5 for the others. The SVM technique performed with an AUC of 1.0 for combined properties while LMR showed a slight increase from 0.9 to 1.0. By the other hand DT, NB and Kmeans stayed the same (Table 3). These results indicate that the type of input used (PSS or PCP) were not significant, where the models based on the PCP were the simplest to analyze and understand. The most stable AUC results were obtained with DT method where all the matrices analyzed resulted in an AUC value around 0.95. The techniques DT and LMR are statistical approaches that showed results similar to SVM which is a non statistical classifier. These methods allowed us to discriminate the epitopes belonging to metalloproteinases or neurotoxins and to identify the important properties inside these groups. The relevant features to classify the epitope groups for the LMR and DT models can be found in table 4. We observed which amino acids were critical to differentiate epitopes from neurotoxins and metalloproteinases. In the case of LMR model, the amino acids asparagine (N), glutamine (Q) and serine (S), and in the case of DT model the amino acids lysine (K), aspartate (D) and methionine (M) were the key to achieve good classification (above 0.9 AUC) (Table 4). Discussion The amino acid composition has been investigated for proteins related to the B-cell response [34] and as key for understanding protein-protein interactions [35,36] alongside their role during prediction of epitopes for both T and B-cells [37]. Epitopes are rich in charged and polar amino acids and low in aliphatic hydrophobic amino acids, when comparing the epitope amino acid distribution to either the entire PDB database [38] or to the antigen [39,40]. Also Rubinstein [39] suggested that the amino acid Tyr is significantly over-represented in epitopes and that Val is significantly depleted. Interestingly, the residues Arg and Lys are more frequent in the epitopes of our dataset along other differences as aliphatic index and gravy. This particularities are probably a result of focusing common features in a diverse epitope group, Kozlova et al. BMC Bioinformatics 2015, 16(Suppl 19):S7 http://www.biomedcentral.com/1471-2105/16/S19/S7 Page 4 of 7 Table 2. Analysis of means for all datasets with Welch two sample T-test Parameter p - values for a confidence interval of 95% (1)ME vs NE (2)Random vs ME (3)Random vs NE (4) MP vs ME (5) NP vs NE R (Arg) 0.0029 0.0762 0.0001 0.0241 0.4226 H (His) 0.0362 0.1046 0.1074 0.5636 0.7906 K (Lys) 0.0000 0.0113 0.0000 0.4098 0.4818 0.0030 D (Asp) 0.0890 0.6994 0.0079 0.7091 E (Glu) 0.9289 0.2681 0.0838 0.6696 0.4072 S (Ser) 0.2953 0.5024 0.3546 0.9630 0.8954 T (Thr) N (Ans) 0.4077 0.1878 0.1867 0.7647 0.3509 0.0101 0.2199 0.5880 0.4523 0.4944 Q (Gln) 0.1509 0.9483 0.0039 0.8471 0.8185 C (Cys) 0.1821 0.0003 0.0000 0.0316 0.0075 G (Gly) 0.6979 0.2576 0.4620 0.3509 0.8450 P (Pro) 0.3156 0.5165 0.3781 0.2103 0.4271 A (Ala) 0.2121 0.0066 0.0000 0.1092 0.0756 V (Val) 0.0993 0.0019 0.2903 0.0550 0.1854 I (Ile) L (Leu) 0.2657 0.1374 0.0068 0.1182 0.0352 0.0000 0.1286 0.5549 0.3275 0.2322 M (Met) 0.0017 0.0725 0.0000 0.0282 0.2477 F (Phe) 0.6997 0.4713 0.0765 0.7890 0.5818 Y (Tyr) 0.0023 0.5245 0.0000 0.8318 0.0938 W (Trp) 0.0889 0.9443 0.0244 0.5782 0.1221 Isoe.Point 0.0425 0.5190 0.5190 0.0425 0.3221 gravy 0.0672 0.0010 0.0000 0.0672 0.0514 Aliph. Index 0.0086 0.0000 0.0000 0.0086 0.8550 Values under p-value under 0.05 are writen in bold. IC = 95%, H0 = Difference in means is cero. Hi = Difference in means is not equal to zero. Metalloproteinases epitopes = ME, Neurotoxin epitopes = NE, Metalloproteinase proteins = MP, Neurotoxin proteins = NP, Random = Random sequences. phenomena which was evidenced in the amino acids composition found in epitopes for papilloma viruses [22]. The PCP based methods have been explored in detail for epitope prediction [40] with some limitations in terms of specificity and precision as seen in models for SVM with AUC values of 0.85 for amino acid composition and 0.58, where the accuracy never surpass 0.8 [26]. Our study suggests an improvement in performance when a single epitope group is targeted, resulting in AUC and accuracy superior to 0.9. We included groups of amino acids based on type of charge and lateral chain due to the the concept of amino acids working cooperatively in protein:protein interfaces [41]. Our results indicate that these amino acid groups such as hydrophobic, PCP PSS PCP+PSS 1º Statistic of N Z-fit Statistic of E 2º Statistic of Q ASA Statistic C Atoms 3º Statistic of S RSA Statistic of N 4º 5º Statistic of T Uncharged STNQ Strand index Helix index Statistic of Q Statistic of S 6º Special CGP Coil index Statistic of T 7º Statistic H Atoms – Uncharged STNQ 8º Statistic C Atoms – Statistic H Atoms Table 3. Performance of all data mining methods showed in AUC and accuracy Order Table 4. Properties used by the classification models until 8º order out of 39 Classification Model: Linear Multiple Regression Order Classification Model: Decision Tree Matrix PCP PSS PCP+PSS 1º 2º PCP PSS PCP+PSS Statistic of K Statistic of D Z-fit RSA Statistic of K Statistic of D Models AUC Accuracy AUC Accuracy AUC Accuracy 3º Statistic of M ASA Statistic of M SVM 1 1 1 1 1 1 4º Statistic S Atoms Strand index Statistic S Atoms MLR 0.986 0.952 0.655 0.714 1 1 5º Statistic of I Coil index Statistic of I DT 0.957 0.962 0.921 0.943 0.943 0.952 6º Statistic of W – Statistic of W NB 0.8 0.838 0.521 0.667 0.793 0.838 7º Statistic of Y – Coil index KM 0.493 0.667 0.509 0.681 0.507 0.667 8º Isoelectric point – – Kozlova et al. BMC Bioinformatics 2015, 16(Suppl 19):S7 http://www.biomedcentral.com/1471-2105/16/S19/S7 polar, or special amino acids (CGP), do not posses significance for the prediction models by themselves but may add value when combined with single amino acid statistics. The secondary structure of epitopes was also investigated by several authors [42-44], and epitopes are in general reported to have significantly less strands and helices and significantly more loops compared to the rest of the antigen [8,38]. The over-representation of loops is small but significant and in agreement with the perception that protein-protein binding sites are flexible regions [41]. The overall secondary structure of epitopes has been reported to been different from regular protein-protein interfaces [23] based on crystals available on the PDB indicating some structural particularities of the Ab-Ag interaction [45]. These particularities could be also family restrictred which could be interesting to explore with computational methods despite of having an accuracy of 79% when predicted from sequence [46] but the DT outcome showed no real relevance in PSS features when applied to epitope classification. The inclusion of predicted secondary structure as commonly done [40] could be a source of misleading results for the prediction, issue which has been reviewed briefly in the literature [47]. The features that characterize each epitope’s group could represent the complementary data needed to improve epitope prediction. For example, when adding evolutionary information to the prediction the performance was improved [48] despite recent studies that explain no relation exits between epitope and antigens sequences [28]. Therefore, we showed that a wide range of data mining methods including support vector machine [21], decision tree [48], regression [26] and Naive Bayer classifier had similar successful results bringing some light to the question of which characteristics are important for these epitope groups. It’s important to note that we used amino acid percentage [4] in comparison with some recent epitope prediction methods that prefer propensities [12]. The data normalization made in the present study are based on the assumption that each feature is equally relevant for any protein sequence based analysis [9]. We also demonstrate that despite the method, it was possible to classify the studied groups, pointing out the importance of the quality of the used data [49]. Conclusions Our study indicates that linear epitopes that belong a single protein family share common properties but different when compared to epitopes from different families, as demonstrated for neurotoxins and metalloproteinases. We confirmed our hypothesis with five different data mining algorithms, probabilistic and non probabilistic, Page 5 of 7 showing similar results except for Kmeans. The proposed models allowed to separate the studied groups from random sequences based on Uniprot statistics. The models based only in PCP features were enough to show and identify the differences between epitope groups. Therefore, we demonstrate that considering the epitope’s protein family can reveal unseen patterns within epitope groups that could be used to improve epitope discovery. Additional material Aditional file 1: The datasets composed of the sequences used in this work is available in this .csv file, containing four columns. First column shows the pubmedID of the paper from which the sequence was extracted. The second column contains the sequence. The third collumn contain the sequence IDs from genebank, uniprot or pdb, databases. The fourth column contains the class of the sequences which can be neurotoxin, metalloproteinase or random. The column separator in this .csv file is a standart semicolon “;”. List of abbreviations SVM: Support Vector Machine NB: Naive Bayes DT: Decision Tree KM: K-Means LMR: Linear Multiple Regression PDB: Protein Data Bank PSS: Position Specific Matrix PCP: Physico-Chemical-Properties ASA: Absolute Surface Area RSA: Relative Surface Area AUC: Area Under the Curve ROC: Receiver Operating Characteristic ME: Metalloproteinase epitopes MP: Metalloproteinase proteins NE: Neurotoxin epitopes NP: Neurotoxin proteins Competing interests The authors declare that they have no competing interests. Authors’ contributions Carlos Chavez Olortegui: Advising, professional orientation, results review and science encouragement. Edgar Ernesto Gonzalez Kozlova: Data mining models and statistical analysis. Benjamin Thomas Viart: Statistical analysis advising. Liza Figueredo Felicori: Hypothesis help and advising. Ricardo Andrez Machado de Avila: Hypothesis help and advising, general advising, results review and science encouragement. Declarations This research and funding for publication was supported by Coordenação de Aperfeiçoamento de Pessoal de Nível Superior, (CAPES-Brazil),(Toxinologia No 23038000825/2011-63). Fundação de Amparo a Pesquisa do Estado de Minas Gerais, Brazil (FAPEMIG-Brazil) and Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq-Brazil). This article has been published as part of BMC Bioinformatics Volume 16 Supplement 19, 2015: Brazilian Symposium on Bioinformatics 2014. The full contents of the supplement are available online at http://www. biomedcentral.com/bmcbioinformatics/supplements/16/S19 Authors’ details 1 Laboratório de Imunoquímica de Proteínas, Departamento de BioquímicaImunologia, Instituto de Ciências Biológicas, Universidade Federal de Minas Gerais, CP: 486; CEP: 31270-901, Belo Horizonte-MG, Brazil. 2Laboratório de Kozlova et al. BMC Bioinformatics 2015, 16(Suppl 19):S7 http://www.biomedcentral.com/1471-2105/16/S19/S7 Biologia Celular e Molecular, Programa de Pós-Graduação em Ciências da Saúde, Unidade Acadêmica de Ciências da Saúde, Universidade do Extremo Sul Catarinense, CEP: 88806-000. Criciúma-SC, Brazil. Published: 16 December 2015 References 1. Cochrane Norris Charles: Thucydides and the Science of History. Oxford University Press; 1929:35(3):584-585, Apr. 2. Burnet FM: A modification of Jerne’s theory of antibody. Australian Journal of Science 1957, 20:67-69. 3. Jerne NK: The natural-selection theory of antibody formation. Proceedings of the National Academy of Sciences 1955, 41:849-857. 4. Perlow DS, Boger J, Emini EA, Hughes JV: Induction of hepatitis A virusneutralizing antibody by a virus-specific synthetic peptide. J Virol 1985, 55(3):836-839. 5. Silverstein AM: A History of Immunology. Academic Press, San Diego; 1989. 6. Abbas HAndrew, Lichtman KAbul: Cellular and Molecular Immunology 2005, 5(1):3-14. 7. Greenbaum JA, Andersen PH, Blythe M, Bui HH, Cachau RE, Crowe J, Davies M, Kolaskar AS, Lund O, Morrison S, Mumey B, Ofran Y, Pellequer JL, Pinilla C, Ponomarenko JV, Raghava GP, van Regenmortel MH, Roggen EL, Sette A, Sch-lessinger A, Sollner J, Zand M, Peters B: Towards a consensus on datasets and evaluation metrics for developing B-cell epitope prediction tools. J. Mol. Recognit 2007, 20(2):75-82. 8. Yang J, Chou KC, Chen J, Liu H: Prediction of linear B-cell epitopes using amino acid pair antigenicity scale. Amino Acids 2007, 33(3):423-428, Jan. 9. Hopp TP, Woods KR: Prediction of protein antigenic determinants from amino acid sequences. Proc. Natl. Acad. Sci. U.S.A 1981, 78(6):3824-3828, Jun. 10. Toth I, Moyle PM: Modern subunit vaccines: development, components, and research opportunities. ChemMedChem 2013, 8(3):360-376, Mar. 11. Ditzel HJ, Williamson RA, Burton DR, Parren PW, Poignard P: Antibodies in human infectious disease. Immunol Res 2000, 21(2-3):265-278. 12. Patel VL, Shortliffe EH, Stefanelli M, Szolovits P, Berthold MR, Bellazzi R, Abu-Hanna A: The coming of age of artificial intelligence in medicine. Artif Intell Med 2009, 46(1):5-17, May. 13. Sivalingam GN, Shepherd AJ: An analysis of B-cell epitope discontinuity. Mol. Immunol 2012, 51(3-4):304-309, Jul. 14. Karplus M, McCammon JA: The dynamics of proteins. Sci. Am 1986, 254(4):42-51, Apr. 15. Parker JM, Guo D, Hodges RS: New hydrophilicity scale derived from high-performance liquid chromatography peptide retention data: correlation of predicted surface residues with antigenicity and X-rayderived accessible sites. Biochemistry 1986, 25(19):5425-5432, Sep. 16. Pellequer JL, Westhof E: PREDITOP: a program for antigenicity prediction. J Mol Graph 1993, 11(3):204-210, Sep. 17. Davydov I, Tonevitski AG: Linear B-cell epitope prediction. Mol. Biol. (Mosk.) 2009, 43(1):166-174. 18. Atassi MZ, Azzazy HM, Highsmith WE: Phage display technology: clinical applications and recent innovations. Clin. Biochem 2002, 35(6):425-445, Sep. 19. Blythe MJ, Flower DR: Benchmarking B cell epitope prediction: underperformance of existing methods. Protein Sci 2005, 14(1):246-248, Jan. 20. Deng Houtao, Runger George, Tuv Eugene: Bias of importance measures for multi-valued attributes and solutions. Lecture Notes in Computer Science 2011, 6792:293-300. 21. Wang HW1, Lin YC, Pai TW, Chang HT: Prediction of B-cell linear epitopes with a combination of support vector machine classification and amino acid propensity identification. J Biomed Biotechnol 2011, 2011:432830, doi: 10.1155/2011/432830. Epub 2011 Aug 23. 22. Subramanian N, Chinnappan S: Prediction of promiscuous epitopes in the e6 protein of three high risk human papilloma viruses: a computational approach. Asian Pac. J. Cancer Prev 2013, 14(7):4167-4175. 23. Zhou E, Ruan Y, Kurgan J, Gao L, Faraggi J: BEST: improved prediction of B-cell epitopes from antigen sequences. PloS One 2012, 7(6):e40104. Jun.. 24. El-Manzalawy Y, Dobbs D, Honavar V: Predicting linear B-cell epitopes using string kernels. J. Mol. Recognit 2008, 21(4):243-255. 25. Kolaskar PC, Tongaonkar AS: A semi-empirical method for prediction of antigenic determi-nants on protein antigens. FEBS Lett 1990, 276:172-174. Page 6 of 7 26. Singh H, Ansari HR, Raghava GP: Improved method for linear B-cell epitope prediction using antigen’s primary sequence. PloS ONE 2013, 8(5):e62216.. 27. Luštrek M, Lorenz P, Kreutzer M, Qian Z, Steinbeck F, Wu D, Born N, Ziems B, Hecker M, Blank M, Shoenfeld Y, Cao Z, Glocker MO, Li Y, Fuellen G, Thiesen HJ: Epitope predictions indicate the presence of two distinct types of epitope-antibody-reactivities determined by epitope profiling of intravenous immunoglobulins. PloS One 2013, 8(11):e78605, Nov 11. Doi: 10.1371/journal.pone.0078605. Ecollection 2013. 28. Ofran Y, Kunik V: The indistinguishability of epitopes from protein surface is explained by the distinct binding preferences of each of the six antigen-binding loops. Protein Eng Des Sel 2013, 26(10):599-609, Oct. 29. Petersen Bent, Petersen Nordahl Thomas, Andersen Pernille, Nielsen Morten, Lundegaard1 Claus: A generic method for assignment of reliability scores applied to solvent accessibility predictions. BMC Structural Biology 2009, 9:51, doi:10.1186/1472-6807-9. 30. Berthold RMichael, Cebron Nicolas, Dill Fabian, Gabriel RThomas, Otter Tobias, Meinl Thorsten, Ohl Peter, Sieb Christoph, Thiel Kilian, Wiswedel Bernd: KNIME: The Konstanz Information Miner. Studies in Classification, Data Analysis, and Knowledge Organization. Springer. ISSN:14318814 2007. 31. Bremel EJ, Homan RD: An integrated approach to epitope analysis I: Dimensional reduction, visualization and prediction of MHC binding using amino acid principal components and regression approaches. Immunome Res 2010, 6(7):1745-7580, Nov. 32. Kam D, Tong YW, Wee JC, Simarmata LJ: SVM-based prediction of linear B-cell epitopes using Bayes Feature Extraction. BMC Genomics 2010, 2(11):1471-2164. 33. R Core Team: R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing. Vienna, Austria; 2014. 34. Kurosaki T: Regulation of B-cell signal transduction by adaptor proteins. Nat. Rev. Immunol 2002, 2(5):354-363, May. 35. Jones S, Thornton JM: Principles of protein-protein interactions. Proc. Natl. Acad. Sci. U.S.A 1996, 93(1):13-20, Jan. 36. Su CW, Lin EC, Cheng SY, Liu R, Hu J: Computational prediction of hemebinding residues by exploiting residue interaction network. PloS ONE 2011, 6(10):e25560. 37. Greenbaum JA, Emami H, Hoof I, Salimi N, Damle R, Sette A, Peters B, Vita R, Zarebski L: The immune epitope database 2.0. Nucleic Acids Res 2010, , D: 854-862, Nov. 38. Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE: The Protein Data Bank. Nucleic Acids Res 2000, 28(1):235-242, Jan. 39. Rubinstein ND, Mayrose I, Halperin D, Yekutieli D, Gershoni JM, Pupko T: Computational characterization of B-cell epitopes. Mol. Immunol 2008, 45(12):3477-3489, Jul. 40. Zhao M, Li Q, Zhang W, Liu J: Predicting linear B-cell epitopes by using sequence-derived structural and physicochemical features. Int J Data Min Bioinform 2012, 6(5):557-569. 41. Janin J, Chothia C: The structure of protein-protein recognition sites. J. Biol. Chem 1990, 265(27):16027-16030, Sep. 42. Reimer U: Prediction of linear B-cell epitopes. Methods Mol Biol 2009, 524:335-344, N. D. Rubinstein, I. Mayrose, D. Halperin, D. Yekutieli, J. M. Gershoni, and T. Pupko. Computational characterization of B-cell epitopes. Mol. Immunol., 45(12):3477-3489, Jul 2008. 43. Toseland CP, Clayton DJ, McSparron H, Hemsley SL, Blythe MJ, Paine K, Doytchinova IA, Guan P, Hattotuwagama CK, Flower DR: AntiJen: a quantitative immunology database integrating functional, thermodynamic, kinetic, biophysical, and cellular data. Immunome Res 2005, 1(1):4, Oct. 44. Zhao L, Wong L, Lu L, Hoi SC, Li J: B-cell epitope prediction through a graph model. BMC Bioinformatics 2012, 13(Suppl 17):S20. 45. Keskin O, Ma B, Rogale K, Gunasekaran K, Nussinov R: Protein-protein interactions: organization, cooperativity and mapping in a bottom-up Systems Biology approach. Phys Biol 2005, 2(2):24-35, Jun. 46. Pellequer JL, Westhof E, Van Regenmortel MH: Correlation between the location of antigenic sites and the prediction of turns in proteins. Immunol. Lett 1993, 36(1):83-99, Apr. 47. Bourne PE, Ponomarenko JV: Antibody-protein interactions: benchmark datasets and prediction tools evaluation. BMC Struct Biol 2007, 2:7-64, Oct. Kozlova et al. BMC Bioinformatics 2015, 16(Suppl 19):S7 http://www.biomedcentral.com/1471-2105/16/S19/S7 Page 7 of 7 48. Saha S, Raghava GP: Prediction of continuous B-cell epitopes in an antigen using recurrent neural network. Proteins 2006, 65(1):40-48, Oct. 49. Saha S, Bhasin M, Raghava GP: Bcipep: a database of B-cell epitopes. BMC Genomics 2005. doi:10.1186/1471-2105-16-S19-S7 Cite this article as: Kozlova et al.: Classification epitopes in groups based on their protein family. BMC Bioinformatics 2015 16(Suppl 19):S7. Submit your next manuscript to BioMed Central and take full advantage of: • Convenient online submission • Thorough peer review • No space constraints or color figure charges • Immediate publication on acceptance • Inclusion in PubMed, CAS, Scopus and Google Scholar • Research which is freely available for redistribution Submit your manuscript at www.biomedcentral.com/submit Bioinformatics Advance Access published January 18, 2016 EPI-Peptide Designer : a tool for designing specific peptide ligand libraries based on Epitope-Paratope Interactions Viart B 1 , Gonzalez E 1 , Dias-Lopes C 1 , Oliveira C F B 1 , Nguyen C 3 , Neshich G 2 , Chávez-Olórtegui C 1 , Molina F 3 , and Felicori L 1∗ 1 3 Universidade Federal do Minas Gerais, Brazil Embrapa Informática Agropecuária, Campinas, SP, Brazil Sys2Diag, FRE3690-CNRS/ALCEDIAG, Montpellier, France Associate Editor: Prof. Anna Tramontano ABSTRACT Motivation: Antibodies are an important class of biological drugs, but with limitations, such as inadequate pharmacokinetics, adverse immunogenicity and high production costs. Synthetic peptides with high affinity and specificity for the desired target represent an important alternative to antibodies. However, no computational tool exists to guide the design of these peptides. Results: To identify the interacting residues in a given antibody-antigen interface we used Interface Interacting Residue (I2R), a selection method based on computed molecular interactions. The aggregation of all the molecular interactions between epitope and paratope residues allowed us to transform the 3D antibody-antigen complex structures into interface graphs. Based on these data and the probability of molecular interaction we developed EPI-Peptide Designer tool that uses predicted paratope residues for an epitope of interest to generate targeted peptide ligand libraries. EPI-Peptide Designer successfully predicted 301 peptides able to bind to LiD1 target protein (65% of the experimentally tested peptides). This tool should enable the development of a new generation of synthetic interacting peptides that could be very useful in the biosensor, diagnostic and therapeutic fields. Availability: All software developed in this work are available at http://www.biocomp.icb.ufmg.br/biocomp/ Contact: [email protected] 1 INTRODUCTION Protein-protein interactions are at the heart of biological processes and protein functions are highly related to their binding properties (Chakrabarti and Janin, 2002). For instance, the immune response relies on antigen recognition by a specific antibody and the Antibody-Antigen (Ab-Ag) complex represents a specific type of protein-protein interaction characterized by high affinity and ∗ to whom correspondence should be addressed specificity. Identifying the key residues and interaction patterns on the Ab-Ag interface could help improving antibody humanization as well as the design of new antibodies (Morea et al., 2000) and peptide ligands based on the antibody properties. The use of peptides for therapeutic purpose instead of antibodies has plenty of advantages such as lower manufacturing costs, less immunogenic profile, greater stability and better organ/tumor penetration. Several chemical approaches have been generated to overcome therapeutic peptides limitations such as low oral bioavailability and biodistribution (Vlieghe et al., 2010). Indeed, much research effort is focused on the use of peptide ligands as a viable alternative to antibodies in targeted therapies (Wada, 2013). For instance, mimetic peptides derived from the anti-HER2/ERBB antibody can inhibit the tyrosine kinase activity of this receptor and consequently impair tumour growth (Park et al., 2000; Ponde et al., 2011). Presently, over 50 peptide drugs are approved for clinical use (Reichert J., 2010). To guide the design and increase the affinity and specificity of these peptide drugs, different tools, based on various methodologies (e.g., directed evolution, highthroughput protein screening or rational design based on proteinpeptide interactions) have emerged (Pei and Wavreille, 2007; Yin et al., 2007; Vanhee et al., 2011). In silico rational design of peptides based on molecular interactions is also a fundamental proof-ofconcept for the current understanding of the physical-chemical basis of molecular recognition. Moreover, this approach could become a powerful complement to the current library-based screening methods because it allows targeting specific patches on the surface of a protein (Fleishman et al., 2011). Computational design also gives the opportunity to program protein-protein interactions for specific applications. However, currently no computational methodology to design this kind of peptides is available. In this work, we propose a computational method to generate libraries of peptide ligands or paratope mimetics based on the Epitope-Paratope Interaction (EPI) patterns and on a target epitope input sequence. This software, called EPI-Peptide Designer, uses a set of Ab-Ag complex structures from the Protein Data Bank (PDB) (Berman et al., 2000) and the Blue Star STING server and STING DB (Neshich et al., 2006) containing hundreds of interaction descriptors reported in residue by residue fashion © The Author (2016). Published by Oxford University Press. All rights reserved. For Permissions, please email: [email protected] 1 Downloaded from http://bioinformatics.oxfordjournals.org/ at Universidade Federal de Minas Gerais on February 12, 2016 2 Viart et al to compute the Bayesian probabilities of molecular interactions between epitope and paratope. EPI-Peptide Designer generates peptide binder sequences based on the epitope sequence entered by the user and the patterns extracted from the Ab-Ag interfaces. The method was experimentally validated using as target a dermonecrotic protein LiD1 from the brown spider venom. We have synthesized a library of 460 peptides and 65% of them were able to bind to LiD1. This is, to our knowledge, the first generator of peptide ligand libraries based on EPI. Dataset extraction To extract structures of Ab-Ag complexes from the PDB (Berman et al., 2000), we first used the datasets from Ramaraj et al. and Kunik et al. to select the antibody light and heavy chains to be used as reference sequences. After redundancy removal using CD-Hit (Fu et al., 2012), we processed the two reference sequence datasets with Interface Research Algorithm (IRA), a BioJava program we developed. IRA automatically computed the Smith and Waterman local alignment (Smith et al., 1981) of each sequence against each chain of all the PDB files that contain at least three protein chains. Using a threshold determined by aligning the reference dataset against itself, IRA labelled each chain as Antibody Light, Antibody Heavy or Antigen. IRA selected structures that contain at least one antigen, one light chain and one heavy chain spatially close (i.e., presenting inter-atomic contacts using the 5 Ångström (Å) distance cut-off). From these, the PDB files with X-ray resolution lower or equal to 2.5Å and present in STING RDB were extracted (Neshich et al., 2006). Interface selection To analyse the interface of Ab-Ag complexes, we used three different interface selection methods. First, in the selection based on the distance between atoms of the antigen and the antibody (distance-based selection, DBS) (Chothia and Janin, 1975; Lo Conte et al., 1999), an amino acid of the antigen is considered to be part of the Distance Selected Epitope (DSE), if one or more of its atoms are at a distance below a chosen cut-off (in our study, from 3 to 8 Ångström). The Distance Selected Paratope (DSP) is selected in the same manner. Second, in the approach based on the difference of Solvent Accessible Surface (∆SAS), interfaces are selected based on the loss of solvent accessibility between the separated and the complexed protein (Lo Conte et al., 1999). Third, we developed a selection method in which the interface computed molecular interactions are extracted from STING RDB (Neshich et al., 2006). In this method, the interface is defined by all the amino acids that are involved in the molecular interactions between the antigen and the antibody chains and that are called, therefore, Interface Interacting Residues (I2R). The selected antibody residues form the I2R Paratope and the selected antigen amino acids constitute the I2R Epitope. Computation of the interface molecular interactions Molecular interactions (salt bridges, hydrogen bonds, aromatic stacking and hydrophobic interactions) were taken from STING RDB IFR (Mancini et al., 2004). This tool identifies all potential intra- and inter-protein chain contacts stored in STING RDB (Neshich et al., 2006) by (1) classifying the atoms in groups 2 Redundancy removal To extract meaningful information from the interface dataset, we removed redundancies by selecting only the DSE and DSP sequences from the complex (with a cut-off of 6Å). Using the CDHit global sequence identity score (Fu et al., 2012), we only selected interfaces with a score lower than 0.90 for both interface sides. Global sequence identity score is define as the number of identical amino acids in alignment divided by the length of the shorter sequence. The selected files were manually curated to confirm their quality. This provided us with a non-redundant dataset composed of 101 PDB structures, 21 antibody-peptide complexes (here, peptides are defined as molecules smaller than 30 amino acids) and 80 antibody-protein complex. Interface statistical analysis To compute the percentage of occurrence (%Occ) of the epitopes and paratopes selected by I2R we used : %Occn = Occn × 100, Occtotal where n is an amino acids, %Occn is the percentage of occurrence of n, Occn is the occurrence of n and Occtotal is the occurrence of all the residues. The results were compared to all STING RDB protein-protein interaction (Neshich et al., 2006) occurrence values after exclusion of our 101 PDB Files. The statistical comparison of the amino acids was done using a t-test of differential distribution and was considered significant when the p-value was lower than 0.01. Comparison of the interface selection methods To compare the interface residue selection by the three methods we computed the Receiver Operating Prime Curve (ROC’) of the performance of the distance-based selection and ∆SAS, using various cut-offs, against I2R. As the aim was the comparison of selected interface residues, the true negatives were not considered. We computed the ROC’ curve as follows. The True Positive Rate (TPR), also called recall, was computed as: TPR = TP TP + FN and the False Discovery Rate (FDR) as: F DR = FP FP + TP where TP is the True Positive, FP the False Positive and FN the False Negative. Computation of the most frequent interface partners using graph analysis To analyse the interface in a multi-level manner, we developed Interface to Graph Generator (IGG). IGG is a BioJava program that takes as input PDB codes and two sets of chains. Molecular interactions between those two sets are recovered from PDB structures using STING RDB (Neshich et al., 2006). The interface is Downloaded from http://bioinformatics.oxfordjournals.org/ at Universidade Federal de Minas Gerais on February 12, 2016 2 METHODS according to their electrostatic behaviour and position in the amino acid (main or side chain) and (2) by then selecting atoms based on the type of contacts they potentially can make and on the experimentally defined distance restrictions (Harris and Mildvan, 1999; Sobolev et al., 1999; Swindells, 1995). EPI-Peptide Designer automatically transformed into a graph, where all I2Rs are vertices and all interactions are edges. The vertex label holds the information concerning the interface side and the amino acid type (Table 1). The edges are labelled according to the type of interaction, such as hydrogen bonds, salt bridges, hydrophobic interactions and aromatic stacking. Using GASTON (Nijssen and Kok, 2004), we extracted the most conserved sub-graphs from the complete set of interfaces containing two and three nodes. Subgraphs plot was done using R (R Development Core Team, 2008) and the “igraph” package (Csardi and Nepusz, 2006). Group Residue Small Charged + Charged Hydrophobic Alcohol Aromatic Polar A,G K,R,H D,E V,I,L,C,M,P S,T Y,W,F Q,N Assessment of paratope residue prediction Based on the Bayesian probabilities extracted from the epitopeparatope graphs, we predicted the amino acid sequence and the interaction of a given paratope using a given epitope sequence. To evaluate the prediction of residues and interactions, we used a leave-one-out cross validation of the 21 antibody-peptide PDB interfaces from our dataset. Antigens were considered as peptides if their size was equal or lower than 30 amino acids. The evaluation considered each residue from the input epitope and defined as True Positive (TP) a correct ”interaction type and paratope residue” couple, as False Positive (FP) any interaction where the interaction type or the residue group was incorrect, as False Negative (FN) any existing couple not added by the program and as True Negative (TN) any possible not existing and not added interaction type-paratope residue couple. EPI-Peptide Design tool Using all the Ab-Ag interaction patterns and the residue occurrence data obtained in this study, we developed EPI-Peptide Designer in BioJava. EPI-Peptide Designer includes the IGG program described above. The program takes as input a real or putative epitope sequence (linear or conformational; gaps in the sequence can be represented by - ), a cut-off score representing the importance of the epitope sequence in the design and the number and size of peptides needed by the user. To design peptide ligands, EPIPeptide Designer uses the Base Residue Library (BRL) composed of all residues from all the paratopes in the input dataset. The computed probabilities include: probability of an epitope residue type to do an interaction and, for each type of interaction, the probability of the target paratope residue type and the influence of the epitope neighbour residues on the interaction. Using these probabilities and the input sequence, EPI-Peptide Designer ranks the predicted paratope residues in decreasing order of likelihood. The paratope residues are then added according to the decreasing EPI-peptide design, peptide synthesis on cellulose membranes and binding assay In order to test the effectiveness of the method, we generated 800 EPI-Peptides using the protein LiD1 (GI: 33348850,Felicori et al. (2006)) catalytic sequence epitope (37 FDDNANPEYTYHGIP51 ) and default parameter of EPI-Peptide Designer (Ab-peptide dataset, length of 15 amino acid and a score of 50). To ensure solubility, only sequences which contained less than 50% hydrophobic residues; at least 25% of charged residues and less than 75% of D, E, H, K, N, Q, R, S, T and Y were selected and synthesized (Following recommendations from Life technologies peptide solubility website, http://www.lifetechnologies.com). Four hundred and sixty peptides were synthesized on a cellulose membrane as previously described by Laune et al. The membrane was blocked by incubation with 3% BSA and 5% sacarose at room temperature overnight, and then membranes were probed LiD1 covalently linked to biotin at a concentration of 20µg/ml in blocking buffer at room temperature for 90 min. Biotinalytion of LiD1 was conducted using commercial available Biotinylation kit (Sigma-Aldrich, BK101). Protein binding was revealed by incubation (at room temperature for 90 min) with alkaline phosphatase-conjugated avidin (1:10,000) and 5-bromo-4-chloro-3-indolyl phosphate (BCIP) plus 3-(4,5dimethylthiazol-2-yl)-2,5-diphenyltetrazolium bromide (MTT) as substrate. To remove molecules and precipitated blue die attached, membranes were sequentially treated with dimethylformamide, 1% SDS, 0.1% 2-mercaptoethanol in 8 M urea, ethanol/water/acetic acid (50:40:10, vol/vol/vol) and, finally, methanol and further employed in other assays. Peptide reactivity was assessed based on manual reading and consensus of triplicate assays. Positive sequences were analysed by GibbsCluster (Andreatta et al., 2013) and Weblogo (Crooks et al., 2004) tools. 3 RESULTS Analysis of the Interface Interacting Residues (I2R) allows evaluating the distance-based selection and the difference of solvent-accessible surface methods To compare the three interface residue selection techniques, we selected interfaces from the 101 PDB structures by computing the Euclidean distance DBS, the ∆SAS and the interface molecular interactions (I2R). We then compared the selections made with the DBS and ∆SAS methods against the I2Rs by computing the ROC’ curves (Fig.1). Comparison of the selection made based on the Euclidean distance with the extracted I2Rs showed that the maximum precision was obtained with a 3Å distance, while the maximum TPR (also called Recall) was reached with 8Å. The DBS had a higher surface under the curve and the highest value 3 Downloaded from http://bioinformatics.oxfordjournals.org/ at Universidade Federal de Minas Gerais on February 12, 2016 Table 1. Amino acids group used for graph and subgraphs analysis order of likelihood to the BRL until the defined cut-off score is reached (i.e., for a BRL of 100 residues and a cut-off score of 10%, EPI-Peptide Designer will add 10 residues to the BRL). The thus obtained biased amino acid library (i.e., modified to become specific for a given epitope sequence) is then used to generate random EPIpeptide sequences of the length and in the number defined by the user. Viart et al of T P R − F DR was reached for a distance of 3.8Å. Most DBSbased Ab-Ag structure studies use a cut-off between 4Å and 6Å. For a distance of 5Å, with this plot, 91.5% (TPR) of interacting residues were selected; however, 32% of the selected residues did not to do any kind of interaction. Surprisingly, to reach the maximum TPR, a distance cut-off of 8Å was needed. As most of the molecular interaction maximum distances are lower than 6Å, we further investigated the interaction repartition. As all interface interactions are not selected by the 5Å cut-off, we were interested in the interaction repartition in function of the distance. The bar plots (Fig.2A) of the interactions relative to the chosen distance showed that the distance of 5Å, as expected based on the previous results, allowed the selection of most interactions, but still missed 8.5% of them, specifically 2% of all salt bridges, 5.2% of all hydrogen bonds and 6.5% of all aromatic stacking, but none of the hydrophobic interactions. The hydrogen bonds with a distance bigger than 5Å were all water-mediated, thus explaining the unusual long distance. The cumulative bar plot of the interactions (Fig.2B) showed that the hydrophobic interactions were quantitatively the most important, followed closely by hydrogen bonds. Conversely, salt bridges and aromatic stacking were less frequent on the antibody-antigen interface. Amino acid occurrence in epitopes and paratopes selected with the Interface Interacting Residue (I2R) method Compared to all interacting residues in STING RDB, I2R paratopes (grey columns in Fig.3) were significantly enriched in Tyr, Ser, Trp, Gly, Asn and Thr. I2R paratopes were depleted of most of the other amino acids, but for Ala, Asp and Phe the occurrence of which was not significantly different compared with all STING RDB interacting residues. I2R epitopes (black columns in Fig.3) 4 Fig. 2. A:Percentage of molecular interactions by type using DSB from 0 to 3Å (black), from 3 to 4Å (dark grey),from 4 to 5Å light grey) and from 5 to 8Å (white). B: Cumulative occurrence of hydrophobic interactions (black), salt bridges (dark grey), hydrogen bonds (light grey) and aromatic stacking (white) at the antigen-antibody interface. Fig. 3. Comparison of the occurrence (in percentage) of all interacting residues in STING RDB (white), I2R epitopes (black) and I2R paratopes (grey). Error bars are calculated as the standard deviation divided by the root square of the set size. Stars represent statistically significant differences compared to STING RDB, p value <0.01 using a standard t-test. were enriched in Gly, Pro, Asn, Gln, Ser, Thr and Cys and depleted of Glu, Arg, His Phe and Tyr. A bipartite graph representation of the paratope-epitope interactions indicated that the interacting residues had a very asymmetric distribution (Fig.4). In the paratope, Tyr, the most frequent residue, interacted with almost all the epitopic amino acids via different types of interactions. Tyr interacted most frequently with hydrophobic amino acids, particularly Pro, Gln, Gly, Phe, and Downloaded from http://bioinformatics.oxfordjournals.org/ at Universidade Federal de Minas Gerais on February 12, 2016 Fig. 1. Comparison of DBS (black circles) and ∆SAS (red triangles) residue selection using different cut-offs relative to the I2R method. EPI-Peptide Designer with the charged Lys and Arg in the epitope. Indeed, paratopic Tyr interacted with positively charged epitopic residues via cationπ interactions and with negatively charged epitopic residues via hydrogen bonds. The Ser in the paratope seemed important for establishing a network of hydrogen bonds with charged amino acids and also with Gln and Ser in the epitope. Among the charged amino acids in the paratope, a high prevalence of salt bridges done by Arg and Asp was observed. More heterogeneous interactions were observed among the epitope residues. Although Arg was less frequent than in other kinds of protein-protein interactions (Fig.4), it was the most frequent residue in epitopes and was involved in all kinds of interactions. Epitopic Arg interacted mostly with Tyr residues in the paratope via aromatic stacking, hydrogen bonds and hydrophobic interactions. It also formed salt bridges preferentially with Asp, but also with Glu, and repulsive salt bridges with Arg in the paratope. Lys in the epitope formed a similar network with Tyr in the paratope. The most conserved subgraphs highlight the importance of cation-π interactions in the epitope-paratope interface The extraction of the most conserved subgraphs from the complete dataset with two of the three nodes showed that paratopic aromatic residues (Tyr) predominantly interacted with positively charged residues in the epitope through an aromatic stacking interaction (cation-π interaction) (Fig.5A). Specifically, 84 of the 101 selected structures contained at least one cation-π interaction in which the positive charge was hold by the epitope. In addition 51 structures contained a double cation-π interaction (Fig.5B) composed of a positively charged residue in the epitope that interacted with two aromatic amino acids from the paratope. The subgraphs also showed that salt bridges often involved three residues: two negatively charged from the paratope with one positively charged from the epitope. Hydrogen bonds had a low score, although they were the second most frequent type of interaction observed in Ab-Ag interfaces. This can be explained by the variety of amino acid group couples that can form such interaction, thus reducing the frequency of same residue group - same interaction couples. Assessment of the paratope residue prediction Using these antibody-antigen graph patterns, we then developed a new methodology to design antibody mimetics using the antigen sequence Fig.6. First, we computed the Bayesian probability of all kinds of interactions to predict the residue-interaction couples. Then, to test the predictions, we used the 21 antibody-peptide interfaces from our dataset and a leave-one-out cross-validation method with all the interactions and the seven residue groups (Table 1). Using a cut-off of 5%, meaning that a paratope-residue interaction couple had to have a Bayesian probability of 0.05 to be added, we obtained a sensitivity of 23% and a specificity of 95%, with an accuracy of 92%. EPI-Peptide Designer tool From a set of user-defined Ab-Ag complexes (Fig.6A), the EPI-Peptide Designer computed the graph representation of the interfaces (Fig.6B). Then, from the set of graphs, the program computed the amino acid occurrence in the second side (in our study the paratope) and the interaction probability (Fig.6C and Fig.6D). To demonstrate how the EPI-Peptide Designer works, we used the epitope from the PDB structure 1TET that contains the choleric 5 Downloaded from http://bioinformatics.oxfordjournals.org/ at Universidade Federal de Minas Gerais on February 12, 2016 Fig. 4. The bipartite graph representation of the molecular interactions between I2R paratopes and I2R epitopes highlight the strong asymmetric pattern of epitope-paratope interactions. The sphere size of each residue is proportional to the amino acid occurrence in its respective side. The vertex width is proportional to the occurrence of the specific type of interaction; green, hydrogen bonds; blue, hydrophobic interactions; orange, attractive salt bridges; black, repulsive salt bridges; red, aromatic stacking. Only vertices with an occurrence higher than 25 are represented. Downloaded from http://bioinformatics.oxfordjournals.org/ at Universidade Federal de Minas Gerais on February 12, 2016 Downloaded from http://bioinformatics.oxfordjournals.org/ at Universidade Federal de Minas Gerais on February 12, 2016 Viart et al 8 might be useful for proteomic and high-throughput analyses for antigen characterization because they minimize the work to produce antibodies in vivo. Finally, this methodology might guide the development of a new generation of biosensors as well as therapeutic and diagnostic molecules. Funding This research was supported by Coordenaça̋o de Aperfeioamento de Pessoal de Nı́vel Superior, Brazil (CAPES), Fundaça̋o de Amparo a Pesquisa do Estado de Minas Gerais, Brazil (FAPEMIG) and by funds of the Conselho Nacional de Desenvolvimento Cientı́fico e Tecnológico, Brazil (CNPq). REFERENCES Andreatta, M., Lund, O., and Nielsen, M. (2013). Simultaneous alignment and clustering of peptide data using a Gibbs sampling approach. Bioinformatics, 29(1), 8–14. Berman, H. M., Westbrook, J., Feng, Z., Gilliland, G., Bhat, T. N., Weissig, H., Shindyalov, I. N., and Bourne, P. E. (2000). The Protein Data Bank. Nucleic Acids Res., 28(1), 235–242. Burns, V. A., Bobay, B. G., Basso, A., Cavanagh, J., and Melander, C. (2008). Targeting RNA with cysteine-constrained peptides. Bioorg. Med. Chem. Lett., 18(2), 565–567. Chakrabarti, P. and Janin, J. (2002). Dissecting protein-protein recognition sites. Proteins, 47(3), 334–343. Chothia, C. and Janin, J. (1975). Principles of protein-protein recognition. Nature, 256(5520), 705–708. Crooks, G. E., Hon, G., Chandonia, J. M., and Brenner, S. E. (2004). WebLogo: a sequence logo generator. Genome Res., 14(6), 1188–1190. Csardi, G. and Nepusz, T. (2006). The igraph software package for complex network research. InterJournal, Complex Systems, 1695. Dalkas, G. A., Teheux, F., Kwasigroch, J. M., and Rooman, M. (2014). Cation-, amino, -, and H-bond interactions stabilize antigen-antibody interfaces. Proteins, 82(9), 1734–1746. Felicori, L., Araujo, S. C., de Avila, R. A., Sanchez, E. F., Granier, C., Kalapothakis, E., and Chavez-Olortegui, C. (2006). Functional characterization and epitope analysis of a recombinant dermonecrotic protein from Loxosceles intermedia spider. Toxicon, 48(5), 509–519. Fleishman, S. J., Whitehead, T. A., Ekiert, D. C., Dreyfus, C., Corn, J. E., Strauch, E. M., Wilson, I. A., and Baker, D. (2011). Computational design of proteins targeting the conserved stem region of influenza hemagglutinin. Science, 332(6031), 816–821. Fontenot, J. D., Tan, X., and Phillips, D. M. (1998). Structure-based design of peptides that recognize the CD4 binding domain of HIV-1 gp120. AIDS, 12(12), 1413–1418. Fu, L., Niu, B., Zhu, Z., Wu, S., and Li, W. (2012). CD-HIT: accelerated for clustering the next-generation sequencing data. Bioinformatics, 28(23), 3150–3152. Hanf, K. J., Arndt, J. W., Chen, L. L., Jarpe, M., Boriack-Sjodin, P. A., Li, Y., van Vlijmen, H. W., Pepinsky, R. B., Simon, K. J., and Lugovskoy, A. (2013). Antibody humanization by redesign of complementarity-determining region residues proximate to the acceptor framework. Methods. Harris, T. K. and Mildvan, A. S. (1999). High-precision measurement of hydrogen bond lengths in proteins by nuclear magnetic resonance methods. Proteins, 35(3), 275–282. Holliger, P. and Hudson, P. J. (2005). Engineered antibody fragments and the rise of single domains. Nat. Biotechnol., 23(9), 1126–1136. Hudson, P. J. and Souriau, C. (2003). Engineered antibodies. Nat. Med., 9(1), 129–134. Kringelum, J. V., Nielsen, M., Padkjæ r, S. B., and Lund, O. (2012). Structural analysis of B-cell epitopes in antibody:protein complexes. Mol. Immunol., 53(1-2), 24–34. Kunik, V., Peters, B., and Ofran, Y. (2012). Structural consensus among antibodies defines the antigen binding site. PLoS Comput. Biol., 8(2), e1002388. Laune, D., Molina, F., Ferrieres, G., Villard, S., Bes, C., Rieunier, F., Chardes, T., and Granier, C. (2002). Application of the Spot method to the identification of peptides and amino acids from the antibody paratope that contribute to antigen binding. J. Immunol. Methods, 267(1), 53–70. Lo Conte, L., Chothia, C., and Janin, J. (1999). The atomic structure of protein-protein recognition sites. J. Mol. Biol., 285(5), 2177–2198. Mancini, A. L., Higa, R. H., Oliveira, A., Dominiquini, F., Kuser, P. R., Yamagishi, M. E., Togawa, R. C., and Neshich, G. (2004). STING Contacts: a web-based Downloaded from http://bioinformatics.oxfordjournals.org/ at Universidade Federal de Minas Gerais on February 12, 2016 such as the distance between atoms of the antigen and the antibody (DBS) and the difference of solvent-accessible surface (∆SAS). Here, we developed a new method based on the interface molecular contact (I2R) to extract from the Ab-Ag interface only the amino acids that make interactions, using the STING database (Neshich et al., 2006). By comparing the selections obtained using the I2R, DBS and ∆SAS methods, we show that DBS and ∆SAS missed part of the interacting residues that are important for the interface. Indeed, with a distance cut-off of 8Å, 60% of the amino acids that do not interact are selected in addition to the amino acids that do interactions. With a distance cut-off of 4Å, more than 10% of interacting residues are not selected and more than 20% of selected residues are not involved in interactions. The I2R method also allowed studying the type of interactions and gave an approximation of the residue energetic contribution to the interface in a fast and easy way. Moreover, this selection method could be used to select targets for free-energy perturbation (FEP) (Xia et al., 2012), or to identify binding hot-spots to facilitate the humanization of mouse antibodies (Hanf et al., 2013). As previously noted with other selection techniques (Rubinstein et al. (2008); Kringelum et al. (2012); Ramaraj et al. (2012)), we found that the paratope was significantly enriched in Tyr, Ser and Trp residues. However, by comparing the occurrence of the I2R-selected amino acids and of all protein-protein interactions found in the STING database (Neshich et al., 2006), we found that the occurrence of most of the Ab-Ag interface residues was significantly different (but not for Ala, Glu and Phe), thus characterizing the antigen-antibody interface as a special kind of protein-protein interaction. Concerning the extraction of the most frequent partners, we highlighted the importance of the cation-π interaction. Dalkas and colleagues (Dalkas et al., 2014) previously reported that this type of interaction represents only 5% of the Ab-Ag interfaces, whereas in our study 84 of the 101 structures contained at least one cation-π interaction, where the positive charge is hold by the epitope. Moreover, 51 of them contained a double cation-π interaction composed of a positively charged residue in the epitope that interacted with two aromatic amino acids from the paratope. These results suggest that the cation-π interaction is highly conserved interaction in antigenantibody interfaces but with low frequency as showed by Dalkas et al. Besides gaining insights into the antigen-antibody interface characteristics, in this work we also describe a methodology to design peptide binders based on the epitope-paratope interface. In addition, this methodology was experimentally validated showing that 65% of the predicted peptides are reactive. Those peptides contain two consecutive conserved Tyr, a key residue in paratopes. Moreover, those Tyr could interact with hydrophobic amino acids from LiD1 epitope sequence (Phe37, Pro 43, Gly 49, Pro 51) or positively charged residue (Hys 48) via cation-π or even negatively charged residues via hydrogen bond (Asp 38 and Asp 39). The computational design protocol is far from perfect because it does not take into account the antibody structural properties. However, strategies, such as cysteine-constrained peptides, could be employed to mimic antibody loops as shown by Burns et al. and thus force a constrained conformation of our predicted peptides. In conclusion, our study provides insights into the principles that guide Ab-Ag interactions and describes an original methodology (EPI-Peptide Designer) to design ligand peptide libraries, based on a given antigen sequence. These targeted peptide ligand libraries EPI-Peptide Designer Sela-Culang, I., Alon, S., and Ofran, Y. (2012). A systematic comparison of free and bound antibodies reveals binding-related conformational changes. J. Immunol., 189(10), 4890–4899. Smith, T. F., Waterman, M. S., and Fitch, W. M. (1981). Comparative biosequence metrics. J. Mol. Evol., 18(1), 38–46. Sobolev, V., Sorokine, A., Prilusky, J., Abola, E. E., and Edelman, M. (1999). Automated analysis of interatomic contacts in proteins. Bioinformatics, 15(4), 327–332. Swindells, M. B. (1995). A procedure for the automatic determination of hydrophobic cores in protein structures. Protein Sci., 4(1), 93–102. Timmerman, P., Barderas, R., Desmet, J., Altschuh, D., Shochat, S., Hollestelle, M. J., Hoppener, J. W., Monasterio, A., Casal, J. I., and Meloen, R. H. (2009). A combinatorial approach for the design of complementarity-determining regionderived peptidomimetics with in vitro anti-tumoral activity. J. Biol. Chem., 284(49), 34126–34134. Timmerman, P., Shochat, S. G., Desmet, J., Barderas, R., Casal, J. I., Meloen, R. H., and Altschuh, D. (2010). Binding of CDR-derived peptides is mechanistically different from that of high-affinity parental antibodies. J. Mol. Recognit., 23(6), 559–568. Vanhee, P., van der Sloot, A. M., Verschueren, E., Serrano, L., Rousseau, F., and Schymkowitz, J. (2011). Computational design of peptide ligands. Trends Biotechnol., 29(5), 231–239. Vlieghe, P., Lisowski, V., Martinez, J., and Khrestchatisky, M. (2010). Synthetic therapeutic peptides: science and market. Drug Discov. Today, 15(1-2), 40–56. Wada, A. (2013). Development of Next-Generation Peptide Binders Using In vitro Display Technologies and Their Potential Applications. Front Immunol, 4, 224. Xia, Z., Huynh, T., Kang, S. G., and Zhou, R. (2012). Free-energy simulations reveal that both hydrophobic and polar interactions are important for influenza hemagglutinin antibody binding. Biophys. J., 102(6), 1453–1461. Yin, H. and Hamilton, A. D. (2005). Strategies for targeting protein-protein interactions with synthetic agents. Angew. Chem. Int. Ed. Engl., 44(27), 4130–4163. Yin, H., Slusky, J. S., Berger, B. W., Walters, R. S., Vilaire, G., Litvinov, R. I., Lear, J. D., Caputo, G. A., Bennett, J. S., and DeGrado, W. F. (2007). Computational design of peptides that target transmembrane helices. Science, 315(5820), 1817– 1822. 9 Downloaded from http://bioinformatics.oxfordjournals.org/ at Universidade Federal de Minas Gerais on February 12, 2016 application for identification and analysis of amino acid contacts within protein structure and across protein interfaces. Bioinformatics, 20(13), 2145–2147. Margulies, D. and Hamilton, A. D. (2010). Combinatorial protein recognition as an alternative approach to antibody-mimetics. Curr Opin Chem Biol, 14(6), 705–712. Morea, V., Lesk, A. M., and Tramontano, A. (2000). Antibody modeling: implications for engineering and design. Methods, 20(3), 267–279. Nelson, A. L. and ert, J. M. (2009). Development trends for therapeutic antibody fragments. Nat. Biotechnol., 27(4), 331–337. Neshich, G., Mazoni, I., Oliveira, S. R., Yamagishi, M. E., Kuser-Falcao, P. R., Borro, L. C., Morita, D. U., Souza, K. R., Almeida, G. V., Rodrigues, D. N., Jardine, J. G., Togawa, R. C., Mancini, A. L., Higa, R. H., Cruz, S. A., Vieira, F. D., Santos, E. H., Melo, R. C., and Santoro, M. M. (2006). The Star STING server: a multiplatform environment for protein structure analysis. Genet. Mol. Res., 5(4), 717–722. Nijssen, S. and Kok, J. (2004). A quickstart in frequent structure mining can make a difference. proceedings of the sigkdd. Park, B. W., Zhang, H. T., Wu, C., Berezov, A., Zhang, X., Dua, R., Wang, Q., Kao, G., O’Rourke, D. M., Greene, M. I., and Murali, R. (2000). Rationally designed anti-HER2/neu peptide mimetic disables P185HER2/neu tyrosine kinases in vitro and in vivo. Nat. Biotechnol., 18(2), 194–198. Pei, D. and Wavreille, A. S. (2007). Reverse interactomics: decoding protein-protein interactions with combinatorial peptide libraries. Mol Biosyst, 3(8), 536–541. Ponde, D. E., Su, Z., Berezov, A., Zhang, H., Alavi, A., Greene, M. I., and Murali, R. (2011). Development of anti-EGF receptor peptidomimetics (AERP) as tumor imaging agent. Bioorg. Med. Chem. Lett., 21(8), 2550–2553. R Development Core Team (2008). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3900051-07-0. Ramaraj, T., Angel, T., Dratz, E. A., Jesaitis, A. J., and Mumey, B. (2012). Antigenantibody interface properties: composition, residue interactions, and features of 53 non-redundant structures. Biochim. Biophys. Acta, 1824(3), 520–532. Reichert J., Pechon P., T. A. D. M. K. (2010). Report summary: development trends for peptide therapeutics. Pept. Ther. Found., pages 1–11. Rubinstein, N. D., Mayrose, I., Halperin, D., Yekutieli, D., Gershoni, J. M., and Pupko, T. (2008). Computational characterization of B-cell epitopes. Mol. Immunol., 45(12), 3477–3489.