3D-Pharma: Uma Ferramenta para Triagem Virtual Baseada em

Transcrição

3D-Pharma: Uma Ferramenta para Triagem Virtual Baseada em
Bernardo Figuerêdo Domingues
3D-Pharma: Uma Ferramenta para Triagem Virtual
Baseada em Fingerprints de Farmacóforos
Belo Horizonte
28 de outubro de 2013
Bernardo Figuerêdo Domingues
3D-Pharma: Uma Ferramenta para Triagem Virtual
Baseada em Fingerprints de Farmacóforos
Orientador:
Prof. Dr. Júlio César Dias Lopes
U NIVERSIDADE F EDERAL DE M INAS G ERAIS
I NSTITUTO DE C I ÊNCIAS B IOL ÓGICAS
P ROGRAMA DE P ÓS -G RADUAÇ ÃO EM B IOINFORM ÁTICA
Belo Horizonte
28 de outubro de 2013
i
B ERNARDO F IGUER ÊDO D OMINGUES
3D-P HARMA : U MA F ERRAMENTA PARA T RIAGEM V IRTUAL BASEADA EM F INGERPRINTS
DE
FARMAC ÓFOROS
Tese de Doutorado apresentada à Universidade Federal de Minas Gerais, como
parte da exigência do Programa de Pós-Graduação em Bioinformática, do Departamento de Bioquı́mica e Imunologia, para obtenção do tı́tulo de Doutor
Aprovado em:
/
/2012
Prof. Dr. Júlio César Dias Lopes
Departamento de Quı́mica - ICEx - UFMG
Orientador
Prof. Dr. Carlos Henrique da Silveira
Campus Avançado Itabim - UNIFEI
Prof. Dr. Alex Guterres Taranto
Campus Centro-Oeste Dona Lindu - UFSJ
ii
Prof. Dr. Antônio Flávio de Carvalho
Alcântara
Departamento de Quı́mica - ICEx - UFMG
Prof. Dr. Wagner Meira Junior
Departamento de Ciência da Computação ICEx - UFMG
iii
Dedicatória
Dedico este trabalho a todos cuja companhia tive de sacrificar por causa do mesmo. Principalmente, dedico aos meus pais, Paulo e Minervina, por todo o apoio. À Priscila, pela paciência,
companheirismo e ao enorme carinho e amor. E aos amigos do DCC, da Grad022 e dos Cotonetes, a quem estou devendo horas e horas de companhia, cerveja e papos jogado fora.
iv
Agradecimentos
Primeiramente devo agradecer a agora Professora Dra. Raquel Cardoso que, a época uma
aluna deste mesmo programa, me mostrou como aplicar a Ciência da Computação em áreas aparentemente não-afins. Ao Prof. Dr. Júlio Lopes, que me acolheu no Departamento de Quı́mica
e no seu laboratório, e teve a paciência de me reensinar e ampliar os conceitos que residiam no
meu Ensino Médio. Aos professores Glória, Miguel, Glaura, Wagner, Marcelo e Gisele, pelos
conhecimentos extras adquiridos durante o curso. Aos colegas do NEQUIM: Andrelly, Ramon,
Fábio, Moema, Sérgio, Julio Rodriguez e Eduardo; e aos alunos que por lá passaram: Henrique,
Kellen, Pedro e Marcos. A todos agradeço as discussões, insights e distrações durante esses anos.
Agradeço aos colegas da Bioinformática: Ricardo, Wagner, Valdete, Douglas, Bráulio, Calouro,
Raquel, Cris e Chico e principalmente ao meu grande amigo Deive, a quem devo várias e várias
discussões (e cafés) sobre o trabalho de ambos. Aos amigos e colegas do DCC, especialmente ao
Fabiano Botelho, por ter me “emprestado”a CMPH e ao Pedro Calais, pelas inúmeras revisões,
cafés e insights.
v
“Every year is getting shorter
Never seem to find the time
Plans that either come to naught
Or half a page of scribbled lines”
Pink Floyd - Time (D. Gilmour / R. Waters / N. Mason / R. Wright)
vi
Resumo
A indústria farmacêutica vive uma crise sem precedentes, cuja causa pode ser atribuı́da à
queda vertiginosa de descobertas e registros de novas entidades moleculares, agravada pela proximidade da expiração de patentes altamente lucrativas e aos custos crescentes associados à pesquisa e desenvolvimento. Uma possı́vel saı́da encontra-se em inovações no processo de descoberta de fármacos, nas quais a Bioinformática e a Quimioinformática têm um papel essencial
na seleção e desenvolvimento racional de compostos candidatos a fármaco antes dos custosos
testes clı́nicos. Neste contexto, uma das técnicas computacionais centrais ao Projeto Racional de
Fármacos é a Triagem Virtual, que aplica técnicas in silico para a descoberta de novos compostos
bioativos. A triagem virtual baseada em ligantes, que usa apenas a estrutura de compostos que
possuem atividade previamente conhecida, é uma das mais utilizadas. Este trabalho visa apresentar o 3D-Pharma, um método de triagem virtual baseado na estrutura de ligantes ativos, que usa a
informação derivada de caracterı́sticas farmacofóricas dos átomos das moléculas, codificadas em
vetores binários, para construir modelos simples e preditivos. No 3D-Pharma, as moléculas são
descritas por representações que consideram múltiplos tautômeros com seus respectivos estados
de protonação e múltiplas conformações (abordagem Multi-Espécie Multi-Modo). Propriedades farmacofóricas são atribuı́das a pontos que correspondem à interação potencial dos átomos
pesados de cada representação. Estes pontos são agrupados em arranjos de três pontos pelo 3DPharma. O conjunto destes tripletes de farmacóforo é codificado em uma fingerprint, um vetor
que determina a presença ou ausência de cada configuração de três pontos em uma molécula.
Todas as representações são unificadas em um único vetor, e o conjunto de vetores de compostos ativos são usados para a construção os modelos, os quais são validados internamente através
de um novo protocolo exaustivo de validação cruzada. Os estudos de validação externa mostram o alto poder de predição dos modelos produzidos pelo 3D-Pharma para dez conjuntos de
compostos ativos e inativos oriundos do DUD (Directory of Useful Decoys). Uma análise de
performance entre o 3D-Pharma e outros sete métodos disponı́veis na literatura mostrou que
este apresenta melhores resultados quanto à acurácia, reconhecimento precoce e recuperação de
vii
diversidade estrutural.
viii
Abstract
The pharmaceutical industry is going through a crisis of unheard proportions. Its cause can
be related to the abrupt fall of new molecular entities approval by regulatory agencies, aggravated
by the proximity of the expiration date of highly profitable classes of patented compounds and
the increasing aggregated cost of drug design. The innovation on the drug discovery process may
be one way out of this situation, and Bioinformatics and Chemoinformatics have a pivotal role
on selection and rational design of drug candidates, looking for elimination of non-promising
substances from the discovery pipeline before the highly costly clinical trials. In this context,
Virtual Screening is regarded as a invaluable asset in rational drug design. Ligand-Based Virtual
Screening is one of the oldest and most utilized techniques used in computer-aided molecular
design, since chemical data is readily and widely available. Nevertheless, this work presents 3DPharma, a new Ligand-Based Virtual Screening method that uses fingerprints of pharmacophore
triplets at atomic resolutions to build very simple and predictive models. Within 3D-Pharma the
molecules are described by multiple representations that comprehend several prototropic species
and conformations (multiple species, multiple mode approach). Pharmacophoric features are
assigned to points that share spacial coordinates and interaction properties to heavy atoms of
each molecular representation. All possible three-point pharmacophores of each representation
of a moloceule are indexed in a fingerprint, and the multiple representations of a compound are
concatenated into a unique fingerprint that accounts for most of its chemical and conformational
diversity. The biological activity of an ensemble of active molecules are represented by a single
modal fingerprint or model, validated through a new exhaustive 10-fold cross-validation scheme,
which improves robustness and internal consistency of the models, as well as its predictive power.
Retrospective validation studies were made with 10 datasets of active compounds and decoys
gathered from the DUD database. They show the high predictive power of the models built by
3D-Pharma from three external and independent datasets of bioactive compounds (Drugs, PDB
Ligands and WOMBAT), which was compared against seven state-of-the-art LBVS methods.
We concluded that 3D-Pharma overperforms all other state-of-the-art LBVS tools analyzed, in
ix
terms of global accuracy as well as scaffold hopping and early recovery capacities. Furthermore,
the models produced by 3D-Pharma are simple, robust, consistent and predictive.
x
Lista de Figuras
1.1
Probabilidade de um candidato a fármaco chegar ao mercado dada a fase do
desenvolvimento em que o mesmo se encontra. Nota-se a queda constante
através dos anos nas Fases I (Toxicologia) e II (Eficiência). Adaptada de (1) .
1.2
p. 2
As etapas de desenvolvimento e otimização de um novo candidato a fármaco
antes das fases clı́nicas. À medida que se completam as etapas, o número
de compostos candidatos diminui, até chegar em uma única substância a ser
submetida a testes in vivo. Entretanto, o custo agregado de desenvolvimento
cresce ao longo do fluxo de trabalho. Adaptada de (4) . . . . . . . . . . . .
1.3
O papel da triagem virtual para a identificação de moléculas bioativas no fluxo
de desenvolvimento de compostos-protótipo. Adaptada de (6) . . . . . . . .
1.4
p. 3
p. 6
Classificação dos descritores usados para representar compostos em métodos
de triagem virtual de acordo com o número de dimensões da estrutura molecular. Adaptada de (8) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5
Diferentes representações de uma molécula que podem ser usadas por algoritmos baseados em similaridade. Adaptada de (8) . . . . . . . . . . . . . . . .
1.6
p. 8
p. 9
Principais abordagens em triagem virtual baseadas em aprendizado de máquina:
a) Esquematização do funcionamento de um algoritmo baseado em SVM.
As margens do hiperplano (aqui representado em duas dimensões) otimiza a
separação entre ativos e inativos. b) Métodos Bayesianos: o Teorema de Bayes
é usado para obter a probabilidade de atividade condicionadas aos descritores
c) Árvores de Decisão. Folhas vermelhas identificam ativos, ao contrário de
folhas azuis, que identificam inativos. O caminho destacado em vermelho foi
calculado para a molécula exemplo. Adaptada de (75) . . . . . . . . . . . .
p. 12
xi
1.7
O Farmacóforo Muscarı́nico, segundo Kier (99, 100) - o primeiro modelo farmacofórico proposto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.8
p. 19
Um exemplo de uma hipótese farmacofórica construı́da pelo LigandScout (108),
da Inte:Ligand. Três inibidores de Cinase Dependente de Ciclina 2 (CDK2)
(identificados no PDB como LS2, LS3 e LS4), na conformação apresentada
em estruturas cristalizadas depositadas no PDB (identificadores 1KE6, 1KE7 e
1KE8, respectivamente) foram usados para gerar um modelo de farmacóforos,
contendo seis pontos de interação potencial, sendo duas regiões aromáticas
(esferas amarelas), dois receptores de pontes de hidrogênio (esferas e vetores
vermelhos) e dois doadores de hidrogênio (esferas e vetores verdes). Retirado
de (102) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.9
p. 22
Como calcular fingerprints de farmacóforos: cada ponto potencial de interação
é associado a um tipo fı́sico-quı́mico (Aceptor de hidrogênio, Doador de Hidrogênio, Positivamente ou Negativamente carregado, aRomático e Hidrofóbico)
. As tuplas são formadas dependendo da aplicação (pares, triângulos ou tetraedros). Cada representação é então identificada no vetor binário, que armazena
a informação de presença (1) ou ausência (0) daquela configuração especı́fica
p. 25
1.10 Fluxo de trabalho proposto por Tropsha et al. (131, 134) para produção de modelos validados em QSAR, generalizado para qualquer aplicação que produza
modelos preditivos usados em triagem virtual. . . . . . . . . . . . . . . . . .
p. 28
1.11 Um exemplo da aplicação do FLAP para geração de PPPs a partir da estrutura
de um ligante: MIFs são calculados ao redor da estrutura usando o GRID e
são condensados em PPPs. Todos os arranjos de quatro pontos são considerados, gerando grupos codificados em fingerprints. O procedimento é repetido
para todas as conformações previamente geradas por um método estocástico.
Retirado de (162) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 33
xii
1.12 Representação esquemática os passos envolvidos na busca por similaridade em
uma base de dados tratada pelo FieldScreen: a) Uma molécula ativa é selecionada como referência e a sua conformação “relevante”é calculada. b) Pontos
de mı́nimo local são calculados e utilizados na representação da molécula referência. c) Uma busca em uma base de compostos que receberam o mesmo
tratamento é realizada, usando os pontos de mı́nimo para alinhar moléculas
similares d) Recuperação dos compostos com melhor alinhamento, quantificado através de um escore de similaridade molecular. A base de dados
do FieldScreen é populada (e) pela exploração conformacional de todas as
moléculas, com os pontos de mı́nimo adicionados e armazenados junto com
as conformações. Retirada de (48) . . . . . . . . . . . . . . . . . . . . . . .
p. 35
1.13 Um conjunto de alinhamentos múltiplos gerados pelo PharmaGist para um
conjunto de ligantes da Aldose Redutase (ALR2). Os farmacóforos em comum
apresentados por cada alinhamento múltiplo são ponderados de acordo com
o número de compostos que apresentam os mesmos em cada alinahmento.
Retirado de (118). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 37
1.14 Fluxo do algoritmo usado pelo JPS para realizar a classificação molecular de
atividade biológica. Os triângulos formados por PPPs são extraı́dos dos dados
de treinamento (contendo compostos ativos e inativos) e são agrupados através
do algoritmo k-medóide. Os aglomerados têm sua significância estatı́stica determinada e seus farmacóforos centrais são usados para gerar um modelo de
classificação baseado em SVM, que podem ser usados para determinar a atividade de uma nova molécula. Retirado de (130) . . . . . . . . . . . . . . . .
p. 38
1.15 Representação esquemática do fluxo de trabalho do SHAFTS para triagem
virtual: (A) Seleção de um composto ativo covertido a uma conformação especı́fica e adição dos PPPs como referência. (B) Busca na base de dados sobrepondo cada estrutura à referência usando a indexação por tabela hash. (C)
O resultado da busca é ordenado de acordo com a similaridade hı́brida, e os
alinhamentos resultantes são fornecidos como saı́da. Retirado de (50). . . . .
p. 39
1.16 Os três modelos de volume suportados pelo Phase Shape. Retirado de (51). .
p. 40
xiii
3.1
Efeito do tratamento das estruturas moleculares na geração de farmacóforos
no 3D-Pharma. O aminoácido Histidina foi selecionado como exemplo e todas as estruturas estão representadas em 2D para melhor visualização. a) A
representação em formato SMILES da Histidina. b) As estruturas dos dois
tautômeros dominantes da Histidina, mostrando a troca do hidrogênio entre os
dois átomos de nitrogênio no anel imidazólico. c) As estruturas das microespécies dominantes (protômeros) de cada tautômero da Histidina em pH 7.
Duas conformações hipotéticas são representadas para cada protômero, considerando apenas a rotação do anel imidazólico. O triângulo de PPPs formado
por um dos átomos de oxigênio carregados negativamente no grupo carboxila
(N), o nitrogênio-α carregado positivamente (P), e o átomo de nitrogênio no
anel imidazólico, o qual faz o papel de doador de hidrogênio (D). O mesmo
triângulo é representado nas outras três conformações. d) Os triângulos farmacofóricos de cada conformação são convertidos em caracteres alfanuméricos.
“PND”representa a trinca formada pelos farmacóforos: Positivamente carregado, Negativamente carregado e Doador de hidrogênio. Os números após os
caracteres representam as distâncias discretizadas entre os átomos (ver Figura
3.2). e) O farmacóforo triplete indexado pela função hash. f) A representação
hı́brida hipotética do farmacóforo PND da Histidina codificado pela fingerprint do 3D-Pharma. Todos os farmacóforos triplete detectados em todas as
conformações são igualmente considerados. . . . . . . . . . . . . . . . . . .
3.2
p. 47
Exemplo de conversão de um triângulo formado por PPPs em uma string de
seis caracteres. Cada par de PPP tem suas distâncias discretizadas e os centros
são ordenados de acordo com essas distâncias de maneira a formar sempre
uma string que identifica univocamente o triplete . . . . . . . . . . . . . . .
p. 49
xiv
3.3
Fluxograma do processo de construção e validação interna de modelos usando
Validação Cruzada 10-fold. Primeiramente, uma partição (correspondente a
aproximadamente 10% das moléculas ativas) é separada como grupo Teste, enquanto as outras nove partições são distribuı́das entre grupos Treino e Avaliação.
Dos 84 modelos produzidos, apenas dez são selecionados, de acordo com o valor da similaridade média entre o modelo e seu respectivo Grupo de Avaliação.
Finalmente, estes dez modelos são validados, tentando recuperar as moléculas
do grupo Teste dentre um conjunto de moléculas inativas. Apenas o modelo
com o melhor desempenho é mantido. O processo então se repete para as
outras nove partições, totalizando dez modelos finais. . . . . . . . . . . . . .
4.1
A relação linear (r2 = 0, 975) entre o tamanho dos vetores envolvidos na comparação
e o tempo de processamento da mesma. . . . . . . . . . . . . . . . . . . . .
4.2
p. 51
p. 59
Variação dos valores de AUCROC média da validação interna (usando o grupo
teste) e externa (usando o DUD-Ativos) à medida que as conformações mais
dissimilares aos modelos são retiradas da análise. Em sentido horário, começando
do canto superior esquerdo: Parents DUD, Fármacos, Ligantes-PDB e WOMBAT. Nota-se que a AUC média da validação externa praticamente se mantém
inalterada, com uma fraca tendência a diminuir, enquanto que a AUC média
da validação interna tende a melhorar (exceto para o conjunto Parents DUD,
onde os valores de AUC da validação interna também se mantêm). . . . . . .
4.3
p. 61
Histogramas de frequência de AUCROC para a validação por bootstrap do 3DPharma separados pelo método de distribuição dos compostos pelos dez grupos do protocolo de validação cruzada 10-fold. Acima, AUCs referentes à
distribuição aleatória (em vermelho) e abaixo AUCs referentes à distribuição
sistemática (Validação cruzada estratificada, em azul). Os dois métodos têm
uma distribuição de AUC parecida, entretanto o método aleatório apresenta
um pico de AUC entre 0,96 e 1,00, enquanto o método sistemático apresenta
dois picos nos intervalos 0, 84 − 0, 88 e 0, 92 − 0, 96. Além disso, um método
aleatório apresentou uma distribuição de AUC um pouco mais uniforme do
que o método sistemático. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 63
xv
4.4
Fármacos em testes clı́nicos inibidores da Aldose Redutase: Epalrestat e Sulindac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5
p. 68
Curvas ROC linear e em escala logarı́tmica comparativas entre as três bases de
dados usadas pelo 3D-Pharma e o desempenho do 4D FAPOA para a Aldose
Redutase. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.6
p. 69
Fármacos com ação antagonista para o Receptor de Androgênio, voltados ao
tratamento de câncer de próstata: Bicalutamida (Casodex), Flutamida (Eulexin) e Nilutamida (Anandron) . . . . . . . . . . . . . . . . . . . . . . . . .
4.7
p. 71
Curvas ROC linear e em escala logarı́tmica comparativas entre as três bases de
dados usadas pelo 3D-Pharma e o desempenho do 4D FAPOA para o Receptor
de Androgênio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.8
p. 72
Fármacos usados no controle de Diabetes tipo II que têm como alvo o Receptor
γ Ativado por Proliferador de Peroxissomo. Sua ação consiste em aumentar
a sensibilidade à insulina nos tecidos muscular esquelético e adiposo: Troglitazone, retirado do mercado pelo risco de hepatotoxicidade e substituı́do por
Rosiglitazone (Avandia) e Pioglitazone (Actos) . . . . . . . . . . . . . . . .
4.9
p. 75
Curvas ROC linear e em escala logarı́tmica comparativas entre as três bases de
dados usadas pelo 3D-Pharma e o desempenho do 4D FAPOA para o Receptor
γ Ativado por Proliferador de Peroxissomo . . . . . . . . . . . . . . . . . . .
p. 76
4.10 Compostos em testes clı́nicos que têm a CDK2 como alvo terapêutico: Flavopiridol, Purvalanol e Staurosporina . . . . . . . . . . . . . . . . . . . . . . .
p. 79
4.11 Curvas ROC linear e em escala logarı́tmica comparativas entre as três bases de
dados usadas pelo 3D-Pharma e o desempenho dos outros métodos de triagem
virtual para a Cinase dependente de Ciclina 2 . . . . . . . . . . . . . . . . .
p. 80
4.12 Compostos coxib, que apresentam inibição seletiva para COX-2: Celecoxib
(Celebra), Etoricoxib (Arcoxia), Lumiracoxib (Prexige), Rofecoxib (Vioxx) e
Valdecoxib (Bextra) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 83
xvi
4.13 Curvas ROC linear e em escala logarı́tmica comparativas entre as três bases de
dados usadas pelo 3D-Pharma e o desempenho dos outros métodos de triagem
virtual para a Ciclooxigenase-2 . . . . . . . . . . . . . . . . . . . . . . . . .
p. 84
4.14 Fármacos usados em quimioterapias para tratamento de câncers sólidos, como
os de pulmão, pâncreas e mamário, que têm como alvo o Receptor de Fator
de Crescimento Epidérmico: Erlotinib (Tarceva), Gefitinib (Iressa) e Lapatinib
(Tycerb) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 87
4.15 Curvas ROC linear e em escala logarı́tmica comparativas entre as três bases de
dados usadas pelo 3D-Pharma e o desempenho dos outros métodos de triagem
virtual para o Receptor de Fator de Crescimento Epidérmico . . . . . . . . .
p. 88
4.16 A estrutura do Rivaroxaban, o primeiro fármaco comercializado que inibe diretamente o Fator de Coagulação Xα. . . . . . . . . . . . . . . . . . . . . .
p. 91
4.17 Curvas ROC linear e em escala logarı́tmica comparativas entre as três bases de
dados usadas pelo 3D-Pharma e o desempenho dos outros métodos de triagem
virtual para o Fator de Coagulação Xα . . . . . . . . . . . . . . . . . . . . .
p. 92
4.18 Inibidores não-competitivos (Não-nucleosı́deos) de Transcriptase Reversa de
HIV-1, usados no tratamento de infecções por HIV-1: Delavirdina, Efavirenz
e Nevirapina. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 95
4.19 Curvas ROC linear e em escala logarı́tmica comparativas entre as três bases de
dados usadas pelo 3D-Pharma e o desempenho dos outros métodos de triagem
virtual para a Transcriptase Reversa de HIV-1 . . . . . . . . . . . . . . . . .
p. 96
4.20 Candidatos a fármacos para a modulação da Cinase Protéica 14 Ativada por
Mitogênio: Losmapimod (Fase Clı́nica II para tratamento de DCOP, Depressão
e doenças cardiovasculares), Dilmapimod (Fase Clı́nica I para SARA) e Ozagrel (Fase Clı́nica I para DCOP) . . . . . . . . . . . . . . . . . . . . . . . .
p. 98
4.21 Curvas ROC linear e em escala logarı́tmica comparativas entre as três bases de
dados usadas pelo 3D-Pharma e o desempenho dos outros métodos de triagem
virtual para a Cinase Protéica 14 Ativada por Mitogênio . . . . . . . . . . . .
p. 99
xvii
4.22 Fármacos com alta seletividade para a Fosfodiesterase V, indicados para homens com disfunção erétil: Sildenafil (Viagra), Vardenafil (Levitra) e Tadalafil
(Cialis) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 102
4.23 Curvas ROC linear e em escala logarı́tmica comparativas entre as três bases de
dados usadas pelo 3D-Pharma e o desempenho dos outros métodos de triagem
virtual para a Fosfodiesterase V . . . . . . . . . . . . . . . . . . . . . . . . p. 103
4.24 AUCROC e AUCawROC médias para cada método. As médias do 3D-Pharma
e do 4D FAPOA foram calculadas sobre os dez conjuntos de dados usados na
validação externa, enquanto que a média das demais técnicas foram calculadas
sobre os sete sistemas com alta diversidade estrutural. É possı́vel perceber
que os métodos 3D-Pharma e FLAP têm um alto desempenho, com AUCsROC
médias acima de 0.8, seguidos pelo 4D FAPOA , com média acima de 0.7. As
demais técnicas obtiveram médias inferiores. . . . . . . . . . . . . . . . . . p. 107
4.25 BEDROCα médio por método, para os três valores de α (160.9, 32.2 e 20).
O 3D-Pharma WOMBAT tem o melhor desempenho médio ao se considerar o
reconhecimento precoce, seguido pelo FLAP LBopt e os outros conjuntos de
compostos ativos usados pelo 3D-Pharma. O FLAP LBt Pareto R, apesar do
excelente desempenho geral, tem um decepcionante reconhecimento imediato,
principalmente nos cortes mais restritivos. . . . . . . . . . . . . . . . . . . . p. 109
4.26 O efeito do tamanho do conjunto de substâncias ativas no desempenho do 3DPharma. Dos nove conjuntos de modelos provenientes de grupos formados por
menos de 13 compostos ativos, nenhum obteve AUCROC acima de 0.9. Já dos
21 conjuntos de modelos gerados a partir de grupo de dados formados por 13
compostos ou mais, dois terços obtiveram valores de AUCROC acima de 0.9. . p. 111
xviii
Lista de Tabelas
3.1
Intervalos de discretização de distâncias entre pontos . . . . . . . . . . . . .
4.1
Número de substâncias dos conjuntos de dados associados aos alvos do DUD
p. 48
selecionados para o estudo de validação externa do 3D-Pharma, além do número
de classes estruturais dos compostos ativos do DUD para cada conjunto. . . .
4.2
p. 55
Resultados da avaliação do impacto dos valores de corte τ e υ sobre o poder
preditivo dos modelos em uma versão anterior do 3D-Pharma. Na versão atual,
um único corte é usado. Considerando que υ = 0, 0 rendeu o pior resultado,
foi decidido que o valor padrão do corte único (τ=0,7) seria mais restritivo do
que o ótimo encontrado anteriormente. . . . . . . . . . . . . . . . . . . . . .
4.3
p. 56
Tempo de processamento para a comparação entre fingerprints de moléculas
e modelos usando o 3D-Pharma, detalhado para quatro alvos do DUD. Os
experimentos foram realizados em um servidor Linux Ubuntu 9.04 com dois
processadores Intel Xeon 2,33 GHz e 2GB de memória, com quatro núcleos
cada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 57
xix
4.4
Tabela comparativa entre o tempo de processamento de comparação e busca
por similaridade por composto. A média dos tempos mensurados para o 3DPharma, tanto em comparações molécula versus molécula quanto as comparações
modelo versus molécula, está bem abaixo dos tempos apresentados por outras
técnicas em LBVS. Além disso, a variância dos tempos mensurados para as
comparações modelo versus molécula é muito menor quando comparada à
variância das comparações entre moléculas, o que é esperado devido à grande
variabilidade de tamanho entre diferentes moléculas. Entretanto, como o 3DPharma usa dez modelos na busca, o tempo de comparação médio em uma
aplicação tı́pica de triagem virtual deve ser multiplicada por dez, equiparando
o tempo médio de comparação, em termos de ordem de grandeza, com o tempo
apresentado pelo ROCS. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5
p. 58
Resultados da análise de variância dos dados do bootstrap. Observa-se que
boa parte da variância dos valores de AUC no bootstrap provém dos diferentes
alvos e diferentes conjuntos de dados utilizados, sendo necessário uma análise
mais especı́fica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.6
p. 64
Valores de testes T-Student entre as séries de AUCsROC geradas pelo bootstrap para cada conjunto de dados associados aos alvos da Tabela 4.1 sem
diferenciação dos conjuntos de dados de compostos ativos (Global) e considerando cada conjunto de dados separadamente. Os conjuntos de dados que
contém menos de 12 compostos ativos não foram considerados e são marcados
na tabela pelo valor “N/A”. . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.7
p. 65
Valores de AUCROC média ao se aplicar um dos métodos de distribuição de
compostos entre os grupos de validação cruzada nas situações em que o mesmo
método tem o melhor desempenho e nas situações em que o método não é o
mais indicado.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 65
xx
4.8
Desempenho dos métodos em triagem virtual para a Aldose Redutase, usando
os dados do DUD para validação Externa. O 3D-Pharma usando os LigantesPDB como referência teve melhor reconhecimento precoce, apesar dos modelos provindos das moléculas do WOMBAT terem a melhor taxa de recuperação
em geral. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.9
p. 70
Desempenho dos métodos em triagem virtual para o Receptor de Androgênio,
usando os dados do DUD para validação Externa. 3D-Pharma e 4D FAPOA tiveram desempenho próximos quando se analisa somente os dados de AUCROC ,
mas o método de Jahn et al. tem capacidade reduzida de reconhecimento precoce e de amostragem de diversidade estrutural. . . . . . . . . . . . . . . . .
p. 73
4.10 Desempenho dos métodos em triagem virtual para o Receptor γ Ativado por
Proliferador de Peroxissomo, usando os dados do DUD para validação Externa. Devido à disparidade entre os números de DUD-Ativos e DUD-Decoys,
os dados de BEDROC não são confiáveis para determinar o desempenho do
modelo. Assim mesmo, o 3D-Pharma usando o WOMBAT obteve os melhores
resultados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 77
4.11 Desempenho dos métodos em triagem virtual para a Cinase dependente de
Ciclina 2, usando os dados do DUD para validação Externa. O FLAP LBt
Pareto R teve desempenho similar ao 3D-Pharma quando se analisa a acurácia
e a amostragem de diversidade estrutural, mas a técnica têm uma capacidade
de reconhecimento imediato mediana. . . . . . . . . . . . . . . . . . . . . .
p. 81
4.12 Desempenho dos métodos em triagem virtual para a Ciclooxigenase-2, usando
os dados do DUD para validação Externa. Todas as técnicas têm desempenhos
parecidos, com exceção do 3D-Pharma PDB. Entretanto, o melhor desempenho é atingida pelo 3D-Pharma usando os Fármacos e os compostos ativos do
WOMBAT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 85
4.13 Desempenho dos métodos em triagem virtual para o Receptor de Fator de
Crescimento Epidérmico, usando os dados do DUD para validação Externa.
O 3D-Pharma não teve bom desempenho para este conjunto de dados, sendo
ofuscado pelo excelente desempenho do 4D FAPOA . . . . . . . . . . . . . .
p. 89
xxi
4.14 Desempenho dos métodos em triagem virtual para o Fator de Coagulação Xα,
usando os dados do DUD para validação Externa. O 3D-Pharma WOMBAT
teve uma recuperação de compostos ativos perfeita, com AUCROC = 1.00. Outro destaque deve ser feito ao 3D-Pharma Fármacos, que com somente cinco
moléculas de referência, conseguiu uma AUCawROC = 0.96. . . . . . . . . .
p. 93
4.15 Desempenho dos métodos em triagem virtual para o Transcriptase Reversa de
HIV-1, usando os dados do DUD para validação Externa. Mesmo com apenas
quatro compostos, o conjunto Fármacos conseguiu bons modelos, mas os modelos baseados nos Ligantes-PDB e nas moléculas do WOMBAT tiveram um
desempenho superior às outras técnicas. . . . . . . . . . . . . . . . . . . . .
p. 97
4.16 Desempenho dos métodos em triagem virtual para a Cinase Protéica 14 Ativada por Mitogênio, usando os dados do DUD para validação Externa. O
3D-Pharma obterve o melhor desempenho, exceto para os Ligantes-PDB. Entretanto, o FLAP LBopt obteve o melhor reconhecimento precoce a 1%, como
mostra seu escore BEDROC160.9 . . . . . . . . . . . . . . . . . . . . . . . . . p. 100
4.17 Desempenho dos métodos em triagem virtual para a Fosfodiesterase V, usando
os dados do DUD para validação Externa. O 3D-Pharma WOMBAT obteve o
melhor desempenho, com AUCROC ≈ 1.00, enquanto os outros conjuntos de
dados obtiveram desempenhos bem piores. . . . . . . . . . . . . . . . . . . . p. 104
xxii
Lista de Sı́mbolos e Abreviações
2SHA
Two-Step Hierarchical Assignment
4D FAPOA
4D Flexible Atom Pairs (Optimal Assignment)
ADMET
Absorção, Distribuição, Metabolismo, Excreção e Toxicidade
ALR2
Aldose Redutase
AMPc
Adenosina Monofosfato Cı́clico
ANN
Arificial Neural Networks
ANVISA
Agência Nacional de Vigilância Sanitária
AR
Receptor de Androgênio
AT III
Anti-Trombina III
ATP
Adenosina Tri-Fosfato
AUC
Area Under Curve
awROC
Arithmetic Weighted ROC
BEDROC
Boltzmann-Enhanced Discrimination of ROC
CCG
Chemical Computing Group
CDK2
Ciclina Dependente de Cinase 2
cDNA
DNA Complementar
CMPH
C Minimal Perfect Hash
CoMFA
Comparative Molecular Field Analysis
COX-2
Ciclooxigenase-2
Da
Dalton
DCOP
Doença Pulmonar Obstrutiva Crônica
DNA
Ácido Desoxirribonucléico
dp
Desvio Padrão
DUD
Directory of Useful Decoys
EF
Enrichment Factor
xxiii
EGFR
Receptor de Fator de Crescimento Epidérmico
EM
Expectation-Maximization
FDA
Food and Drug Administration
FLAP
Fingerprints for Ligands And Proteins
FV
Fonte de Variância
FXα
Fator de Coagulação X α
g.l.
Graus de Liberdade
GB
Gigabyte
GHz
Gigahertz
GMM
Modelo de Mistura de Gaussianas
GMPc
Guanosina Monofosfato Cı́clico
HIV
Vı́rus da Imunodeficiência Humana
HIVRT
Transcriptase Reversa de HIV-1
HTS
High Throughput Screening
hwROC
Harmonic Weighted ROC
IUPAC
International Union of Pure and Applied Chemistry
JPS
Joint Pharmacophore Space
kcal/mol
Quilocalorias por mol
kNN
K-Nearest Neighbours
LBVS
Ligand-Based Virtual Screening
LMCS
Low-mode Conformational Sampling
logP
Coeficiente de Partição (Logaritmo)
LOO
Leave One Out
MAPK14 Cinase Protéica Ativada por Mitogênio 14
MDDR
MDL Drug Data Report
MIF
Molecular Interaction Field
MLR
Multiple Linear Regression
MOE
Molecular Operating Environmentmoe
MS-MM
Multi-Species Multi-Mode
MUV
Maximum Unbiased Validation
OA
Optimal Assignment
xxiv
OAAP
Optimal Local Atom Pair Environment Assignment
OAK
Optimal-Assignment Kernel
P38
Cinase Protéica Ativada por Mitogênio 14
PDB
Protein Data Bank
PDE5
Fosfodiesterase V
PLS
Partial Least Squares
PPARγ
Receptor Ativado por Proliferador de Peroxissomo γ
PPP
Potential Pharmacophore Points
QSAR
Quantitative Structure-Activity Relationship
REA
Relação Estrutura-Atividade
REF
Relative Enrichment Factor
RES
Relação Estrutura-Seletividade
RMSD
Root Mean Square Distance
RNA
Ácido Ribonucléico
ROC
Receiver-Operator Characteristic
s
Segundo
SAR
Structure-Activity Relation
SARA
Sı́ndrome da Angústia Respiratória do Adulto
SOS
Self-Organizing Superimposition
SPE
Stochastic Proximity Embedding
SQ
Soma dos Quadrados
SVM
Support Vector Machines
TBVS
Target-Based Virtual Screening
TCG
TrixX Conformer Generator
TTD
Therapeutic Targets Database
VS
Virtual Screening
WOMBAT World Of Molecular BioAcTivity
xxv
Sumário
1
Introdução
p. 1
1.1
Descoberta Racional de Fármacos e a Quimioinformática . . . . . . . . . . .
p. 1
1.2
Triagem Virtual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 5
1.2.1
Classificação de Técnicas de Triagem Virtual Baseadas em Ligante .
p. 7
1.2.2
Critérios de Avaliação de Desempenho em Triagem Virtual . . . . . .
p. 14
Farmacóforos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 16
1.3.1
Conceito e Perspectiva Histórica . . . . . . . . . . . . . . . . . . . .
p. 17
1.3.2
Farmacóforos em Quimioinformática . . . . . . . . . . . . . . . . .
p. 20
1.3.3
Farmacóforos codificados em vetores binários . . . . . . . . . . . . .
p. 23
1.4
Validação de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 26
1.5
Tratamento de Estruturas Moleculares . . . . . . . . . . . . . . . . . . . . .
p. 28
1.6
O Estado da Arte em Triagem Virtual Baseada na Estrutura de Ligantes . . .
p. 32
1.6.1
Metodologias LBVS baseadas em similaridade e/ou alinhamento . . .
p. 32
1.6.2
Uma Metodologia LBVS baseada em Aprendizado de Máquina . . .
p. 36
1.6.3
Metodologias LBVS baseadas em superposição de volume . . . . . .
p. 37
1.6.4
Bases de Dados para Estudos Retrospectivos Comparativos . . . . . .
p. 39
1.3
2
Objetivos
p. 43
2.1
p. 43
Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xxvi
2.2
3
4
p. 43
Metodologia
p. 44
3.1
Tratamento das Estruturas Moleculares . . . . . . . . . . . . . . . . . . . . .
p. 44
3.2
Mapeamento Farmacofórico . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 46
3.3
Construção de Fingerprints . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 48
3.4
Geração e Validação dos Modelos . . . . . . . . . . . . . . . . . . . . . . .
p. 49
Resultados e Discussão
p. 53
4.1
Bases de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 53
4.2
Experimentos Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 54
4.2.1
Valores de Corte da Modelagem . . . . . . . . . . . . . . . . . . . .
p. 54
4.2.2
Tempo de processamento das comparações moleculares . . . . . . .
p. 56
4.2.3
Análise do impacto do número de conformações no poder preditivo do
4.3
5
Objetivos Especı́ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 60
Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 62
4.3.1
Validação por bootstrap . . . . . . . . . . . . . . . . . . . . . . . .
p. 62
4.3.2
Validação Externa . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 66
Conclusões
p. 112
Referências Bibliográficas
p. 113
Artigo: Journal of Chemical Information and Modeling
p. 129
1
1
Introdução
1.1
Descoberta Racional de Fármacos e a Quimioinformática
A indústria farmacêutica passa por um momento de mudanças. Ao se analisar o perı́odo
entre 2001 e 2011, vê-se que, apesar do aumento da receita das maiores empresas, a contribuição
da pesquisa e desenvolvimento para esta receita diminuiu (1). Um dos grandes motivos para esta
queda é a alta taxa de rejeição de novos candidatos a fármacos nos testes clı́nicos, principalmente
na Fase II, onde pelo menos 50% dos candidatos são descartados por falta de eficiência (2). Além
disso, a probabilidade de um dado composto que acabou de entrar na fase clı́nica conseguir
chegar ao mercado passou de 10% (em 2001) para apenas 5% (Figura 1.1). Esta queda da taxa
de sucesso do desenvolvimento de terapêuticas inovadoras está mudando o foco da indústria,
que passa a restringir as áreas de atuação terapêutica e a questionar os prospectos de candidatos
com alto risco de rejeição (3). Ainda assim, o investimento destinado ao desenvolvimento de
fármacos cresceu, apesar de outros fatores depreciarem os orçamentos das empresas, como a
aproximação da expiração de patentes de classes de fármacos lucrativos, problemas relacionados
com a determinação de preços de fármacos e uma regulamentação mais rı́gida para a aprovação
de novas entidades moleculares. Neste contexto, as companhias farmacêuticas buscam adotar
novas maneiras de aumentar a aprovação e comercialização de compostos através de inovação
e não através de iterações sobre os já existentes, através, por exemplo, de reposicionamento de
fármacos ou através de pequenas modificações nas estruturas moleculares.
Uma das estratégias para aumentar a probabilidade de um composto candidato a fármaco
chegar ao mercado consiste em diminuir o nı́vel de rejeição de candidatos a fármacos nos testes
com humanos (4). A rejeição de um composto nas fases finais do fluxo de desenvolvimento
acarreta em um grande prejuı́zo financeiro, já que o custo agregado de descoberta de um novo
2
Figura 1.1: Probabilidade de um candidato a fármaco chegar ao mercado dada a fase do desenvolvimento em que o mesmo se encontra. Nota-se a queda constante através dos anos nas Fases
I (Toxicologia) e II (Eficiência). Adaptada de (1)
fármaco cresce à medida que passam as etapas do fluxo de desenvolvimento (Figura 1.2). Visto
que a ineficiência ao tratar a condição para a qual o composto foi desenvolvido é a maior causa
de rejeição de candidatos em fases clı́nicas, a etapa mais indicada para se realizar um controle
rı́gido de qualidade seria na fase de identificação de moléculas bioativas, onde o custo agregado
é ainda baixo (4).
As moléculas bioativas são um dos pontos iniciais de um processo de descoberta racional de
novos fármacos. Elas são substâncias que mostram alguma atividade biológica quanto a um alvo
de interesse. Caso não haja informação a priori de bioatividade, tais moléculas podem ser identificadas através de testes biológicos de larga escala (High Throughput Screening - Triagem de alto
desempenho). A informação de bioatividade de moléculas ou a informação estrutural dos alvos
terapêuticos podem ser usadas em métodos in silico, que auxiliam o processo de desenvolvimento
racional. Uma vez identificadas, as moléculas bioativas passam por ensaios biológicos confirmatórios de atividade, otimização de caracterı́sticas farmacocinéticas (ADMET - Absorção,
Distribuição, Metabolismo, Excreção e Toxicidade), otimização de seletividade através de estudos de REA (Relação Estrutura-Atividade, também conhecido pela sua sigla em inglês: SAR
- Structure-Activity Relationship), para finalmente gerar um ou mais compostos-protótipo. Os
3
hits
Identificação
de Hits
$
Identificação do alvo e
das moléculas hits
leads
Geração de
Leads
$$
Refinamento das
moléculas hits
Otimização
de Leads
$$$
Refinamento das
moléculas lead
Candidato
clínico
$$$$
Desenvolvimento
Regulatório
Figura 1.2: As etapas de desenvolvimento e otimização de um novo candidato a fármaco antes
das fases clı́nicas. À medida que se completam as etapas, o número de compostos candidatos
diminui, até chegar em uma única substância a ser submetida a testes in vivo. Entretanto, o custo
agregado de desenvolvimento cresce ao longo do fluxo de trabalho. Adaptada de (4)
4
compostos-protótipo passam ainda por outro ciclo de estudos de otimização de caracterı́sticas
ADMET e de REA, antes de serem testados in vivo em animais, nos estudos pré-clı́nicos. Sendo
aprovados nestes testes, os compostos passam a ser candidatos a fármaco, sendo admitidos em
estudos com humanos, nas fases de estudos clı́nicos (5). Na primeira fase, o candidato a fármaco
é administrado em um pequeno número de humanos sadios, para o estudo dos efeitos de toxicidade e segurança. A Fase II consiste na administração do fármaco experimental em humanos
doentes, para avaliar sua eficiência no tratamento das condições patológicas, bem como estudos
de dose-resposta. Finalmente, na Fase III, um grupo ainda maior de pacientes é utilizado em um
estudo controlado. Os resultados da Fase III devem conter os dados definitivos de eficiência e
a comparação com outros tratamentos existentes, caso seja possı́vel, dados que devem ser submetidos às agências reguladoras para aprovação. Somente após a aprovação um fármaco poderia
ser comercializado.
Ao focar na validação do alvo biológico e na investigação do modo de atividade da molécula,
a probabilidade de se evitar testes clı́nicos desnecessários diminui, assim como o custo agregado
do desenvolvimento. Assim, para aumentar a probabilidade de aprovação de um novo composto, Bleicher et al (4) sugeriram em 2003 adotar uma estratégia de desenvolvimento racional
de fármacos com uma validação extensiva do alvo terapêutico e da atividade dos compostos.
Dentro deste contexto, a Bioinformática e a Quimioinformática podem atuar em várias das fases
que precedem os estudos clı́nicos. Validação de alvos biológicos, desenvolvimento de bibliotecas
de substâncias para experimentos e otimização dos compostos-protótipo são exemplos de tarefas
em que um bio/quimioinformata poderia atuar (6). Dentre estas, a identificação de moléculas
bioativas ainda é um dos maiores desafios no processo de descoberta de fármacos. O HTS é o
padrão da indústria para identificação de compostos bioativos em larga escala. A tecnologia atual
permite realizar milhões de experimentos in vitro em relativamente pouco tempo (7). Mas a taxa
de identificação de moléculas bioativas é extremamente baixa, o que gera um aumento significativo no custo final de desenvolvimento de um novo fármaco. É nesse ponto que ferramentas de
triagem virtual podem atuar, ao selecionar dentro de um banco de moléculas aquelas com maior
probabilidade de mostrar algum tipo de atividade biológica contra um alvo de interesse (8).
5
1.2
Triagem Virtual
O processo de triagem in silico de bibliotecas de compostos para uma certa atividade é conhecida como triagem virtual (VS, do inglês Virtual Screening). A triagem virtual é geralmente
definida como um processo em que grandes bibliotecas de compostos são automaticamente avaliadas usando técnicas computacionais (9). Seu objetivo é descobrir moléculas potencialmente
bioativas em grandes bancos de dados de compostos quı́micos (geralmente ligantes para alvos
biológicos) e remover moléculas identificadas como tóxicas ou que possuam propriedades farmacodinâmicas e farmacocinéticas desfavoráveis (10) (Figura 1.3).
De acordo com os dados usados como referência, as técnicas de triagem virtual podem se
dividir em duas grandes categorias. As técnicas que incorporam dados de estrutura de alvos
terapêuticos na sua abordagem são conhecidas como técnicas de Triagem Virtual baseadas em
alvos biológicos (TBVS - Target-Based Virtual Screening). Apesar de métodos computacionais
serem usados em processos de descoberta de fármacos desde a década de 70, a triagem virtual
começou a se tornar popular na indústria somente a partir da década de 90, impulsionada pelo
aumento da disponibilidade de estruturas de raios-X de alvos biológicos, o que também passou
a popularizar aplicações computacionais baseadas em estruturas de alvos, denominadas ancoragem proteı́na-ligante ou Docking molecular automático (11). O Docking (12–14) consiste em
procedimentos computacionais que predizem o modo de ligação e a afinidade de um ligante com
um alvo receptor, e suas origens remotam à década de 80 (15). Cada ligante de um banco de
dados é ancorado a um sı́tio ativo de um receptor, e os algoritmos fazem uma busca extensiva das
possibilidades de conformação e orientação do ligante dentro do sı́tio. Cada possibilidade é avaliada quantitativamente por uma função de escore, e os ligantes podem ser ordenados através desta
afinidade com o receptor (16). Outras técnicas TBVS incluem Projetos De Novo (17–19), que envolve o projeto de inibidores usando apenas a informação do sı́tio ativo do alvo terapêutico como
referência inicial; e Projetos de Fármaco baseado em Fragmentos (20–22), que usa moléculas
pequenas, com massa molécular até 300 Da, para mapear pontos de interação no sı́tio ativo e
servirem como “peças de um quebra-cabeça” para a montagem de um novo inibidor.
Apesar do aumento contı́nuo da disponibilidade de estruturas de alvos biológicos, a quantidade de dados disponı́veis sobre a atividade biológica de moléculas pequenas ainda é muito
maior. Uma rápida consulta às bases de dados públicas mais populares mostra a diferença de
6
Hipótese Clínica
HTS (Triagem Experimental)
Requer ensaios biologicamente relevantes,
que podem ser miniaturizados,
automatizados e são estatisticamente
robustos
Seleção de
Compostos
Processo de descoberta de moléculas líder
Produção de Materiais
Expressão e Purificação de proteínas
Criação de linhagem celular
Seleção de biblioteca para identificação de
compostos
Validação
Testes de confirmação, testes ortogonais,
modelos para identificação de Relação
Estrutura-Atividade e Modo de Ação
sugerido
Moléculas Líder validadas
Figura 1.3: O papel da triagem virtual para a identificação de moléculas bioativas no fluxo de
desenvolvimento de compostos-protótipo. Adaptada de (6)
7
grandeza entre as duas categorias. O PDB (23) (www.pdb.org) é a base de dados pública onde
estruturas cristalográficas tridimensionais são depositadas desde a década de 70. O banco de dados possuia aproximadamente 79.500 estruturas depositadas até o dia 28 de Fevereiro de 2012.
Já para os compostos, o PubChem (24) (http://pubchem.ncbi.nlm.nih.gov/) é a maior
base de dados pública, já que agrega informações de outros bancos de dados menores e mais
especı́ficos. Na mesma data, o PubChem possuia cerca de 32,3 milhões de compostos diferentes.
Destes, 1,7 milhão possuem dados de ensaios biológicos e 11.307 possuem dados anotados de
ação farmacológica. Além do PubChem, existem outras bases públicas de compostos como o
ChEMBL (25) (aproximadamente 1,14 milhão de compostos únicos e 5,4 milhões de medições
de bioatividade) e o ChemSpider (www.chemspider.com, com aproximadamente 26 milhões de
compostos), além de bases comerciais como o MDDR (MDL Drug Data Report), construı́do a
partir de dados de patentes, e o World Of Molecular BioAcTivity (WOMBAT), da Sunset Molecular (26). Tal disparidade na disponibilidade de informação, que encontrou nas técnicas de HTS
desenvolvidas a partir da década de 90 um grande fomentador (11), é um dos atrativos para as
técnicas de Triagem Virtual baseadas em Ligante (LBVS - Ligant-Based Virtual Screening), que
usam somente dados de ligantes ativos e pequenas moléculas. De acordo com Ripphausen (27),
existem aproximadamente três vezes mais técnicas TBVS do que LBVS disponı́veis, mas, em
estudos prospectivos, as técnicas baseadas em ligante identificam moléculas bioativas em média
mais potentes que as identificadas pelas abordagens baseadas em alvos biológicos.
1.2.1
Classificação de Técnicas de Triagem Virtual Baseadas em Ligante
Como visto anteriormente, as técnicas em Triagem Virtual se dividem em duas categorias de
acordo com a natureza dos dados de referência: LBVS e TBVS. As técnicas em Triagem Virtual baseadas em ligante ainda podem se subdividir de acordo com a dimensão da representação
dos dados utilizada (1D, 2D ou 3D, como mostra a Figura 1.4). Descritores 1D são números que
representam diferentes propriedades moleculares do composto como um todo, como a massa molecular, número de heteroátomos ou ligações rotacionáveis; ou ainda parâmetros fisico-quı́micos
computados, como logP. Descritores 2D podem existir em duas formas: ı́ndices topológicos ou
descritores estruturais. Um ı́ndice topológico é um descritor composto por um único número
que tipicamente caracteriza a estrutura de acordo com sua forma e tamanho. Os ı́ndices mais
simples caracterizam moléculas de acordo com seu tamanho, forma e grau de ramificação, en-
8
Figura 1.4: Classificação dos descritores usados para representar compostos em métodos de
triagem virtual de acordo com o número de dimensões da estrutura molecular. Adaptada de (8)
quanto ı́ndices mais complexos levam em consideração tanto as propriedades dos átomos quanto
suas conectividades. Já os descritores estruturais caracterizam a molécula pela suas sub-estrutura
quı́mica, e podem ser encontrados em forma de grafos quı́micos 2D ou vetores binários que codificam os fragmentos presentes (28). Descritores 3D possuem uma maior complexidade inerente,
pois precisam considerar as conformações das moléculas. Dentre suas aplicações, destacamse o uso de distâncias inter-atômicas, farmacóforos 3D, superfı́cies moleculares, campos eletrostáticos, dentre outros. Vários estudos comparativos revelam que não há um único descritor
que tenha desempenho melhor do que outros descritores em qualquer aplicação de triagem virtual (29). Logo, moléculas são normalmente representadas por um conjunto de descritores (28).
A diversidade conceitual e algorı́tmica das técnicas de LBVS permite uma terceira categorização
9
Figura 1.5: Diferentes representações de uma molécula que podem ser usadas por algoritmos
baseados em similaridade. Adaptada de (8)
de acordo com a abordagem do procedimento. Aqui se diferenciam os algoritmos baseados em
similaridade, algoritmos quantitativos e os baseados em aprendizado de máquina.
Algoritmos baseados em busca por similaridade
Busca por similaridade (Figura 1.5) é um tipo particular de triagem virtual em que as moléculas
cujas estruturas sejam mais semelhantes a uma ou mais estruturas de substâncias ativas, denominadas compostos de referência, teriam maior probabilidade de compartilhar a mesma atividade
biológica (28). Em uma busca por similaridade, uma ou mais estruturas são usadas como referência. No contexto de descoberta de fármacos, tais estruturas normalmente possuem um nı́vel
de atividade biológica de interesse. Cada estrutura do banco de dados é representada usando
o mesmo esquema das estruturas de referência, de modo a compará-las para avaliar o nı́vel de
semelhança estrutural. A similaridade é quantificada por um coeficiente calculado para todas as
moléculas da base de dados que está sendo usada na busca.
Esta abordagem para acesso a bancos de dados quı́micos foi primeiramente descrita por
Carhart et al. (30) em 1985 e por Willett et al. (31) no ano seguinte e sua base lógica é deri-
10
vada de um paradigma da quı́mica medicinal, que diz que moléculas que apresentam estruturas
similares deveriam compartilhar atividades biológicas similares (28). Tal hipótese atribuı́da originalmente a Johnson e Maggiora (32), tem sido notada em uma série de observações e continua
sendo aceita pela comunidade de quı́mica medicinal (33). Entretanto, o processo de otimização
de moléculas bioativas e de compostos-protótipo pode se beneficiar da situação contrária: compostos ativos sujeitos a pequenas modificações quı́micas podem apresentar uma significativa
diferença de potência e/ou seletividade. Estas “descontinuidades” nos relacionamentos estruturaatividade são conhecidas como ”fendas de atividade” (activity cliffs) (34, 35).
A técnica em VS baseada em similaridade 2D mais intuitiva e direta é baseada em subestruturas (ou fragmentos moleculares) (36–39). Indo além da bidimensionalidade, buscas em
bancos de dados de compostos também podem ser realizadas através de representações moleculares tridimensionais, particularmente através de modelos farmacofóricos (40–43), superposição
de volumes (44, 45), campos de interação molecular (MIFs - Molecular Interaction Fields) (46),
bem como combinações destas abordagens em metodologias hı́bridas (47–52). Estes métodos
geralmente requerem uma geração eficiente de conformações de baixa energia (estáveis) ou que
se aproximem do arranjo bioativo para o alinhamento tridimensional das estruturas (8).
Algoritmos Quantitativos
Uma análise QSAR (Quantitative Structure-Activity Relationship, Relação Estrutura-Atividade
Quantitativa) pode ser definida como a aplicação de métodos matemáticos e estatı́sticos ao problema de encontrar equações empı́ricas na forma Yi = F(X1 , X2 , . . . , Xn ), onde a variável Yi é a
atividade biológica de moléculas, e X1 , X2 , . . . , Xn são propriedades estruturais (descritores moleculares) experimentais ou calculadas de compostos (53). Cada composto pode ser representado
por um ponto em um espaço n-dimensional, onde cada Xi é uma coordenada independente da
substância. O objetivo de um modelo QSAR é estabelecer uma tendência dos valores dos descritores moleculares que correlacione com os valores de atividade biológica. Tais modelos podem
ser aplicados em várias etapas de um projeto racional de fármacos, desde a triagem virtual até
a otimização de caracterı́sticas ADMET de compostos-protótipo (54). Para tanto, os modelos
devem passar por uma validação estatı́stica rigorosa para que possam ser considerados modelos
robustos e preditivos (55).
11
De acordo com os descritores moleculares utilizados nos cálculos, métodos de análise QSAR
podem ser divididos em três grupos (53). O primeiro é baseado em um número relativamente pequeno de propriedades fı́sico-quı́micas e parâmetros que descrevem efeitos hidrofóbicos, estéricos
e eletrostáticos, dentre outros. Estes descritores são usados como variáveis independentes em
abordagens de regressão múltipla e são conhecidos como análise Hansch (56, 57). O segundo
grupo abrange métodos baseados em caracterı́sticas quantitativas da estrutura molecular (descritores topológicos) como ı́ndices de conectividade molecular (58–60), ı́ndices topológicos (61),
eletrotopológicos (62–65), descritores de pares de átomos (66, 67), etc. Alguns descritores topológicos ainda podem ser combinados com descritores fı́sico-quı́micos. Como a fórmula estrutural dos compostos é bidimensional, estes métodos são conhecidos como QSAR bidimensional (2D). Diferentes métodos de correlação são usados em estudos de QSAR 2D, sejam eles
lineares, como a Regressão Linear Múltipla (MLR - Multiple Linear Regression) com seleção
de variáveis (68) ou Mı́nimos Quadrados Parciais (PLS - Partial Least Squares) (69), ou nãolineares, como kNN (k-Nearest Neighbours) (70, 71) ou Redes Neuronais Artificiais (ANN Artificial Neural Networks) (72). O terceiro grupo compreende métodos que utilizam descritores baseados em representação espaciais (tridimensionais) de estruturas moleculares, os métodos
de QSAR 3D. A maioria dos métodos de QSAR 3D requerem um alinhamento tridimensional
das moléculas de acordo com um modelo farmacofórico ou baseado em ancoragem molecular
no sı́tio do receptor. Na metodologia CoMFA (Comparative Molecular Field Analysis - Análise
Comparativa de Campos Moleculares) (73, 74), os descritores são calculados a partir de campos
de força moleculares, utilizando sondas para calcular a energia eletrostática e estereoquı́mica
posicionadas em uma grade de pontos que envolve a estrutura molecular (53).
Algoritmos baseados em técnicas de Aprendizado de Máquina
Os métodos baseados em busca por similaridade possuem uma tendência a necessitar de
pouca informação de referência para criar modelos preditivos. Muitos deles precisam apenas de
uma única estrutura a ser comparada, o que fez com que fossem amplamente adotados (28). Mas,
a medida que a informação sobre novas substâncias e suas atividades biológicas começaram a se
tornar publicamente disponı́veis, métodos capazes de inferir modelos preditivos a partir de uma
grande quantidade de dados moleculares de compostos ativos e inativos puderam ser aplicados.
Tais métodos são classificados como métodos de aprendizado de máquina (75).
12
Figura 1.6: Principais abordagens em triagem virtual baseadas em aprendizado de máquina:
a) Esquematização do funcionamento de um algoritmo baseado em SVM. As margens do hiperplano (aqui representado em duas dimensões) otimiza a separação entre ativos e inativos. b)
Métodos Bayesianos: o Teorema de Bayes é usado para obter a probabilidade de atividade condicionadas aos descritores c) Árvores de Decisão. Folhas vermelhas identificam ativos, ao contrário
de folhas azuis, que identificam inativos. O caminho destacado em vermelho foi calculado para
a molécula exemplo. Adaptada de (75)
13
Os métodos baseados em aprendizado de máquina comumente usados para Triagem Virtual podem se dividir em três abordagens (Figura 1.6). Técnicas baseadas em SVM (Support
Vector Machines) (76, 77) trabalham com a idéia de construir um hiperplano em um espaço
n-dimensional que separe as duas classes de compostos (ativos e inativos) (Figura 1.6 a). A
metodologia do SVM tem uma forte fundação teórica na Teoria de Aprendizado Estatı́stico (78)
por considerar dois objetivos geralmente contraditórios em aprendizado de máquina: representar
bem os dados de treinamento e ser suficientemente genérico para classificar corretamente o conjunto externo de teste. Isto é, quanto mais complexa é a estrutura de um modelo a ser treinado,
melhor ele se encaixa nos dados treino, mas menor é a probabilidade do modelo conseguir classificar corretamente dados previamente desconhecidos, o que é conhecido como overfitting. Ao
contrário das outras técnicas de aprendizado de máquina, o SVM consegue controlar este risco
de overfitting estrutural, porque constrói um hiperplano que maximiza a distância entre este e os
dados treino mais próximos (75).
As técnicas Bayesianas são assim denominadas por se basearem no Teorema de Bayes,
base da Estatı́stica Bayesiana. Apesar de diferirem algoritimicamente, as técnicas Bayesianas
para Triagem Virtual acabam por derivar a probabilidade de um dado composto ser ativo para
um alvo ou atividade biológica de interesse (Figura 1.6 b). Devido ao fato dos classificadores Bayesianos tipicamente gerarem estimativas numéricas para probabilidades de atividade,
eles são capazes de ordenar compostos em bases de dados de acordo com estas probabilidades. Métodos Bayesianos geralmente baseam-se na estimação de distribuições de probabilidade
de representações numéricas de substâncias, representações estas baseadas em descritores de
propriedades moleculares. Os métodos mais usados incluem classificadores Bayesianos naı̈ve
(79, 80) e discriminação binária de kernels (81, 82), os quais podem ser aplicados para vetores
binários ou de frequência (75).
Finalmente, Árvores de Decisão (Figura 1.6 c) são modelos preditivos que mapeam observações
sobre um item em conclusões sobre o valor alvo do item. Dependendo da natureza deste valor
alvo, as árvores de decisão podem ser especificamente denominadas como Árvores de Classificação
(caso o valor alvo seja uma classe, como ativo ou inativo) ou Árvores de Regressão (caso o valor
alvo seja um valor contı́nuo, como nı́vel de atividade biológica). As folhas de uma Árvore de
Descisão correspondem a uma classificação do item, enquanto seus ramos representam o conjunto de caracterı́sticas que definem tal classificação (83). Estes classificadores ainda são muito
14
usados em aplicações de Quimioinformática, especialmente na forma de florestas aleatórias, com
o intuito de melhorar a taxa de classificação (75). Aplicações de Árvores de Decisão abrangem
análises de QSAR (84), predição de solubilidade em água de compostos (85) e Triagem Virtual (86).
1.2.2
Critérios de Avaliação de Desempenho em Triagem Virtual
A triagem virtual consiste em técnicas e modelos preditivos que tentam classificar compostos de acordo com sua atividade biológica contra certo alvo terapêutico. Existem duas variáveis
centrais a qualquer método de avaliação de desempenho preditivo: a Cobertura e a Precisão (28).
Considere que uma lista de indivı́duos, cuja classificação verdadeira é conhecida a priori, está ordenada por um critério determinante para sua classificação. Por exemplo, uma lista de moléculas
ordenadas pela similaridade a um modelo de referência que tenta predizer sua bioatividade. Ao
selecionar-se um subconjunto do topo desta lista, digamos 1%, a precisão seria a razão entre
o número de verdadeiros positivos e o número de elementos na seleção. Já a cobertura seria a
razão entre o número de verdadeiros positivos e o número total de positivos em todo o conjunto
de dados. Logo o problema de uma busca se torna a maximização destas duas variáveis. Em uma
seleção ideal, todos os verdadeiros positivos estariam no subconjunto selecionado.
Existem diversas métricas derivadas destas duas variáveis que podem ser aplicadas ao mensurar o desempenho de sistemas de triagem virtual de compostos. A mais intuitiva, e talvez por
isso amplamente aplicada, é o Fator de Enriquecimento (EF - Enrichment Factor), que consiste
no número de moléculas ativas (a) recuperadas até um certo ponto de corte (χ%, o que corresponde a n compostos) em relação ao número de moléculas ativas que seriam recuperadas por
uma busca aleatória (A/N, onde A é o número total de moléculas ativas e N é o número total de
moléculas), ou seja:
EFχ% =
a/n
A/N
Apesar da simplicidade, o fator de enriquecimento tem uma série de problemas, pois depende do número de verdadeiros positivos e verdadeiros negativos, além de depender do valor
de corte, o que o torna mais uma medida de desempenho do experimento ao invés de medir o
desempenho do método (87). Korff et al. (88) propuseram em 2009 uma normalização ao fator
de enriquecimento para eliminar a dependência do número de estruturas ativas, o chamado Fator
15
de Enriquecimento relativo (REF - Relative Enrichment Factor):
REFχ% =
100a
min(n, A)
.
Uma métrica muito usada em vários campos de pesquisa cujos problemas envolvem recuperar um pequeno conjunto de “positivos” de um grande conjunto de “negativos” é a curva ROC
(Receiver-Operator Characteristic) e a área sob a curva ROC (AUCROC - Area Under Curve).
A AUCROC tem a grande vantagem de não depender do número de ativos e de inativos, ou da
razão entre eles (87). A curva ROC é uma linha que representa a fração de verdadeiros positivos (valor no eixo y) em sucessivos pontos de corte, com a fração dos falsos positivos (valor no
eixo x) nos mesmos pontos. A área sobre a curva ROC (AUCROC ) representa a probabilidade de
um composto ativo escolhido aleatoriamente estar melhor colocado na lista ordenada do que um
composto inativo também escolhido aleatoriamente.
Entretanto, a curva ROC é criticada ao ser usada para mensurar o desempenho de métodos
em triagem virtual, devido ao fato de não dar a devida atenção aos compostos melhor colocados na lista ordenada, os quais seriam considerados para experimentos in vitro (89), o chamado
“reconhecimento precoce” (early recognition). Pensando neste quesito, Truchon e Bayly (89)
desenvolveram a métrica BEDROCα (Boltzmann-Enhanced Discrimination of ROC), que usa
uma ponderação exponencial, regulada pelo parâmetro α, para dar maior valor aos verdadeiros
positivos nas primeiras posições da lista ordenada. A BEDROCα não tem as mesmas limitações
quanto ao número de moléculas e a razão entre ativos e inativos, caracterı́stico do fator de enriquecimento, além de ser limitada entre zero e um, assim como a AUCROC . Entretanto, Nicholls (90) argumenta que há uma grande correlação entre AUCROC e BEDROC, considerando
o perfil das aplicações de triagem virtual. De acordo com o autor, a curva ROC é uma métrica
suficiente para medidas de desempenho, além de não requerer um parâmetro livre, como é o caso
da BEDROC. Além disso, Clark e Webster-Clark (91) argumentam que a presença do parâmetro
α no BEDROC é um fator de complicação a mais na análise de desempenho e, por isso, propuseram a pROC, uma tranformação logarı́tmica da curva ROC que busca dar maior ênfase ao
primeiros valores da curva.
Uma terceira caracterı́stica esperada de sistemas de triagem virtual é a capacidade de amos-
16
trar a diversidade estrutural (scaffold hopping). O objetivo da identificação de diferentes estruturas é conseguir substituir a estrutura quı́mica central de um composto bioativo por um outro
padrão molecular e ainda manter o nı́vel de atividade biológica da molécula (29), o que é considerado um desafio na área, já que séries de ativos em bases de dados costumam sofrer o que
Good e Oprea chamam de “viés do análogo” (analogue bias) (92). Devido a fatores intrı́nsicos à
própria descoberta de fármacos (por exemplo, detalhes de patentes que tentam cobrir uma classe
de compostos ativos, as chamadas patentes guarda-chuva - umbrella patents), séries de ativos
tendem a favorecer um ou outro motivo estrutural, o que acaba por enviesar os resultados em
direção às classes estruturais mais populosas. Neste caso, métodos que priorizam os compostos
de classes mais populosas e relegam classes menores tendem a “se sair melhor” que métodos que
identificam alguns ativos de cada classe uniformemente. Este viés é ainda mais punitivo quando
considera-se que, na prática, o tamanho da classe é inversamente proporcional à oportunidade de
inovação que ela representa (91).
Ao tentar normalizar a contribuição de cada classe estrutural para o desempenho geral do
método, pode-se contar o número de classes encontradas até um certo ponto da busca, ao invés de
se considerar simplesmente o número de ativos, de maneira análoga ao fator de enriquecimento.
Mas tal métrica sofre dos mesmos contratempos do EF mencionados anteriormente. Clark e
Webster-Clark (91) propuseram dois esquemas de ponderação da curva ROC: a ponderação
aritmética (awROC - arithmetic weighted ROC) e a ponderação harmônica (hwROC - harmonic weighted ROC), sendo que a primeira tem sido mais usada para avaliar a capacidade de
diversificação estrutural de métodos em triagem virtual. Na curva ROC tradicional, cada verdadeiro positivo contribui de maneira uniforme no valor da AUC, independente de classe estrutural. Na curva awROC, a contribuição de cada verdadeiro positivo é inversamente proporcional
ao número de moléculas da classe estrutural ao qual o composto pertence. Na curva hwROC, a
contribuição do verdadeiro positivo é inversamente proporcional à sua colocação na lista ordenada dentro da classe a que pertence.
1.3
Farmacóforos
O termo Farmacóforo tem sido usado na Quı́mica Medicinal a muitos anos (42). Ele foi
definido pela IUPAC (International Union of Pure and Applied Chemistry - União Internacional
17
da Quı́mica Pura e Aplicada) como “um arranjo de caracterı́sticas estéricas e eletrônicas que
é necessário para assegurar as interações supramoleculares ótimas com a estrutura de um alvo
biológico especı́fico, e para ativar (ou bloquear) a resposta biológica deste alvo. Entretanto, um
farmacóforo não representa uma mólecula real ou uma associação real de grupos funcionais, mas
um conceito puramente abstrato que descreve as capacidades de interações moleculares comuns
a um grupo de compostos para um mesmo alvo. O farmacóforo pode ser considerado como o
maior denominador comum compartilhado por um conjunto de moléculas bioativas.” (93)
1.3.1
Conceito e Perspectiva Histórica
Existem duas vertentes sobre a origem do conceito de farmacóforos. A primeira, baseada no
trabalho de Ariëns (94) e propagada por Gund (95), considera Paul Ehrlich o criador do conceito
de farmacóforo. Esta vertente é a mais popular, presente em livros especializados (40, 41) e em
várias publicações. Mas em 2007, um artigo publicado por John H. Van Drie, contestou esta
linha: de acordo com o autor, foi Lemont Kier, numa série de artigos publicados entre 19671971, quem cunhou o conceito moderno de farmacóforo (96). Esta segunda versão, por ser
melhor documentada, vem sendo gradualmente aceita na comunidade e já consta em algumas
publicações recentes (por exemplo, no trabalho de Caporuscio e Tafi (97)). A seção seguinte
contém a evolução do conceito de farmacóforo segundo Ariëns, seguida da versão de Van Drier.
Paul Ehrlich
A história dos farmacóforos se confunde com a própria história da busca de curas para
doenças e enfermidades. Quando Louis Pasteur demostrou no século XIX que muitas doenças
eram causadas por micróbios e parasitas, pesquisadores da época reconheceram que substâncias
poderiam ser testadas nestes microrganismos, identificando os compostos que muito provavelmente ajudariam no tratamento das respectivas doenças. Na mesma época, quı́micos orgânicos
começaram a estudar a sı́ntese de corantes e pigmentos, desde que várias tinturas feitas por Perkins e outros viraram um grande sucesso comercial. Estes pesquisadores descobriram que era
frequentemente possı́vel manter o esqueleto molecular destas tinturas intacto e variar apenas as
estruturas conectadas para obter uma gama de cores e propriedades relacionadas. A parte da
molécula essencial para a definição da cor era chamada cromóforo.
18
No final do século XIX, Paul Ehrlich descobriu que diferentes tinturas coloriam diferentes
tecidos humanos. Assim descobriu os granulócitos eosinófilos e basófilos (leucócitos nomeados
pela afinidade às tinturas eosina e básica). Descobriu tinturas que coloriam especificamente o
bacilo Mycobacterium tuberculosis e os plasmódios causadores de malária, demonstrando ainda
que esta tintura (Azul de metileno) poderia tratar a malária. Mais tarde, sua pesquisa o levou a
realizar o primeiro estudo em larga escala de sı́ntese e teste de agentes quimioterapêuticos, dos
quais o 606º composto era um arsênico que mostrou ser muito eficiente no tratamento de sı́filis,
o qual ele denominou Salvartan. Ele ainda criou o termo quimioterapia para descrever o uso de
tais agentes sintéticos no tratamento de doenças.
Ehrlich ainda estudou o efeito de toxinas, sugerindo que tais compostos possuı́am grupos
haptofóricos, que os permitiam permanecer ligados à celula, e grupos toxofóricos separados, que
causavam o efeito tóxico. Inicialmente, Ehrlich não aplicava esta idéia para fármacos, porque
muitos pareciam não combinar irreversivelmente com a célula, como fazem as toxinas. Mas logo
ele começou a argumentar que células possuı́am quimiorreceptores que deveriam se ligar aos
fármacos antes destas iniciarem seu efeito terapêutico. Então Ehrlich supostamente teria criado
o termo farmacóforo para descrever os grupos moleculares de um fármaco que são essenciais
para a definição da atividade biológica. Ele ainda assumiu que os quimiorreceptores estavam
envolvidos nos processos fisiológicos, e logo existiam em todas as células. Portanto a busca
pela chamada “bala mágica”, que mataria o agente patológico sem afetar o hospedeiro, estava
fadada ao fracasso; o melhor que os pesquisadores poderiam esperar era maximizar a eficácia e
minimizar a toxicidade (40).
Lemont Kier
Segundo Van Drie, Ehrlich não foi quem criou o termo “farmacóforo” (96). De acordo com
o autor, não se vê na publicação original de Ehrlich (98) ou mesmo nos seus trabalhos seguintes a palavra pharmakophor. A fonte de tal equı́voco foi um artigo de Peter Gund (95), mas o
próprio admite não ter investigado a fonte original e ter seguido apenas a citação errônea do livro
de Ariëns (94). Ainda de acordo com o autor, o verdadeiro criador do conceito de farmacóforo
foi Lemont Kier, em uma série de publicações entre 1967 e 1971, onde estudava agonistas muscarı́nicos. Kier (99) fez o primeiro cálculo de um modelo de farmacóforo que se tem registro, o
denominando proposta de padrão de receptor. Entretanto, em 1971 (100), ele publicou a mesma
19
Figura 1.7: O Farmacóforo Muscarı́nico, segundo Kier (99, 100) - o primeiro modelo farmacofórico proposto.
figura, renomeando-a farmacóforo muscarı́nico (Figura 1.7). Estes trabalhos pioneiros inspiraram uma série de outras publicações que contribuiram não só para a solidificação do conceito de
farmacóforo, mas para as primeiras ferramentas de busca e de triagem virtual. O mesmo Peter
Gund citado anteriormente foi o autor do primeiro programa capaz de realizar uma busca em
uma base de dados moleculares usando um farmacóforo como entrada, o MOLPAT (95).
Farmacóforos e a Seletividade
O conceito de alvos e receptores especı́ficos, apesar de ser amplamente aceito hoje, não era
muito claro até o começo do século XX. John Langley, ao observar como a nicotina e o curare
pareciam interagir e competir pela mesma substância envolvida em processos de resposta muscular, denominou-a “substância receptiva” e especulou que muitos fármacos e venenos agiriam
de maneira similar. Mas a palavra receptor só foi introduzida por Ehrlich alguns anos depois,
nomeando o fator que explicaria a potência da ação dos fármacos em pequenas concentrações,
além de sua alta especificidade quı́mica (a ponto de isômeros terem diferentes efeitos farmacológicos) e biológica (e.g. a adrenalina tem um poderoso efeito sobre o músculo cardı́aco, mas
não o mantém em músculos estriados).
20
Com o desenvolvimento dos conceitos sobre estruturas moleculares, percebeu-se que somente a presença dos farmacóforos simultaneamente no composto e no alvo não seria suficiente
para a atividade biológica. Seria preciso então um arranjo geométrico tridimensional aceitável
pelo receptor. A confiança na teoria de fármaco-alvo cresceu ainda mais quando as primeiras
estruturas de enzimas cristalizadas foram resolvidas, mostrando alguns compostos unidos à cadeia. Hoje, os farmacóforos são um paradigma que sumarizam os efeitos da estrutura quı́mica na
atividade biológica, permitindo um maior nı́vel de abstração (40, 41).
1.3.2
Farmacóforos em Quimioinformática
Um modelo farmacofórico satisfatório deve primeiramente destacar os grupos funcionais
envolvidos na interação com o alvo, a natureza das interações não-covalentes e as diferentes
distâncias entre as cargas (101). O modelo também deve mostrar algum poder preditivo e apontar
possibilidades de novos compostos, mais potentes e estruturalmente diferentes dos já conhecidos.
Entretanto, a simplicidade das representações farmacofóricas também significa que, inevitavelmente, as representações não conseguem explicar a natureza completa das interações farmacológicas. Portanto, é preciso saber os limites do poder do modelo farmacofórico para aplicá-lo
com sucesso em processos de triagem virtual e desenvolvimento racional de fármacos (42, 102).
Assim, é importante ressaltar que farmacóforos não representam as reais interações entre o ligante e a macromolécula, mas são apenas abstrações e simplificações das interações possı́veis
entre um ligante putativo e o sı́tio do alvo.
Modelos farmacofóricos são usados em várias etapas de um projeto racional de fármacos,
desde a identificação de moléculas bioativas e compostos-protótipo, passando pela racionalização
dos dados de REA (Relação Estrutura-Atividade) e RES (Relação Estrutura-Seletividade), otimização
de compostos-protótipo, predição de sı́tios de metabolismo, interações medicamentosas, efeitos
colaterais e toxicidade (97). Os modelos são usualmente construı́dos a partir de um conjunto de
moléculas ativas, mas podem usar a estrutura do alvo biológico como única referência ou ainda
como informação adicional para melhor posicionar os farmacóforos do modelo. A construção
de um modelo farmacofórico passa por três etapas básicas: caracterização das interações, alinhamento conformacional e geração das hipóteses (103).
O primeiro passo ao construir um modelo de farmacóforos é a classificação dos átomos de
21
acordo com sua natureza e o ambiente quı́mico à sua volta em categorias pré-definidas associadas a um comportamento de interação especı́fico (104). Usualmente, a caracterização farmacofórica não vai além de uma classificação fisico-quı́mica simplista dos átomos / grupos funcionais, classificando-os entre “hidrofóbicos” (que podem incluir ou não os anéis aromáticos, já que
estes podem ser classificados separadamente), “polares positivos” (que podem ser subdivididos
entre doadores de hidrogênio e cátions) e “polares negativos” (aceptores de hidrogênio e ânions).
Alguns grupamentos quı́micos permitem que dois tipos diferentes de farmacóforo possam ser
atribuı́dos ao mesmo átomo/fragmento, como por exemplo, hidroxilas alcoólicas ou aminas, que
podem participar como doadores ou receptores de ligações de hidrogênio.
O segundo passo, alinhamento das moléculas, requer um algoritmo eficiente de amostragem
conformacional. Esta etapa é crı́tica para a construção de um bom modelo farmacofórico, já que
uma amostragem deficiente pode diminuir seu poder de predição (105–107). Além disso, ao usar
o modelo para triagem virtual, o banco de dados de compostos a ser buscado também deve passar
pelo mesmo processo de amostragem conformacional, o que pode aumentar proibitivamente o
tempo de processamento.
No terceiro passo, a construção da hipótese farmacofórica, um conjunto de regiões no espaço
tridimensional (geralmente esféricas) é delimitado. Estas regiões supostamente deveriam abrigar
os grupos funcionais do tipo especificado, baseados em um conjunto alinhado de moléculas
ativas, de um estudo do sı́tio ativo ou uma mistura de ambos (104) (Figura 1.8). Tais regiões
funcionam como restrições geométricas e de afinidade fı́sico-quı́micas para o alinhamento de
moléculas, e deveriam representar um mapa de interações favoráveis com o sı́tio de atividade.
Moléculas que possuam ao menos uma conformação que satisfaça tais restrições de alinhamento
são consideradas candidatas para um estudo experimental in vitro.
A modelagem farmacofórica é uma técnica muito difundida na indústria farmacêutica, principalmente devido à sua disponibilidade em suı́tes comerciais de software voltadas para o desenvolvimento racional de fármacos (42). Tais pacotes incluem CATALYST (109) (HipHop (110)
e HypoGen (111)) da Accelrys, GASP (112) e GALAHAD (113, 114) da Tripos, o módulo de
farmacóforos do MOE (115) da CCG (Chemical Computing Group), Phase (116) da Schrödinger
e LigandScout (108) da Inte:Ligand. Outras iniciativas não-comerciais para modelagem farmacofórica incluem o PharmaGist (117, 118) e o PharmID (119). A triagem virtual através de
modelos farmacofóricos 3D é uma técnica poderosa, mas Hert et al. (120) sugerem que estes
22
Figura 1.8: Um exemplo de uma hipótese farmacofórica construı́da pelo LigandScout (108), da
Inte:Ligand. Três inibidores de Cinase Dependente de Ciclina 2 (CDK2) (identificados no PDB
como LS2, LS3 e LS4), na conformação apresentada em estruturas cristalizadas depositadas no
PDB (identificadores 1KE6, 1KE7 e 1KE8, respectivamente) foram usados para gerar um modelo
de farmacóforos, contendo seis pontos de interação potencial, sendo duas regiões aromáticas
(esferas amarelas), dois receptores de pontes de hidrogênio (esferas e vetores vermelhos) e dois
doadores de hidrogênio (esferas e vetores verdes). Retirado de (102)
23
modelos podem não ser aplicáveis a moléculas bioativas estruturalmente heterogêneas, caracterı́sticas de experimentos HTS. Neste caso, é apropriado considerar abordagens baseadas em
busca por similaridade usando fingerprints de farmacóforo, que também são mais eficientes ao
realizar a triagem em grandes bases de dados.
1.3.3
Farmacóforos codificados em vetores binários
Descritores moleculares poder ser codificados em vetores ou fingerprints, na maioria das
vezes binários (75). As primeiras representações em vetores binários foram desenvolvidas para
otimizar a busca por subestruturas quı́micas, que antes era feita através de casamento de grafos
moleculares, um problema conhecidamente exponencial e que inviabilizava a busca em grandes
bases de dados de compostos (28). Uma vez que as estruturas moleculares foram codificadas
nos vetores binários, foi possı́vel construir filtros preliminares que descartavam as substâncias
que não continham os fragmentos presentes na referência. A partir da década de 80, as fingerprints passaram a também ser usadas em buscas por similaridade (30, 31), não só representando
subestruturas e fragmentos moleculares, mas também o arranjo estrutural dos átomos e suas
caracterı́sticas fisico-quı́micas, visando o bioisosterismo, ou seja, identificar estruturas com propriedades similares à referência, mas com um conjunto diferente de átomos. Em 2002, Raymond
e Willett (121) relataram que, ao comparar aplicações de triagem virtual, as que usavam fingerprints para representar as moléculas eram no mı́nimo tão eficazes quanto os métodos que representavam seus compostos através de grafos quı́micos, apesar do fato que fingerprints contêm
uma representação muito menos precisa da estrutura molecular quando comparadas aos grafos,
que contêm a descrição completa da topologia da substância.
O tipo de fingerprint mais simples é o vetor binário, onde cada posição é associada univocamente a uma ocorrência de subestrutura, fragmento ou arranjo de átomos ou farmacóforos,
e o estado do bit designa a presença ou ausência da caracterı́stica na molécula representada.
Caso deseje-se agregar informações à fingerprint que extrapole sua natureza binária, o vetor
pode armazenar o número de ocorrências de cada representação, se tornando uma fingerprint
de frequência, que ainda pode ser normalizada, transformando os contadores em pesos que variam entre zero e um. Além de representar uma única molécula, fingerprints podem ser usadas para representar um conjunto de moléculas diferentes. Ao incorporar a informação de
24
múltiplas estruturas, sistemas baseados em fingerprints podem condensar os dados em uma única
representação (120) através de fingerprints modais, onde um bit é aceso se sua frequência nas
moléculas está acima de um determinado corte, ou ponderadas, onde cada bit recebe um peso de
acordo com sua frequência. Pode-se usar também métodos de fusão de dados, incorporando a
informação das múltiplas fontes no modelo final.
Para calcular a similaridade entre duas moléculas representadas por suas fingerprints, devese adotar um coeficiente que quantifique a medida. Em 2002, Holliday et al. (122) realizou um
estudo compreensivo entre vários coeficientes de similaridade entre fingerprints 2D. Os resultados encontrados sugeriram que não há um coeficiente que se sobressaia como sendo o mais
indicado. Dependendo da aplicação e da implementação das fingerprints, alguma métrica pode
ser mais indicada que outra. Entretanto, o ı́ndice de Tanimoto mostrou-se o mais genérico dentre
os coeficientes testados, tendo um desempenho satisfatório em todos os experimentos. O coeficiente (STAN ) é calculado a partir do número de bits acesos em comum entre duas fingerprints
(c), cada uma com a e b bits acesos no total:
STAN =
c
a+b−c
Fingerprints de farmacóforo codificam a informação sobre a presença ou ausência de pontos
de farmacóforos potenciais (PPP - Potential Pharmacophore Points) e as distância entre eles em
um composto ou conjunto de compostos (103). De modo geral, as fingerprints de farmacóforo
codificam agrupamentos de dois, três ou até quatro PPPs (Figura 1.9), mas existem casos com
agrupamentos maiores, como no trabalho de Martin e Hoeffel (123). Tripletes de PPPs são os
mais usados, já que tradicionamente são considerados os mais efetivos em termos de conteúdo
informacional versus complexidade (103). As distâncias euclidianas são discretizadas em intervalos e a escolha destes intervalos tem um impacto significativo no desempenho do método. Ao
romper com as restrições geométricas presentes nos modelos farmacofóricos clássicos, as fingerprints conseguem descrever com mais facilidade compostos ativos com diferentes modos de
ligação com o mesmo sı́tio ativo (42).
Assim como os programas de geração de hipóteses de farmacóforos estão presentes em pacotes de programas comerciais, os mesmos contêm módulos que implementam fingerprints de
farmacóforos. Um dos pioneiros e um dos mais populares métodos de fingerprints 3D de far-
25
Propriedades:
(A,D,P,N,R,H)
Pontos de Farmacóforo
Potencial
Farmacóforos de
4 pontos
Distâncias discretizadas
Farmacóforos de
3 pontos
Figura 1.9: Como calcular fingerprints de farmacóforos: cada ponto potencial de interação é associado a um tipo fı́sico-quı́mico (Aceptor de hidrogênio, Doador de Hidrogênio, Positivamente
ou Negativamente carregado, aRomático e Hidrofóbico) . As tuplas são formadas dependendo
da aplicação (pares, triângulos ou tetraedros). Cada representação é então identificada no vetor binário, que armazena a informação de presença (1) ou ausência (0) daquela configuração
especı́fica
26
macóforo é o ChemX/ChemDiverse (124), da Chemical Design/Oxford Molecular (hoje incorporada à Accelrys). Outros exemplos comerciais incluem o PharmPrint (125, 126), da Affymax;
a extensão do pacote MOE, da CCG, OSPPREYS (123) (Oriented Substituent Pharmacophore
PRopErtY Space); o 3D-Keys (127), da Accelrys, baseado nas definições de farmacóforo do
CATALYST e incluı́do na suı́te Cerius2 ; e o Tuplets (128), da Tripos. Dentre as iniciativas nãocomerciais mais recentes, destacam-se o Pharmer (129) e o JPS (130) (Joint Pharmacophore
Space).
1.4
Validação de Modelos
Ao produzir modelos que visam a predição de alguma propriedade ou classe, é preciso que
ele passe por algum processo de validação para garantir que o modelo não só represente os dados
que o geraram, mas seja genérico o suficiente para conseguir classificar dados não utilizados em
sua geração. Um modelo que se baseie apenas em seus dados de treinamento sem nenhum tipo
de validação externa não pode ser considerado confiável (131).
Uma das técnicas usadas para estimar o poder de predição de modelos é a validação cruzada. O conceito central das técnicas de validação cruzada é o particionamento do conjunto
de dados em subconjuntos mutualmente exclusivos, e posteriormente, utiliza-se alguns destes
subconjuntos para a estimação dos parâmetros do modelo (dados de treinamento) e o restante
dos subconjuntos (dados de validação ou de teste) são empregados na validação do modelo. O
método k-particionado (k-fold) consiste em dividir o conjunto total de dados em k subconjuntos
mutualmente exclusivos aproximadamente do mesmo tamanho e, a partir disto, utilizar um dos
subconjuntos para ser o grupo teste, usando as k − 1 partições restantes para a construção do
modelo. O poder preditivo do modelo é avaliado com o grupo teste, medição esta que é repetida
para os outros k pares partição-modelo. O conjunto destas medições é usado para estimar o poder
de predição do modelo. Não existe consenso sobre qual deve ser o valor ideal de k, apesar que
um dos valores mais usados seja k = 10. Existe um compromisso entre o valor de k e o tempo
de processamento da validação, já que k testes de predição devem ser realizados. Para o caso
degenerado de k ser igual ao número de amostras usadas no treinamento, a técnica de validação
recebe o nome de LOO (Leave One Out), muito usada em estudos de QSAR, mas não recomendada para experimentos com número elevado de amostras, já que o tempo de processamento
27
cresce proporcionalmente com o valor de k.
Caso não haja dados independentes para um estudo de validação externa propriamente dito,
técnicas de reamostragem podem ser usadas para estimar o poder de generalização do método.
A técnica de bootstrap (132) é especialmente interessante, pois permite realizar um número
suficientemente grande de experimentos independentes, já que retira, de modo aleatório, uma
fração dos dados de treinamento para ser usada como dados de validação externa. O restante
dos dados disponı́veis são usados como dados de treinamento normalmente e a adequação do
modelo gerado com os dados retirados é mensurada. O processo é repetido, recolocando as
amostras previamente retiradas e realizando um novo sorteio. O bootstrap também pode ser
usado para testar o impacto de parâmetros livres na modelagem.
Ao estudar a validação de modelos de QSAR, Golbraikh, Tropsha e outros (53, 55, 131,
133, 134) perceberam que a maioria das técnicas em QSAR alegavam produzir modelos com
alto poder de predição por ter um coeficiente de correlação cruzada de LOO (q2 ) acima de 0.5
para os dados de treinamento do modelo (55). O coeficiente de correlação cruzada é calculado
tomando o nı́vel de bioatividade de um composto (yi ), a média do nı́vel de atividade de todos os
compostos (ȳ) e a bioatividade prevista pelo modelo (ŷi ) e aplicando estes valores na equação:
q2 = 1 −
∑ (yi − ŷi )
∑ (yi − ȳ)
Apesar de Golbraikh e Tropsha concordarem que um valor de q2 < 0.5 para as moléculas
usadas para construir o modelo é um sinal que a habilidade de predição do modelo é ruim (55),
eles discutem que um alto valor de q2 não é critério suficiente para assegurar o poder de predição
de um modelo QSAR, justamente por se basear apenas nos dados de treinamento do modelo (53).
Os autores sugerem que a única maneira de se obter modelos realmente preditivos seria dividir os
dados experimentais em dois grupos, um grupo treino e um grupo teste suficientemente grande.
Assim, um modelo preditivo deve apresentar um valor de q2 > 0.5 e ter um alto coeficiente de
correlação entre a atividade prevista e a atividade biológica observada experimentalmente das
2
moléculas do grupo teste (rpred
> 0.6). Posteriormente, Tropsha et al. (131, 134) estabelecem
um fluxo de trabalho para produzir modelos de QSAR validados estatisticamente, robustos e
com alto poder de predição, que pode ser generalizado para qualquer aplicação preditiva (Figura
1.10).
28
Aleatorização-Y
Múltiplos
Grupos Treino
Base de dados
de moléculas
ativas
Divisão
entre
grupos
Treino,
Avaliação
e Teste
Modelagem
Previsão de
atividade
Múltiplos
Grupos
Avaliação
Aplicação
Prospectiva
Validação
Experimental
Validação externa usando o
Grupo Teste
Apenas os
modelos que
passam nos
critérios de
robustez e
acurácia interna
permanecem
Figura 1.10: Fluxo de trabalho proposto por Tropsha et al. (131, 134) para produção de modelos validados em QSAR, generalizado para qualquer aplicação que produza modelos preditivos
usados em triagem virtual.
A composição do grupo teste também foi discutida em publicações (53, 133, 135, 136) que
sugerem que o grupo teste não deva ser escolhido aleatoriamente, mas tenha uma distribuição no
espaço dos descritores próxima a do grupo treino, incluindo algoritmos para fazer a seleção dos
grupos de maneira racional (53, 133, 135). Filimonov e Poroikov, ao discutir sobre abordagens
probabilı́sticas em predição de atividade biológica (136), argumentam que a distribuição dos
dados entre os grupos treino e teste para aplicações de triagem virtual sofre de um pequeno
paradoxo: o grupo teste deve ser o maior possı́vel para testar o desempenho do sistema, ao
mesmo tempo que o grupo treino precisa da maior quantidade de dados possı́veis para que o
modelo construı́do seja aplicável. Para resolver esta contradição, o método de validação mais
indicado para a construção de grupos testes é a validação cruzada k-particionada.
1.5
Tratamento de Estruturas Moleculares
Os equilı́brios tautoméricos e de ionização nas estruturas de macromoléculas biológicas e
seus ligantes são fundamentais em muitos processos de reconhecimento molecular. Em estudos
29
de triagem virtual é crescente o reconhecimento de que a inclusão de múltiplas espécies pode
gerar modelos mais preditivos. Por exemplo, de acordo com Scior et al (137), a inclusão de um
tautômero incorreto na análise de caracterı́sticas farmacofóricas pode influenciar erroneamente o
processo de determinação de doadores e aceptores de ligações de hidrogênio. No entanto, ainda
não existe um protocolo definido tanto no modo como são geradas e selecionadas as espécies
mais relevantes, quanto na maneira como seriam utilizadas na geração de modelos. Os trabalhos que investigaram o efeito da tautomeria e da protonação em protocolos de triagem virtual
baseados em alvos biológicos (138–140) não conseguiram mostrar uma influência positiva da
enumeração de espécies na acurácia do docking molecular, mas, de maneira geral, recomendam
considerar estas variações quı́micas nos estudos de triagem virtual, o que provavelmente pode
ser aplicado nas iniciativas de LBVS.
Mais recentemente, nota-se uma preocupação em incluir múltiplas espécies e múltiplas
conformações em uma abordagem mais ampla do conceito de atividade e da dinâmica inerente do
processo de ligação entre moléculas pequenas e seus alvos biológicos. Tanto as macromoléculas
biológicas quanto seus metabólitos e fármacos são moléculas adaptativas e flexı́veis e, portanto,
sujeitas a exibir propriedades emergentes que podem estar associadas tanto à resposta biológica
quanto a efeitos colaterais ou indesejados, como a inibição ou o estı́mulo alostérico, ou efeitos
agonistas e antagonistas provocados por pequenas moléculas ligadas ao mesmo sı́tio. Métodos
que consigam reter a maior parte da informação da flexibilidade molecular poderão descrever
com melhor precisão os eventos dinâmicos que governam a maioria dos processos biológicos, já
que uma vez ligados a uma proteı́na, compostos ativos podem sofrer alterações conformacionais
significativas em relação à conformação em solução aquosa ou no vácuo (141, 142).
O uso de abordagens Multi-Espécies Multi-Modo (MS-MM - Multi-Species Multi-Mode)
em estudos baseados na estrutura 3D dos ligantes não é muito difundido, exceto em estudos de
QSAR. O mais comum é o uso de uma espécie dominante no pH do experimento usado e de
uma única conformação, que pode ser uma conformação otimizada (mı́nimo global) produzida
por métodos de quı́mica teórica, uma conformação apresentada em uma estrutura cristalográfica
de um complexo ligante-receptor, ou uma conformação provinda de um alinhamento com outros compostos ativos, visando reproduzir um possı́vel modo de interação entre o composto e
a macromolécula. Esta abordagem, apesar de simples e direta, assume a condição que uma
única conformação é responsável pela atividade do composto. É comum o pressuposto que esta
30
conformação “bioativa” corresponda à conformação detectada em complexos cristalográficos.
Entretanto, os cristais usados para a obtenção da estrutura não são obtidos em ambiente fisiológico, o que pode gerar dúvidas sobre a validade desta suposição (143). Idealmente, deveria se obter o máximo de conformações possı́veis para cada molécula para garantir uma cobertura adequada dos possı́veis arranjos bioativos. Entretanto, uma busca conformacional extensiva
em um grande conjunto de dados moleculares iria acarretar um custo computacional proibitivo.
Logo, é necessário estabelecer um compromisso entre custo computacional e a diversidade da
amostragem conformacional (137).
Existe uma grande variedade de métodos de amostragem conformacional, muitos disponı́veis
nos pacotes de programas comerciais usados para a descoberta racional de fármacos. De modo
geral, estes métodos se dividem em dois grupos: determinı́sticos, que calculam as conformações
a partir dos ângulos torsionais de maneira sistemática; e estocásticos, que usam um elemento
aleatório para explorar o espaço conformacional de uma molécula (144). O objetivo principal
destes métodos é gerar e identificar uma série de conformações com um custo computacional
baixo que tenha uma alta probabilidade de conter os arranjos bioativos (107).
O DiscoveryStudio (109), da Accelrys, contém três algoritmos diferentes para a amostragem
conformacional. O CatConf (ou ConFirm) era previamente disponı́vel através do CATALYST
e possui dois modos de busca conformacional: fast e best. O primeiro faz uma busca semiextensiva nas partes mais flexı́veis da estrutura, enquanto usa uma série de conformações prédefinidas para ciclos e anéis. Já o modo best produz conformações de melhor qualidade, mas
com um maior custo computacional quando comparado ao modo fast, usando uma matriz de
coordenadas internas com limites superiores e inferiores para cada átomo para gerar arranjos
tridimensionais (107). Ambos os modos do CatConf passam por uma etapa de exploração da
diversidade conformacional usando o campo de força CHARMM (145) para cálculo das energias, mas o modo fast realiza um “relaxamento” das conformações encontradas dentro de uma
janela de energia definida pelo usuário, enquanto o modo best utiliza uma técnica chamada poling (146), onde barreiras de energia potencial são colocadas entre mı́nimos locais para aumentar
a diversidade conformacional. O outro método contido no DiscoveryStudio é o CAESAR (147),
que realiza uma busca conformacional sistemática ao representar a molécula através de uma
árvore, na qual as folhas são as menores unidades conformacionais em que a molécula pode ser
dividida, enquanto as arestas representam as ligações rotacionáveis que ligam dois nós da árvore.
31
O OMEGA (148, 149), da OpenEye Scientific Software, é um método sistemático baseado
em regras pré-definidas que descrevem as caracterı́sticas torsionais de fragmentos. O algoritmo
divide a molécula em fragmentos conectados, os quais podem conter entre uma e cinco ligações
rotacionáveis. Conformações para cada fragmento são geradas através de uma biblioteca de
ângulos torsionais pré-definidos, os quais são recolocados na estrutura inicial, visando construir
as conformações da molécula como um todo. A amostragem conformacional da molécula inteira
é feita usando um algoritmo de busca em profundidade, combinando os conjuntos de fragmentos
de menor energia. Conformações duplicadas ou com sérias restrições estéricas são removidas, e
as restantes são base para uma amostragem torsional mais refinada, gerando um número fixo de
conformações (definido pelo usuário) dentro de um intervalo de energia.
O Macromodel (150), da Schrödinger, contém vários métodos para amostragem conformacional, muitos deles usando uma estrutura hı́brida contendo elementos estocásticos e sistemáticos.
Dentre eles, se destaca o LMCS (Low-mode Conformational Sampling) (151), que combina um
método Monte-Carlo de amostragem do espaço torsional com um método baseado em autovetores para amostrar a vizinhança das conformações provindas do método anterior. Além disso,
o Macromodel usa modelos de solvatação para enviesar a amostragem em direção a prováveis
conformações bioativas. Entretanto, o custo computacional destes métodos os inviabilizam para
estudos de triagem virtual em larga escala (107).
O MOE (115) contém métodos estocásticos e determinı́sticos para realizar a amostragem
conformacional. O método estocástico é similar ao algoritmo RIPS (Random Incremental Pulse
Search) (152), onde novas conformações são geradas ao se alterar repetida e aleatoriamente
o valor de ângulos torsionais das ligações rotacionáveis na conformação anterior. Ao fim do
processo as conformações são minimizadas e apenas as que estejam dentro de uma janela de
energia e que não estejam duplicadas são mantidas. Já o algoritmo determinı́stico pode ser
sistemático, incrementando ângulos torsionais por valores fixos, ou baseado em fragmentos com
conformações pré-computadas.
Outros métodos de amostragem conformacional incluem o CONFORT (153), da Tripos,
que realiza buscas sistemáticas cujos resultados são minimizados por campos de força incluı́do
no próprio pacote da Tripos. O pacote QXP (154) realiza uma amostragem conformacional
aleatória, onde as conformações encontradas são minimizadas sob um campo de força; o MIMUMBA (155, 156), da BASF, que usa regras e dados derivados de estruturas cristalográficas
32
para realizar a amostragem conformacional. Agrafiotis et al (157) desenvolveram um gerador
de conformações baseados nas técnicas SPE (Stochastic Proximity Embedding) e SOS (SelfOrganizing Superimposition). Já Griewel et al, da Universidade de Hamburgo, desenvolveram
o TCG(TrixX Conformer Generator) (158), que quebra a molécula em fragmentos e começa a
construir a conformação a partir do componente mais central, usando conformações de fragmento
e ângulos diedros pré-calculados.
1.6
O Estado da Arte em Triagem Virtual Baseada na Estrutura de Ligantes
Apesar do uso de processos in silico no desenvolvimento racional de fármacos remontar da
década de 60 e 70 (16), o desenvolvimento de novos métodos e algoritmos aplicados ao processo de desenvolvimento de fármacos é uma área muito ativa de pesquisa. A triagem virtual
de alto desempenho é uma das áreas com um grande número de publicações de novas abordagens e metodologias e esta seção visa fornecer uma visão geral do estado da arte em triagem
virtual, focando especialmente nos métodos que usam somente dados de compostos ativos como
referência.
1.6.1
Metodologias LBVS baseadas em similaridade e/ou alinhamento
FLAP
O FLAP (Fingerprints for Ligands And Proteins) (159–162) é um programa que realiza triagem virtual através de buscas por similaridade usando fingerprints baseadas em farmacóforos
de ligantes e/ou estruturas de proteı́nas. Para construir os PPPs, o FLAP usa uma abordagem
similar à metodologia CoMFA, posicionando uma grade tridimensional gerada pelo programa
GRID (163) ao redor de estruturas de proteı́nas, ligantes ou complexos proteı́na-ligante para
mensurar as energias de interação em cada ponto da grade, através de sondas de diversos tipos como, por exemplo, sondas hidrofóbicas, polares ou aromáticas. A partir dos campos de
interação molecular (MIFs - Molecular Interaction Fields) gerados pelo GRID, o FLAP condensa regiões favoráveis a interações de um determinado tipo em um conjunto de pontos de
mı́nimos locais de energia, os quais passam a representar caracterı́sticas farmacofóricas (Figura
33
Figura 1.11: Um exemplo da aplicação do FLAP para geração de PPPs a partir da estrutura
de um ligante: MIFs são calculados ao redor da estrutura usando o GRID e são condensados
em PPPs. Todos os arranjos de quatro pontos são considerados, gerando grupos codificados em
fingerprints. O procedimento é repetido para todas as conformações previamente geradas por um
método estocástico. Retirado de (162)
1.11). Estes PPPs então são usados para gerar todos os arranjos de quatro pontos, formando
tetraedros, os quais são codificados em fingerprints.
Para realizar a triagem virtual, o FLAP gera um conjunto de farmacóforos de quatro pontos
de referência a partir de uma molécula ativa, um ligante co-cristalizado à estrutura do receptor
ou a partir da estrutura do sı́tio ativo do receptor. Uma busca por similaridade é realizada entre
a molécula de referência e os compostos de um conjunto de dados. Os tetraedros dos compostos
mais similares que coincidem com um tetraedro do conjunto de referência são usados para alinhar
a conformação selecionada da molécula à referência e este alinhamento é base das funções de
similaridade e escore implementadas no programa. Opcionalmente, técnicas de fusão de dados
(Data Fusion) podem ser empregadas para incorporar informações de múltiplas referências.
4D FAPOA
O 4D FAP (Flexible Atom Pairs) (164–166) é um método de busca por similaridade no
espaço conformacional das moléculas. Ao analisar a distribuição de distância entre átomos para
múltiplas conformações, o método gera modelos de mistura de gaussianas (GMMs - Gaussian
Mixture Models) para descrever de forma probabilı́stica a distribuição das distâncias. GMMs são
modelos probabilı́sticos que representam distribuições complexas baseados em combinações li-
34
neares de sub-distribuições individuais. Ao aplicar esta modelagem sobre conjuntos de conformações,
o método consegue generalizar os dados discretos provindos de uma amostragem conformacional para um modelo contı́nuo, que pode ser armazenado apenas em função dos parâmetros da
curva gaussiana (média e variância) e das combinações lineares. Os parâmetros das gaussianas
são estimados através de um algoritmo de otimização de parâmetros chamado Maximização de
Esperança (EM - Expectation-Maximization) (167).
Para o cálculo da similaridade entre duas moléculas, uma matriz de similaridade é construı́da
tomando uma função mista entre a natureza dos pares de átomos e a sobreposição dos GMM de
cada par. A similaridade final pode ser calculada através da soma normalizada dos valores dentro
da matriz, como feito pelo 4D FAP original, aplicado em estudos QSAR/QSPR (164, 165). Para
os estudos em triagem virtual, a similaridade foi calculada através de um algoritmo que implementa a resolução ótima do Problema de Atribuição1 (OA - Optimal Assignment), que maximiza
a valor da similaridade entre pares de átomos das duas moléculas sendo comparadas, resultando
na variante 4D FAPOA (166). Esta mudança foi inspirada nos trabalhos de Fröhlich (168, 169),
que aplicou métodos de atribuição ótima a problemas de similaridade molecular.
FieldScreen
FieldScreen (48) é um método de busca por similaridade através do alinhamento tridimensional de pontos de mı́nimos locais de energia de interação calculados através de MIFs. O processo de comparação implementado pelo FieldScreen pode ser visualizado na Figura 1.12. Cada
molécula passa por uma amostragem conformacional realizado por um gerador estocástico chamado XedeX (170), desenvolvido pelo mesmo grupo. As conformações são descritas por quatro
campos de força moleculares definidos pela interação entre a molécula e uma sonda positiva,
neutra, negativa ou hidrofóbica. Os pontos de mı́nimo local dos MIFs, juntamente com os valores destes campos, são usados como os descritores moleculares. A partir da comparação entre
matrizes de distância dos pontos de mı́nimo da molécula usada como referência e da molécula a
ser comparada, são gerados cliques2 coloridos, ou seja, cliques cujos vértices são do mesmo tipo.
1 Dado
um grafo ponderado bipartido completo G = (U ∪ V,U × V ), uma atribuição ótima é um acoplamento
M ⊂ U ×V onde a soma dos pesos de cada aresta é maximizada
2 Cliques são subgrafos completos. Dado um grafo G(V, E ⊂ V ×V ), um clique C(U ⊆ V,U ×U) é um subconjunto de vértices do grafo G que são totalmente conectados, ou seja, cada vértice de um clique possui uma aresta
ligando-o a todos os outros vértices do clique.
35
Figura 1.12: Representação esquemática os passos envolvidos na busca por similaridade em uma
base de dados tratada pelo FieldScreen: a) Uma molécula ativa é selecionada como referência
e a sua conformação “relevante” é calculada. b) Pontos de mı́nimo local são calculados e utilizados na representação da molécula referência. c) Uma busca em uma base de compostos que
receberam o mesmo tratamento é realizada, usando os pontos de mı́nimo para alinhar moléculas
similares d) Recuperação dos compostos com melhor alinhamento, quantificado através de um
escore de similaridade molecular. A base de dados do FieldScreen é populada (e) pela exploração
conformacional de todas as moléculas, com os pontos de mı́nimo adicionados e armazenados
junto com as conformações. Retirada de (48)
Os cliques são avaliados através do seu tamanho e do valor de energia dos pontos de mı́nimo local
armazenados, e o clique de maior escore é usado para alinhar as duas moléculas. O alinhamento
é finalmente avaliado usando uma métrica de similaridade (ı́ndice de Dice).
LigMatch
LigMatch (171) é um método de busca por similaridade que usa tripletes de átomos para
alinhar duas moléculas, usando um algoritmo conhecido como hashing geométrico (172). Cada
molécula têm sua diversidade conformacional amostrada através do programa OMEGA (149) e
todos os arranjos de três átomos são calculados, com as distâncias interatômicas armazenadas.
Os triângulos de cada molécula sendo comparada cujos vértices são formados pelos mesmos
elementos e com distâncias parecidas são considerados iguais, e são usados para alinhar as duas
moléculas. O alinhamento é numericamente avaliado usando o número de átomos coincidentes
36
como fator de escore, o qual é calculado para todos os confôrmeros. O maior escore ou o escore
médio são usados como critério de ordenamento da lista de moléculas.
PharmaGist
PharmaGist (117, 118, 173) é um método que alia uma detecção de farmacóforos em comum
a um conjunto de compostos ativos com um alinhamento par a par entre o modelo farmacofórico
construı́do e um conjunto de moléculas. A análise conformacional é feita de maneira explı́cita
e determinı́stica durante o processo de alinhamento. A elucidação do farmacóforo comum a um
conjunto de ligantes é realizada pelo PharmaGist através de um algoritmo iterativo que define um
ligante como molécula pivô e realiza múltiplos alinhamentos par a par entre o pivô e múltiplas
conformações dos outros compostos. As melhores superposições pareadas são consideradas para
gerar um alinhamento múltiplo, onde subconjuntos significativos de PPPs do ligante pivô se alinham ao maior número possı́vel de compostos (Figura 1.13). O processo se repete, selecionando
cada composto como pivô por vez. Entretanto, um pivô fixo pode ser selecionado pelo usuário.
Os farmacóforos são ponderados de acordo com o número de compostos que apresentam a caracterı́stica. Uma busca por similaridade pode ser feita ao alinhar os farmacóforos da molécula pivô
com os presentes em uma molécula a ser buscada em um banco de dados. O programa está disponı́vel através de um servidor (http://bioinfo3d.cs.tau.ac.il/pharma/index.html).
1.6.2
Uma Metodologia LBVS baseada em Aprendizado de Máquina
O JPS (Joint Pharmacophore Space) (130) é um método de predição de atividade biológica
que usa técnicas de mineração de dados e aprendizado de máquina. Dado um conjunto de compostos ativos e inativos, PPPs são calculados a partir de conformações das estruturas todas as
combinações de três pontos de farmacóforos são geradas. Os farmacóforos de três pontos são
divididos em classes de acordo com os tipos envolvidos, e dois arranjos são mapeáveis se e
somente se forem da mesma classe (i.e. seus vértices são do mesmo tipo farmacofórico.) Os
farmacóforos são divididos em conjuntos formados por arranjos mapeáveis, que por sua vez são
aglomerados através de um algoritmo de agrupamento k-medóides3 .
3 Um
medóide é análogo a um centróide de um aglomerado. A diferença é que o centróide é uma entidade que
não necessariamente faz parte do conjunto de dados, enquanto o medóide é necessariamente um elemento do cluster
37
Figura 1.13: Um conjunto de alinhamentos múltiplos gerados pelo PharmaGist para um conjunto
de ligantes da Aldose Redutase (ALR2). Os farmacóforos em comum apresentados por cada
alinhamento múltiplo são ponderados de acordo com o número de compostos que apresentam os
mesmos em cada alinahmento. Retirado de (118).
Os clusters são classificados de acordo com o seu poder de discriminação estatı́stica em três
classes: positivos, negativos e não-discriminativos. Clusters positivos possuem uma razão maior
do que a razão esperada entre o número de farmacóforos de três pontos que foram gerados a
partir de compostos ativos e o número de farmacóforos de três pontos no grupo em análise. Analogamente, clusters negativos contém uma razão maior do que a esperada entre farmacóforos
provindos de compostos inativos e o número total de farmacóforos. Cada agrupamento discriminativo tem um farmacóforo central, chamado “farmacóforo significativo”. Estes são usados
para alimentar um classificador baseado em SVM, que por sua vez classifica novas moléculas de
acordo com a atividade biológica pesquisada (Figura 1.14).
1.6.3
Metodologias LBVS baseadas em superposição de volume
SHAFTS
SHAFTS (50) é uma abordagem hı́brida de busca por similaridade molecular, a qual é calculada através da soma das similaridades normalizadas de fingerprints de farmacóforo e de
superposição de volumes. A abordagem do SHAFTS para triagem virtual (Figura 1.15) pode
38
Figura 1.14: Fluxo do algoritmo usado pelo JPS para realizar a classificação molecular de atividade biológica. Os triângulos formados por PPPs são extraı́dos dos dados de treinamento (contendo compostos ativos e inativos) e são agrupados através do algoritmo k-medóide. Os aglomerados têm sua significância estatı́stica determinada e seus farmacóforos centrais são usados para
gerar um modelo de classificação baseado em SVM, que podem ser usados para determinar a
atividade de uma nova molécula. Retirado de (130)
ser dividida em três estágios. Primeiramente, os PPPs, baseados em regras de grupos funcionais, são determinados na molécula de referência, que pode ter uma conformação pré-definida
por uma estrutura cristalográfica ou ter seu espaço conformacional amostrado (Figura 1.15 A)
através do Cindy (174), um método baseado em um algoritmo evolucionário desenvolvido pelo
próprio grupo que desenvolveu o SHAFTS. A seguir, a base de moléculas a ser buscada passa
pelo mesmo protocolo de amostragem conformacional e determinação de PPPs, com o passo
adicional opcional de otimização da conformação através do alinhamento entre as moléculas da
base e a molécula de referência (Figura 1.15 B). Finalmente, é realizada uma busca por similaridade usando os tripletes de PPPs da referência indexados em uma tabela hash. Para cada
coincidência, as conformações das moléculas que apresentam o mesmo triplete são alinhadas
com a referência. Cada alinhamento é avaliado de acordo com uma medida de similaridade que
leva em conta o alinhamento dos PPPs e a superposição dos volumes (Figura 1.15 C). Apenas a
conformação com melhor ı́ndice de similaridade é armazenada.
39
Figura 1.15: Representação esquemática do fluxo de trabalho do SHAFTS para triagem virtual:
(A) Seleção de um composto ativo covertido a uma conformação especı́fica e adição dos PPPs
como referência. (B) Busca na base de dados sobrepondo cada estrutura à referência usando a
indexação por tabela hash. (C) O resultado da busca é ordenado de acordo com a similaridade
hı́brida, e os alinhamentos resultantes são fornecidos como saı́da. Retirado de (50).
Phase Shape
Phase Shape (51) é um novo método de superposição de volume da Schrödinger, que pode
considerar tipagem de unidades de volume para o cálculo da superposição. O método consiste
em uma rápida busca por similaridade usando a distribuição das distâncias radiais entre átomos
vizinhos como filtro, seguida de um processo de maximização da superposição dos volumes entre
os melhores resultados. O escore da superposição pode ser avaliado tomando apenas os volumes
de van der Walls dos átomos pesados e hidrogênios carregados, ou pode ser ponderado de acordo
com o elemento considerado (Figura 1.16). Um terceiro modo usa caracterı́sticas farmacofóricas
mapeadas aos átomos para a avaliação do alinhamento, o que gera os melhores resultados.
1.6.4
Bases de Dados para Estudos Retrospectivos Comparativos
Apesar da grande diversidade de métodos disponı́veis para triagem virtual, a comparação
entre eles é uma tarefa árdua, já que cada grupo de pesquisadores publica métricas diferentes
para bases de dados diferentes (90). Com a finalidade de reverter este panorama caótico, alguns
grupos publicaram bases de dados especı́ficas para benchmarking comparativo de ferramentas
em virtual screening. Dentre estas, o DUD (175) e o MUV (176) se destacam como as mais
40
Figura 1.16: Os três modelos de volume suportados pelo Phase Shape. Retirado de (51).
41
usadas em recentes estudos retrospectivos comparativos em triagem virtual. Outra iniciativa recente para a uniformização de benchmarks é o REPROVIS-DB (177), que usou dados de estudos
prospectivos de triagem virtual para gerar um conjunto de compostos ativos e inativos para 25
sistemas relacionados a alvos terapêuticos, sistenas que se assemelham a um cenário prático de
aplicação de triagem virtual prospectiva.
DUD
O DUD (175) (Directory of Useful Decoys - www.dud.docking.org) originalmente surgiu
como uma base de dados quı́micos para uniformizar estudos comparativos de ancoragem molecular. 40 alvos protéicos de interesse terapêutico foram selecionados de acordo com a disponibilidade de ligantes anotados, estruturas cristalizadas e estudos prévios de docking molecular.
Para cada um dos alvos selecionados, um conjunto de ligantes foi retirado da base de dados
ZINC (178), em conjuntos que variavam entre 12 e 416 compostos, totalizando 2950 moléculas
na publicação original. Para cada um destes conjuntos de compostos ativos, um conjunto de
compostos supostamente inativos foi gerado, buscando moléculas topologicamente dissimilares
mas com propriedades fisico-quı́micas parecidas com os ativos, os chamados decoys. Este protocolo foi realizado com o intuito de se evitar que classificadores triviais conseguissem diferenciar
os ativos do conjunto de inativos usando descritores simples, como massa molecular, número
de grupos funcionais, dentre outros. Uma média de 36 compostos inativos foi gerado para cada
composto ativo.
Apesar dos dados serem inicialmente planejados para estudos comparativos de desempenho
de ferramentas de ancoragem molecular, muitos estudos retrospectivos em triagem virtual baseados na estrutura dos compostos ativos utilizaram os dados do DUD como base de benchmark
( (48, 88, 118, 162, 166, 171, 179–181) para citar alguns poucos). Para tanto, é recomendado
usar não a versão original do DUD, mas uma versão que passou por um filtro de caracterı́sticas
de compostos-protótipo (182), sugerido por Good e Oprea (92) e aplicado por Jahn et al (179)
nos estudos de métodos baseados no Problema da Atribuição. Estes dados também estão disponı́veis através da página do DUD. Duas meta-análises independentes (87, 180) consideraram
esta versão filtrada do DUD adequada para estudos LBVS retrospectivos. Além disso, Good
e Oprea (92) agruparam os compostos ativos pela sua similaridade estrutural, gerando agrupamentos de moléculas estruturalmente parecidas dentre compostos ativos. Para cada um desses
42
agrupamentos, foi selecionada uma molécula medóide que representaria todo o cluster, gerando
um conjunto de ligantes estruturalmente únicos, os chamados DUD-Parents, cujo tamanho é
igual ao número de classes estruturais dos compostos ativos de cada alvo. O resultado deste
agrupamento também está disponı́vel na página do DUD.
MUV
O conjunto de dados MUV(Maximum Unbiased Validation) (176) foi projetado para evitar enriquecimentos artificiais em estudos LBVS. Uma base de dados de compostos usada para
estudos retrospectivos pode sofrer tipicamente dois vieses que influeciam a avaliação de seus
desempenhos: o “viés do análogo” (92) (os compostos ativos são muitos similares entre si) e
o “enriquecimento artificial” (183) (os compostos ativos são muito dissimilares aos compostos
inativos). Com o intuito de se medir estes vieses em bases de dados de compostos, os autores aplicaram uma técnica de estatı́stica espacial, chamada Análise Refinada do Vizinho mais
Próximo (Refined Nearest Neighbour Analysis) (184, 185), para mensurar estes vieses de conjuntos de dados de benchmark e projetar um novo conjunto de compostos baseado em dados
de ensaios in vitro disponı́veis no PubChem BioAssay (186). A coleção de conjuntos de dados
resultante deste estudo compreende ligantes associados a 17 alvos terapêuticos, sendo que cada
conjunto é formado por 30 compostos ativos (com pelo menos 21 classes estruturais) e 15000
compostos inativos. A dimensão destes conjuntos foi recentemente criticada por Nicholls (87) no
capı́tulo de sua autoria presente no livro editado por Bajorath (187), que sugere que uma razão de
40 compostos inativos para cada ativos é mais que suficiente para minimizar o erro experimental
em estudos comparativos de triagem virtual. Coincidentemente, esta razão é bem próxima da
apresentada pelo DUD (36:1).
43
2
Objetivos
2.1
Objetivo Geral
Construir e validar uma ferramenta que possibilite estudos de triagem virtual baseada na
estrutura dos ligantes ativos, codificada através de fingerprints de farmacóforos
2.2
Objetivos Especı́ficos
• Propor um novo método para construção e validação de modelos robustos e preditivos,
baseados em extensa validação cruzada interna.
• Propor uma nova representação das estruturas moleculares na forma de farmacóforos potenciais utilizando múltiplas espécies e conformações.
• Realizar estudos retrospectivos para validar o bom funcionamento da ferramenta, e comparar seu desempenho contra outras aplicações semelhantes.
44
3
Metodologia
3D-Pharma é uma aplicação de Triagem Virtual baseada na estrutura de substâncias com atividade biológica previamente conhecida. Um protocolo de tratamento das estruturas moleculares
foi desenvolvido e aplicado sobre todos os compostos (Seção 3.1), com o objetivo de uniformizar
as moléculas e amostrar o espaço de possibilidades de configurações quı́micas e conformacionais
das substâncias. Regras para o mapeamento farmacofórico serão definidas na Seção 3.2, mapeamento este que será usado na construção das fingerprints (Seção 3.3), vetores binários usados
pelo 3D-Pharma. Os vetores correspondentes às substâncias ativas são submetidos a um processo de construção e validação de modelos (Seção 3.4) que, por sua vez, podem ser comparados
a outras substâncias e usados para predizer a atividade das mesmas.
3.1
Tratamento das Estruturas Moleculares
Para evitar introdução de viéses nos modelos produzidos, é necessária uma padronização dos
compostos envolvidos como discutido na Seção 1.5. Para tanto, um pré-tratamento foi realizado
através de uma dessanilização manual, que consistiu em uma inspeção manual dos arquivos
obtidos das diferentes bases de dados de compostos, quando os mesmos eram formados por
múltiplas estruturas (sais, misturas, etc.). Além disso, cada molécula é representada pelo seu
tautômero mais provável. Estes procedimentos foram realizados pelos programas Instant JChem
e Standardizer, ambos da ChemAxon (188), que também foram usados para transformar todas as
estruturas para o formato SMILES.
O protocolo de tratamento molecular desenvolvido para amostrar o espaço de possibilidades
quı́micas e conformacionais de substâncias inicia-se com a determinação dos tautômeros dominantes, ou seja, as variantes tautoméricas com maior concentração nas faixas de pH entre 0 e 14.
45
O cálculo é feito pelo módulo ‘tautomers’ do programa CXCalc, da ChemAxon (188). Para
cada tautômero, calcula-se seu estado de protonação em pH 7. Tal cálculo é feito pelo módulo
’majorms’ do programa CXCalc (188). Na Figura 3.1 a. pode se ver um exemplo do cálculo de
tautômeros aplicado à Histidina.
Para a amostragem conformacional, escolheu-se um protocolo que visa otimizar a relação
custo computacional / precisão, como discutido na Seção 1.5. Tal protocolo consiste em três
passos: cálculo da conformação mais estável, cálculo de cargas parciais e amostragem conformacional. Usando o programa Omega2, da OpenEye (149) e o campo de força MMFF94s (189),
calculou-se a conformação mais estável de cada representação da molécula. A seguir, aplicouse o programa molcharge, parte integrante do pacote QuacPac, também da OpenEye (149),
sobre cada conformação, a fim de calcular as cargas parciais de cada átomo com o método
semi-empı́rico AM1-BCC (190). Finalmente, amostrou-se o espaço conformacional de cada
representação molecular, novamente através do Omega2 e usando o campo de força MMFF94s.
As moléculas que possuem mais de 25 ligações rotacionáveis foram descartadas. Cada representação
(espécie) de cada molécula que foi mantida gerou conformações que obedecem às seguintes
restrições
• Apenas conformações com energia menor que a soma da energia da conformação mais
estável (mı́nimo global de energia) e uma janela de cinco kcal/mol (para moléculas com
menos de cinco ligações livres) a dez kcal/mol (para moléculas com cinco ou mais ligações
rotacionáveis).
• A seleção é limitada a 50 diferentes conformações para moléculas com até quatro ligações
rotacionáveis, 100 diferentes conformações para moléculas que possuem de cinco a nove,
150 conformações para moléculas que possuam de 10 a 14, e a 200 conformações para
moléculas com 15 ou mais ligações livres.
• Uma conformação é considerada uma duplicata de uma outra conformação se ela possui uma distância quadrática média (RMSD - Root Mean Square Distance) menor que
0,5 Å(para moléculas com até quatro ligações rotacionáveis) ou menor que 1,0 Å(para
moléculas com cinco ou mais ligações livres).
Ao final do processo de tratamento, cada molécula é descrita por uma mirı́ade de representações
46
e conformações que representam os aspectos dinâmico e quı́mico da substância. Diferentemente
dos métodos mais tradicionais, nenhum tautômero ou conformação é descartado a priori, exceto se apresentar baixa distribuição em ampla faixa de pH ou elevada energia, respectivamente.
Assim, os aspectos dinâmicos inerentes à estrutura molecular são conservados e mesmo nos casos onde existe mais de uma conformação ativa ou diferentes mecanismos de ação, é possı́vel a
análise e a geração de modelos preditivos de atividades biológicas das moléculas. Mesmo no caso
de uma mesma molécula interagir com diferentes alvos por meio de diferentes conformações, diferentes modelos podem aflorar a partir da mesma descrição da estrutura molecular (Figura 3.1).
3.2
Mapeamento Farmacofórico
Ao atribuir caracterı́sticas farmacofóricas aos átomos pesados de uma molécula, utilizou-se
o programa PMapper, da ChemAxon (188), que usa uma série de regras para determinar a(s)
classe(s) designada(s) a cada átomo. O programa analisa se um dado átomo é capaz de realizar
ligações de hidrogênio e/ou se faz parte de um anel aromático. Tais informações combinadas
com a informação de cargas parciais são suficientes para o programa atribuir uma ou mais caracterı́sticas farmacofóricas, tranformando o átomo em um (ou mais) ponto(s) de farmacóforo
potencial, ou PPP (Potential Pharmacophore Point). Cada PPP possui uma coordenada espacial
para localização, correspondente à coordenada tridimensional do átomo, e um tipo associado.
PPPs podem assumir uma das seguintes caracterı́sticas:
• Positivamente carregado (P), se um átomo possui uma carga parcial acima de +0.4
• Negativamente carregado (N), se um átomo possui uma carga parcial abaixo de -0.4
• Doador de Hidrogênio (D), se um átomo pode doar hidrogênios para estabelecer uma
Ligação de Hidrogênio
• Aceptor de Hidrogênio (A), se um átomo pode receber hidrogênios para estabelecer uma
Ligação de Hidrogênio
• Aromático (R), se um átomo faz parte de um anel aromático
• Hidrofóbico (H), se um átomo não se encaixa em nenhuma das caracterı́sticas anteriores.
47
a
SMILES
b
Tautômeros
N[C@@H](CC1=CN=CN1)C(O)=O
Tautômero 1
Tautômero 2
c
Protômeros,
Conformações
e
Farmacóforos
Conf. 1a
Conf. 1b
Conf. 2a
Conf. 2b
d
Farmacóforo
triplete
alfanumérico
PND111
PND123
PND123
PND134
e
Farmacóforo
indexado pela
função hash
25421
f
Estrutura
híbrida com o
farmacóforo
dinâmico do
3D-Pharma
356924
12382
Figura 3.1: Efeito do tratamento das estruturas moleculares na geração de farmacóforos no 3DPharma. O aminoácido Histidina foi selecionado como exemplo e todas as estruturas estão representadas em 2D para melhor visualização. a) A representação em formato SMILES da Histidina.
b) As estruturas dos dois tautômeros dominantes da Histidina, mostrando a troca do hidrogênio
entre os dois átomos de nitrogênio no anel imidazólico. c) As estruturas das microespécies dominantes (protômeros) de cada tautômero da Histidina em pH 7. Duas conformações hipotéticas
são representadas para cada protômero, considerando apenas a rotação do anel imidazólico. O
triângulo de PPPs formado por um dos átomos de oxigênio carregados negativamente no grupo
carboxila (N), o nitrogênio-α carregado positivamente (P), e o átomo de nitrogênio no anel imidazólico, o qual faz o papel de doador de hidrogênio (D). O mesmo triângulo é representado
nas outras três conformações. d) Os triângulos farmacofóricos de cada conformação são convertidos em caracteres alfanuméricos. “PND” representa a trinca formada pelos farmacóforos:
Positivamente carregado, Negativamente carregado e Doador de hidrogênio. Os números após
os caracteres representam as distâncias discretizadas entre os átomos (ver Figura 3.2). e) O
farmacóforo triplete indexado pela função hash. f) A representação hı́brida hipotética do farmacóforo PND da Histidina codificado pela fingerprint do 3D-Pharma. Todos os farmacóforos
triplete detectados em todas as conformações são igualmente considerados.
48
Ao final do mapeamento, cada átomo pesado dará lugar a um ou mais PPPs com a mesma
coordenada tridimensional, mas com um tipo diferente de farmacóforo associado (por exemplo,
Negativo e Aceptor de hidrogênio). Esta informação será usada para a geração das Fingerprints.
3.3
Construção de Fingerprints
Para gerar as fingerprints, calcula-se todos os agrupamentos possı́veis de três PPPs da molécula.
Agrupamentos que possuam PPPs derivadas do mesmo átomo (quando a distância euclidiana
entre dois PPPs é zero) são eliminados. Estes tripletes têm as distâncias entre seus vértices
discretizadas de acordo com os intervalos de distância (bins) presentes na Tabela 3.1.
Bins
Intervalos
0
< 3Å
1
3 − 4, 5Å
2
4, 5 − 6Å
3
6 − 8Å
4
8 − 10Å
5
10 − 12, 5Å
6
12, 5 − 15Å
7
15 − 18Å
8
18 − 21Å
9
> 21Å
Tabela 3.1: Intervalos de discretização de distâncias entre pontos
Os tripletes são convertidos em strings de seis caracteres, de modo que cada uma esteja associada univocamente ao trio de PPPs. Os tipos farmacofóricos estão representados nos primeiros
três caracteres, enquanto os números finais correspondem às distâncias discretizadas entre cada
ponto, tal como mostra a Figura 3.2. Essa string é indexada através de uma função hash previamente calculada pela biblioteca CMPH (191) e apenas seu ı́ndice é armazenado. Quando
todas as combinações de três PPPs passarem por este processo, a molécula será representada por
uma série de ı́ndices numéricos que codificam todas as informações provenientes de cálculos
de tautomeria, de protonação, conformacionais e de interação potencial (na forma de caracterı́sticas farmacofóricas). Tal representação permite um cálculo quantitativo de similaridade
entre moléculas, através do Índice de Tanimoto, que pode ser calculado pela Equação 3.1, onde
A representa o conjunto de ı́ndices de uma molécula a ser comparada com os ı́ndices de outra
molécula B.
STanimoto =
|A ∩ B|
|A ∪ B|
(3.1)
49
B
N
3,5Å
1
6,1Å
A
4,8Å
Discretização e
Caracterização
Farmacofórica
3
P
2
C
Centro A
Centro B
Centro C
Distância
AB
Distância
AC
Distância
BC
P
N
D
1
2
3
Determinação da
representação em
caracteres
D
Figura 3.2: Exemplo de conversão de um triângulo formado por PPPs em uma string de seis
caracteres. Cada par de PPP tem suas distâncias discretizadas e os centros são ordenados de
acordo com essas distâncias de maneira a formar sempre uma string que identifica univocamente
o triplete
3.4
Geração e Validação dos Modelos
Um modelo é uma abstração dos dados provenientes das substâncias ativas e deve conter os
descritores que são significativos para a caracterização da atividade biológica para um certo alvo
terapêutico. Quanto mais similar for o modelo às moléculas que o originaram, maior a probabilidade de que ele contenha a informação que descreva a atividade (28). Um modelo do 3D-Pharma
é formado pelos ı́ndices dos tripletes de farmacóforos mais comuns entre as moléculas do grupo
treino. Formalmente, o modelo M é um conjunto de configurações de PPP (x) que estão presentes
nas moléculas integrantes do grupo treino (T ) acima de um valor de corte τ, ou seja:
m
x∈M⇔
∑ f (x, Ti)
i=1
m
≥ τ, f (x, Ti ) =
(
1
0
se x ∈ Ti
caso contrário
(3.2)
onde m é o tamanho do grupo treino T , e Ti é a i-ésima molécula do grupo. Experimentos
preliminares (Seção 4.2.1) sugeriram que um valor padrão de τ = 0.7 é genérico o suficiente
para manter o poder preditivo dos modelos.
Considerando as sugestões contidas nos trabalhos do Prof. Tropsha sobre a validação de
modelos de QSAR (53, 55, 131, 133, 134), o modelo deve ser extensivamente validado para
assegurar seu poder de predição. Para tanto, foi desenvolvido um protocolo de construção de
modelos com alto poder preditivo baseado em um esquema de validação cruzada 10-fold.
50
Inicialmente, o grupo de moléculas ativas que farão parte do modelo deve ser separada em
dez partições. Esta separação pode ser tanto aleatória quanto sistemática, ou seja, distribui-se as
moléculas através das partições de acordo com um critério, buscando maior homogeneidade entre
elas, o que torna o processo de validação uma Validação Cruzada Estratificada. O critério usado
foi a similaridade média entre as moléculas. Uma matriz de similaridade é calculada, contendo
a similaridade entre todos os pares de moléculas. As moléculas são ordenadas pela similaridade
média e distribuı́das pelas partições. A primeira partição recebe a molécula centróide (com a
maior média de similaridade), a segunda partição recebe o vizinho mais próximo ao centróide e
assim por diante, até que todas as moléculas tenham sido distribuı́das.
Durante o processo de construção do modelo (Figura 3.3), as dez partições podem assumir três papéis. O grupo teste é usado para validação interna e é formado por uma partição.
As nove partições restantes são divididas em dois grupos. O grupo de avaliação, formado por
três partições, é usado para avaliar a similaridade do modelo com um conjunto diferente de
moléculas. Já o grupo treino, formado por seis partições, é responsável pela construção do modelo. Os tripletes de PPP que obterem uma frequência acima de um certo valor de corte (único
parâmetro de entrada do programa) entre as moléculas integrantes das partições que fazem parte
do grupo treino farão parte do modelo (Equação 3.2). Todas as 840 possibilidades de distribuição
das partições entre os grupos Treino, Teste e Avaliação são consideradas.
Durante a validação cruzada, uma partição assume o papel de Grupo Teste, enquanto as
outras nove são usadas em todas as combinações possı́veis para gerar os grupos Avaliação e
Treino1 . A similaridade média entre cada um dos 84 modelos e seu respectivo Grupo Avaliação
é medida, e apenas os dez modelos com a maior similaridade são selecionados para a validação
interna.
Na validação interna, o Grupo Teste é então inserido em um conjunto de moléculas inativas e
os modelos são usados para recuperar as moléculas do Grupo Teste. O desempenho dessa busca
é medido através da área sobre a curva ROC (AUCROC - Area Under the Receiver-Operator
Characteristic Curve) e apenas o modelo com a maior AUCROC é mantido. Este processo é
repetido, de forma que todas as partições assumam o papel de Grupo Teste, totalizando dez
modelos finais.
1 Como
estamos distribuindo nove grupos entre seis posições no Grupo Treino, temos C96 =
pares de Grupos Treino e Avaliação
9
6
= 84 possı́veis
51
9
Ativos
1
3
Grupo
Teste
Modelo Final
x10
1
ROC
6
Grupos de
Avaliação
10
Tanimoto
Grupos
Treino
84
Modelos
Inativos
Figura 3.3: Fluxograma do processo de construção e validação interna de modelos usando
Validação Cruzada 10-fold. Primeiramente, uma partição (correspondente a aproximadamente
10% das moléculas ativas) é separada como grupo Teste, enquanto as outras nove partições são
distribuı́das entre grupos Treino e Avaliação. Dos 84 modelos produzidos, apenas dez são selecionados, de acordo com o valor da similaridade média entre o modelo e seu respectivo Grupo
de Avaliação. Finalmente, estes dez modelos são validados, tentando recuperar as moléculas
do grupo Teste dentre um conjunto de moléculas inativas. Apenas o modelo com o melhor desempenho é mantido. O processo então se repete para as outras nove partições, totalizando dez
modelos finais.
52
Todo esse processo requer ao menos dez moléculas ativas para a execução. Caso o conjunto
de ativos não seja maior ou igual a dez, apenas um modelo simples é produzido, de acordo com a
Equação 3.2. No caso, ao invés do grupo Ti ser um subconjunto das moléculas ativas, todas elas
fazem parte do grupo, o que inviabiliza a validação interna do modelo, já que não existem grupos
Avaliação e Teste. Este modelo simples também pode ser gerado para os datasets maiores, caso
seja a opção do usuário.
A aplicação do modelos deve ser feita sobre um conjunto de moléculas que passou pelo
mesmo tratamento descrito na Seção 3.1. O modelo deve ser comparado par a par com cada
uma das moléculas, que por sua vez devem ser ordenadas de acordo com a similaridade com
o modelo. Como iremos demostrar nos resultados (Seção 4.3.2), as moléculas no topo da lista
ordenada tem uma alta probabilidade de interagirem com o mesmo alvo terapêutico para o qual
as substâncias usadas para a construção do modelo são ativas.
53
4
Resultados e Discussão
Neste capı́tulo encontram-se os dados dos experimentos usados para ajuste de parâmetros
(Seção 4.2) e validação do 3D-Pharma (Seção 4.3). Os experimentos foram realizados sobre os
dados apresentados na Seção 4.1.
4.1
Bases de Dados
Os estudos de validação do 3D-Pharma foram feitos usando conjuntos de compostos ativos
e inativos associados a alvos constantes na base de dados do DUD (175) (Directory of Useful Decoys - www.dud.docking.org). O conjunto de compostos inativos foram filtrados de
acordo com o filtro aplicado por Jahn et al (179). Três conjuntos de dados externos e independentes de moléculas ativas foram usados nos experimentos para gerar os modelos de predição
de atividade. O conjunto “Fármacos” contém moléculas aprovadas pela FDA1 ou ainda em
fase clı́nica de desenvolvimento. Tais substâncias foram obtidas de três bases de dados: DrugBank (192, 193) (www.drugbank.ca), KEGG DRUG (194) (http://www.genome.jp/kegg/
drug/) e TTD (195) (http://bidd.nus.edu.sg/group/cjttd/). O conjunto “Ligantes-PDB”
contém as moléculas que se ligam às estruturas cristalográficas dos respectivos alvos do DUD
depositadas no PDB (23) (www.pdb.org). A lista dos ligantes associados a cada alvo proveniente
do PDB foi analisada manualmente a procura de ı́ons, moléculas que fazem ligações covalentes
com a cadeia protéica ou aminoácidos modificados. Tais compostos foram retirados da análise.
O terceiro conjunto de dados é baseado no banco de moléculas WOMBAT (26, 92). Apesar
do banco de dados ser comercial, foram disponibilizados no site do DUD alguns conjuntos de
1 Food
and Drug Administration - Órgão norte-americano que regulamenta a aprovação e venda de fármacos e
artigos alimentı́cios nos EUA, a mesma função realizada no Brasil pela ANVISA (Agência Nacional de Vigilância
Sanitária)
54
compostos ativos para 13 alvos (92), sendo que 11 deles também fazem parte do DUD. Destes
onze, o Receptor de Estrogênio foi o único que não foi incluı́do nos estudos de validação, pois ao
contrário do DUD, as bases externas não diferenciam agonistas de antagonistas no seu conjunto
de moléculas ativas. Ao final, dentre as 40 atividades do DUD, foram selecionados dez alvos
representantes para os experimentos, devido à disponibilidade de dados do WOMBAT.
Todas as substâncias passaram pelo mesmo protocolo de tratamento de estruturas moleculares descrito na Seção 3.1. Os conjuntos externos de compostos ativos também passaram por
um filtro 2D para eliminar redundâncias entre os dados utilizados na construção de modelos e os
dados de compostos ativos do DUD. O número de compostos de cada conjunto de dados pode
ser visto na Tabela 4.1.
4.2
Experimentos Preliminares
4.2.1
Valores de Corte da Modelagem
Utilizando uma versão anterior do 3D-Pharma, foram testados dois valores de corte que
parametrizavam a construção dos modelos, com o intuito de gerar um único modelo final ao
unir os dez modelos gerados pelo protocolo de validação. Além do valor de corte τ, presente na
Equação 3.2, um segundo valor de corte (υ) era utilizado de maneira análoga sobre os modelos
para unir os tripletes de PPP sob uma única fingerprint modal. Com o intuito de encontrar os
melhores valores de corte, um estudo foi realizado sobre os dez conjuntos de dados de compostos
ativos associados aos alvos da base de dados do DUD presentes na Tabela 4.1, usando o conjunto
de dados DUD-Parents como conjunto de compostos ativos, e o conjunto DUD-Decoys como
conjunto de compostos inativos.
Os modelos construı́dos a partir das moléculas dos conjuntos DUD-Parents foram avaliados
quanto à sua capacidade de priorizar os compostos pertencentes aos DUD-Ativos quando misturados aos compostos inativos do DUD-Decoys através da área sob a curva ROC. Os resultados
(Tabela 4.2.1) sugerem que o valor ótimo de τ é 0,6, seguido por um corte υ que poderia ser
tanto 0,2 ou 1,0, já que a diferença entre as médias de AUCROC dos mesmos não é significativa estatisticamente (confiança acima de 95% no teste t-Student). Ao evoluir o algoritmo de
validação, decidiu-se que um modelo único não mais seria gerado, mas sim um conjunto de dez
55
Alvo
ALR2
AR
PPARγ
CDK2
COX-2
EGFR
FXα
HIVRT
P38
PDE5
Conjunto de Dados
Número de
Compostos
DUD-Ativos
DUD-Decoys
Fármacos
Ligantes-PDB
WOMBAT
DUD-Ativos
DUD-Decoys
Fármacos
Ligantes-PDB
WOMBAT
DUD-Ativos
DUD-Decoys
Fármacos
Ligantes-PDB
WOMBAT
DUD-Ativos
DUD-Decoys
Fármacos
Ligantes-PDB
WOMBAT
DUD-Ativos
DUD-Decoys
Fármacos
Ligantes-PDB
WOMBAT
DUD-Ativos
DUD-Decoys
Fármacos
Ligantes-PDB
WOMBAT
DUD-Ativos
DUD-Decoys
Fármacos
Ligantes-PDB
WOMBAT
DUD-Ativos
DUD-Decoys
Fármacos
Ligantes-PDB
WOMBAT
DUD-Ativos
DUD-Decoys
Fármacos
Ligantes-PDB
WOMBAT
DUD-Ativos
DUD-Decoys
Fármacos
Ligantes-PDB
WOMBAT
26
910
11
26
41
68
2616
45
13
36
6
38
12
63
27
47
1702
37
135
148
212
11577
77
4
66
365
14516
10
12
62
64
1888
5
85
105
34
1370
4
29
97
135
5416
16
77
52
26
1561
12
10
85
Número de
Classes
Estruturais no
DUD-Ativos
14
10
6
32
44
40
19
17
20
22
Tabela 4.1: Número de substâncias dos conjuntos de dados associados aos alvos do DUD selecionados para o estudo de validação externa do 3D-Pharma, além do número de classes estruturais
dos compostos ativos do DUD para cada conjunto.
56
τ
AUCROC
υ
AUCROC
0,0
0,645
0,0
0,803
0,1
0,692
0,1
0,805
0,2
0,787
0,2
0,832
0,3
0,833
0,3
0,807
0,4
0,857
0,4
0,810
0,5
0,870
0,5
0,811
0,6
0,877
0,6
0,815
0,7
0,871
0,7
0,816
0,8
0,858
0,8
0,820
0,9
0,843
0,9
0,823
1,0
0,837
1,0
0,829
Tabela 4.2: Resultados da avaliação do impacto dos valores de corte τ e υ sobre o poder preditivo
dos modelos em uma versão anterior do 3D-Pharma. Na versão atual, um único corte é usado.
Considerando que υ = 0, 0 rendeu o pior resultado, foi decidido que o valor padrão do corte
único (τ=0,7) seria mais restritivo do que o ótimo encontrado anteriormente.
modelos que poderiam, por exemplo, ser usados para gerar uma lista de consenso. Para tanto,
a estratégia de dois cortes sucessivos não era mais adequada, fazendo que o corte υ não fosse
mais necessário. Entretanto, a sua contribuição para a melhora do poder preditivo dos modelos
finais foi considerada, já que foi decidido que um valor mais restritivo do valor de τ (0,7) fosse
adotado como padrão.
4.2.2
Tempo de processamento das comparações moleculares
Para se definir o tempo de processamento de um experimento em triagem virtual usando o
3D-Pharma, é preciso somar a contribuição dos vários módulos que compõe o programa, desde o
tratamento molecular até a geração de modelos e busca por similaridade. O algoritmo de geração
de farmacóforos de três pontos para o cálculo das fingerprints é exaustivo, com complexidade
O(n3 ), onde n é o número de PPPs em uma molécula. Entretanto, n é relativamente pequeno,
tornando a execução deste módulo extremamente rápida para uma única conformação, embora a
contribuição do tempo necessário para se processar todas as conformações de todas as espécies
de uma molécula seja considerável. Apesar disso, o tratamento molecular e a geração das fingerprints são executados apenas uma vez para cada composto de uma base de dados, possibilitando
a realização de vários experimentos de triagem virtual com as mesmas susbstâncias, sem necessidade de reexecutar os mesmos protocolos. Portanto, a contribuição destes módulos não será
considerada na análise de tempo de processamento.
Por sua vez, a geração de modelos também usa um algoritmo exaustivo para calcular todas as
840 combinações entre grupos treino, avaliação e teste para enfim construir os dez modelos finais.
Mas, apesar de ser um algoritmo “força bruta”, o tempo total de processamento da geração de
modelos é dominado pela avaliação dos mesmos, especialmente quando os modelos são testados
57
Alvo
ALR2
PDE5
AR
P38
Tempo médio de
comparação
Molécula x
Molécula (ms)
17,42
51,49
40,94
N/A
Número médio
de grupos de 3
PPPs por
molécula
2950,0
7258,8
6058,6
5908,3
Tempo médio de
comparação
Modelo x
Molécula (ms)
8,82
30,16
24,09
28,55
Numero médio
de grupos de 3
PPPs por por
modelo
602,0
1729,9
268,07
1966,03
Tabela 4.3: Tempo de processamento para a comparação entre fingerprints de moléculas e modelos usando o 3D-Pharma, detalhado para quatro alvos do DUD. Os experimentos foram realizados em um servidor Linux Ubuntu 9.04 com dois processadores Intel Xeon 2,33 GHz e 2GB
de memória, com quatro núcleos cada.
sobre um grupo de moléculas inativas misturadas com as moléculas do grupo teste. Dado que
cada grupo teste é comparado com dez modelos a fim de se escolher um modelo final e que
a validação cruzada implementada usa dez grupos, são feitos 100 testes, avaliados através de
curvas ROC, por execução do protocolo de validação cruzada. Logo, a busca por similaridade se
justifica como o principal componente computacional do 3D-Pharma.
Com o intuito de avaliar o tempo de processamento das buscas por similaridade, além de
comparar o desempenho computacional do 3D-Pharma com dados de outras aplicações que
também realizam comparações moleculares, um estudo foi realizado usando as moléculas provenientes do DUD-Decoys sem considerar o filtro drug-like aplicado por Jahn et al. (179). Foram
escolhidos quatro alvos dentre os alvos do DUD (Tabela 4.1) que possuem um número diverso de
compostos inativos: ALR2 (918 compostos), PDE5 (1808 compostos), AR (2618 compostos) e
P38 (7312 compostos). Dois experimentos distintos foram realizados: comparação DUD-Decoys
x DUD-Decoys2 e comparação Modelos x DUD-Decoys. O primeiro visa avaliar o tempo de
processamento médio necessário para se comparar duas moléculas, enquanto o segundo visa
avaliar a busca por similaridade como seria usada na prática em experimentos de triagem virtual, comparando-se o modelo com um grande conjunto de substâncias. Os experimentos foram
realizados em um servidor Linux Ubuntu 9.04 com dois processadores Intel Xeon 2,33 GHz e
2GB de memória, com quatro núcleos cada. Apesar do número de núcleos, o processamento do
código de comparação não é distribuı́do, ou seja, a comparação usa apenas um núcleo por vez.
2O
tempo de comparação molécula x molécula para o conjunto P38 DUD-Decoys não pôde ser calculado. A
dimensão do número de comparações (73122 ∼
= 2, 67 × 107 ) não permitiu a medição em tempo viável.
Intel Xeon
2,33 GHz
Intel Xeon
2,33 GHz
Processador
0,5
Intel Xeon
2,40 GHz
Intel Core 2
Quad 2,40
GHz
ROCS (197,
198)
0,07
ChemAxon
CXNH (196)
Intel Xeon
2,40 GHz
1,0
FRED (199)
Intel Xeon
2,40 GHz
2,4
ICMsim (200)
Intel Xeon
2,40 GHz
6,7
Surflexsim (201)
Intel Xeon
2,40 GHz
6,9
FlexS (202)
Tabela 4.4: Tabela comparativa entre o tempo de processamento de comparação e busca por similaridade por composto. A média
dos tempos mensurados para o 3D-Pharma, tanto em comparações molécula versus molécula quanto as comparações modelo
versus molécula, está bem abaixo dos tempos apresentados por outras técnicas em LBVS. Além disso, a variância dos tempos
mensurados para as comparações modelo versus molécula é muito menor quando comparada à variância das comparações entre
moléculas, o que é esperado devido à grande variabilidade de tamanho entre diferentes moléculas. Entretanto, como o 3D-Pharma
usa dez modelos na busca, o tempo de comparação médio em uma aplicação tı́pica de triagem virtual deve ser multiplicada por
dez, equiparando o tempo médio de comparação, em termos de ordem de grandeza, com o tempo apresentado pelo ROCS.
0, 023 ±
0, 002
0, 027 ±
0, 020
Tempo
médio por
composto (s)
3D-Pharma
Modelo x
Mol
3D-Pharma
Mol x Mol
Método
58
59
Figura 4.1: A relação linear (r2 = 0, 975) entre o tamanho dos vetores envolvidos na comparação
e o tempo de processamento da mesma.
Os dados gerais e comparativos estão apresentados na Tabela 4.4. Os dados do método CXN-H
foram obtidos de uma apresentação em um simpósio de usuários dos programas da ChemAxon,
em Maio de 2011 (196), enquanto que os dados das outras técnicas foram retirados do trabalho
de Giganti et al. (203). O 3D-Pharma é capaz de realizar em média 37 comparações entre duas
moléculas por segundo. Quando usado para triagem virtual, ao realizar a comparação entre um
conjunto de dez modelos e uma molécula, o 3D-Pharma é capaz de avaliar 4,3 compostos por
segundo. A comparação molecular é 2,6 vezes mais rápida que a apresentada pelo método CXNH, da ChemAxon (14 moléculas/s), o método mais rápido dentre os investigados. Entretanto, a
avaliação da similaridade de uma molécula contra os dez modelos produzidos pelo 3D-Pharma,
o tempo cai para 0,23s por comparação, 3,25 vezes mais lento, mas ainda duas vezes mais rápido
que o segundo método, o ROCS (2 moléculas/s).
Ao analisar em detalhe os tempos obtidos pelo 3D-Pharma (Tabela 4.3), podemos perceber
que o tempo de processamento do algoritmo de comparação entre duas fingerprints implementado é linearmente proporcional ao total de farmacóforos de três pontos detectados nas duas
moléculas (ou modelo) representadas pelas fingerprints (Figura 4.1). Uma forte correlação linear (r2 = 0, 975) pode ser observada. Esta relação era esperada, já que a complexidade do
algoritmo de comparação é O(m + n), onde n e m é o tamanho dos vetores das duas moléculas
(ou modelo) sendo comparadas.
60
4.2.3
Análise do impacto do número de conformações no poder preditivo
do modelo
O 3D-Pharma usa uma amostragem conformacional compreensiva, com cada molécula podendo ter até 200 conformações diferentes por representação (espécie), todas contribuindo para
sua representação binária final. Desejou-se saber se caso as conformações menos parecidas com
os modelos finais fossem eliminadas e um novo modelo fosse construı́do a partir do novo conjunto de conformações, o poder de predição do modelo poderia aumentar, indicando uma convergência da amostragem conformacional a um pequeno conjunto significativo. Um experimento
então foi realizado usando os conjuntos de dados de compostos associados à Cinase dependente
de Ciclina 2 e os dados dos quatro conjuntos de substâncias ativas: DUD-Ativos Representativos
(DUD-Parents), Fármacos, Ligantes-PDB e WOMBAT.
Cada conjunto de compostos ativos gerou dez modelos, de acordo com o protocolo descrito na Seção 3.4. Cada modelo teve sua acurácia mensurada através da AUCROC contra os
conjuntos DUD-Ativos e DUD-Decoys. Cada uma das conformações de cada molécula ativa
do conjunto de dados usado na construção dos modelos foi comparada com os modelos gerados. Todas as conformações foram ordenadas em ordem decrescente por similaridade com cada
modelo e a sua posição na lista ordenada de cada modelo é somada. Esta soma é usada como
critério de ordenação, gerando uma lista das conformações ordenadas de acordo com o consenso
entre os dez modelos. Um quinto das conformações piores colocadas no consenso é retirado da
análise, assegurando-se que pelo menos uma conformação por molécula seja mantida. Usando
as conformações restantes de cada composto, calcula-se uma nova fingerprint, a qual é usada
para construir um novo conjunto de modelos. Os passos descritos acima são repetidos, sendo
retiradas 20% das conformações a cada iteração.
O resultado pode ser visualizado na Figura 4.2. De modo geral, a retirada das conformações
mais dissimilares aos modelos não altera significamente o poder preditivo dos modelos, mas
tende a piorá-lo à medida que a amostra conformacional diminui. Entretanto, a consistência
interna dos modelos melhora, como mostra os valores crescentes de AUCROC da validação
interna dos modelos, exceto para o DUD-Parents, onde a AUC interna praticamente se manteve inalterada. Há que se ressaltar que apenas as conformações dos compostos ativos usados
nos modelos foram alteradas, mas os modelos foram comparados com as moléculas do DUD-
WOMBAT
Ligantes-PDB
Figura 4.2: Variação dos valores de AUCROC média da validação interna (usando o grupo teste) e externa (usando o DUDAtivos) à medida que as conformações mais dissimilares aos modelos são retiradas da análise. Em sentido horário, começando do
canto superior esquerdo: Parents DUD, Fármacos, Ligantes-PDB e WOMBAT. Nota-se que a AUC média da validação externa
praticamente se mantém inalterada, com uma fraca tendência a diminuir, enquanto que a AUC média da validação interna tende a
melhorar (exceto para o conjunto Parents DUD, onde os valores de AUC da validação interna também se mantêm).
Fármacos
DUD-Parents
61
62
Ativos e DUD-Decoys com sua amostragem conformacional completa. O resultado sugere que
os descritores mais importantes para a seleção dos compostos ativos encontram-se codificados
em poucas conformações, já que a seleção das conformações mais parecidas com modelo influenciam pouco o resultado final. Entretanto, não parece ser possı́vel saber a priori em qual
conformação especı́fica estes descritores se encontram, se é que se encontram em uma única
conformação. Logo, uma seleção de poucas conformações pode perder arranjos crı́ticos para o
reconhecimento de outros compostos ativos, sendo recomendado manter a amostragem extensiva
das conformações.
4.3
4.3.1
Validação
Validação por bootstrap
Foi realizado um estudo de validação pelo método de bootstrap, que consiste em retirar da
base de compostos ativos uma pequena fração (no caso 20%) das moléculas e utilizá-las como
conjunto de validação externa. Tal seleção deve ser feita aleatoriamente e repetida diversas vezes. Para essa validação, foram feitos 60 testes por base externa de substâncias ativas presentes
na tabela 4.1, sendo 30 testes com distribuição aleatória das moléculas pelas partições, e 30
através da distribuição sistemática dos compostos pelas partições, as quais são usadas para gerar
normalmente os dez modelos, como descrito pela Seção 3.4. Os dez modelos são então usados
como referência em uma busca por similaridade para recuperar os compostos separados anteriormente (para a validação externa) de um conjunto de compostos inativos. Cada busca foi avaliada
através da área sobre a curva ROC (AUCROC ). Os resultados também foram usados para avaliar o
desempenho de cada método de distribuição dos compostos ativos entre os grupos da validação.
O resultado pode ser visualizado na Figura 4.3. O resultado geral atesta o bom funcionamento do 3D-Pharma, já que a AUCROC média da distribuição aleatória foi 0.892, enquanto que
a AUCROC média da distribuição sistemática foi um pouco menor: 0.879. Nos histogramas da
Figura 4.3, pode-se visualizar a distribuição das AUCs nos dois métodos. Não é possı́vel chegar
a alguma conclusão sobre qual dos métodos é mais indicado baseado apenas na avaliação visual
da distribuição dos AUCs ou baseado nos valores das médias, já que ambos os métodos apresentaram perfis parecidos e médias dentro dos intervalos de desvio padrão. Ao realizar um teste
63
Histograma − AUCROC para bootstrap com distribuição aleatória
1800
1600
1400
Frequência
1200
1000
800
600
400
200
0
96
0.
1
0.
1
92
0.
88
0.
84
0.
8
0.
76
0.
72
0.
68
0.
64
0.
AUCROC
Histograma − AUCROC para bootstrap com distribuição sistemática
1400
1200
Frequência
1000
800
600
400
200
0
96
92
0.
88
0.
84
0.
8
0.
76
0.
72
0.
68
0.
64
0.
AUCROC
Figura 4.3: Histogramas de frequência de AUCROC para a validação por bootstrap do 3D-Pharma
separados pelo método de distribuição dos compostos pelos dez grupos do protocolo de validação
cruzada 10-fold. Acima, AUCs referentes à distribuição aleatória (em vermelho) e abaixo AUCs
referentes à distribuição sistemática (Validação cruzada estratificada, em azul). Os dois métodos
têm uma distribuição de AUC parecida, entretanto o método aleatório apresenta um pico de AUC
entre 0,96 e 1,00, enquanto o método sistemático apresenta dois picos nos intervalos 0, 84 − 0, 88
e 0, 92 − 0, 96. Além disso, um método aleatório apresentou uma distribuição de AUC um pouco
mais uniforme do que o método sistemático.
64
Fonte de Variância
Total
Método de Distribuição
Alvos
Conjuntos de Dados
Erro Experimental
g.l.
n−1
1
9
2
n − 13
SQ
SQTOTAL = 82, 99
SQDist = 1, 19
SQAlvos = 25, 93
SQConjuntos = 13, 59
SQErro = 42, 28
Tabela 4.5: Resultados da análise de variância dos dados do bootstrap. Observa-se que boa parte
da variância dos valores de AUC no bootstrap provém dos diferentes alvos e diferentes conjuntos
de dados utilizados, sendo necessário uma análise mais especı́fica.
t-Student (usando o programa R) para ver se as médias são estatisticamente diferentes, se obtém
um valor de T = 9, 56. A hipótese nula (as duas médias são iguais) foi rejeitada com p < 2, 2−16 .
A análise de variância dos dados mostra que há uma grande contribuição da dispersão dos alvos
e dos conjuntos de dados para a variância geral do método (Tabela 4.5), sendo necessária uma
análise mais detalhada da série de dados de cada par alvo/conjunto de dados. A contribuição de
cada fonte de variância para a soma dos quadrados (SQ) relativa à variação total do experimento
T2
2
FV
foi calculada através da fórmula SQFV = ∑ rFV
− (∑nX) , onde TFV é a soma das rFV observações
relativas à fonte de variância (FV) investigada, enquanto o termo
(∑ X)2
n
é um fator de correção
considerando todas as observações. Com o valor de SQErro , podemos calcular a variância do
erro: s2 =
SQErro
g.l.Erro
=
42,28
n−13
≈ 0, 0033, com n = 13020.
Ao realizar os testes T-Student sobre os dados do bootstrap separados por alvo e conjunto de
referência (Tabela 4.6), pode-se verificar que o método aleatório obteve as melhores médias de
AUCROC em 14 dos 24 pares alvo/conjunto de dados. Em três casos, a média dos dois métodos
é estatisticamente igual e em sete a média do método sistemático foi melhor. Considerando a
média de 300 observações por par alvo/conjunto de dados e um intervalo de confiança de 99%,
valores de |T | > 2, 6 na Tabela 4.6 significam que as médias de AUC entre os métodos aleatório
e sistemático são diferentes. Valores positivos sinalizam que a média do modo aleatório é maior
e, analogamente, valores negativos sinalizam que a média do modo sistemático é maior. Quanto
maior o valor absoluto de T, maior a diferença significativa entre as médias. É interessante
perceber que o método sistemático obteve a melhor média em seis dentre os dez alvos quando
analisados somentes os dados do WOMBAT, enquanto que o método aleatório obteve melhores
médias nos outros conjuntos de dados.
Também foram analisadas as médias de AUC entre os dois métodos quando um dos métodos
65
Alvo
ALR2
AR
PPARγ
CDK2
COX2
EGFR
FXα
HIVRT
P38
PDE5
Global
6,6
-3,2
5,7
18,3
69,4
6,4
-34,6
5,1
28,3
-18,9
Fármacos
N/A
0,6
6,7
17,7
58,0
N/A
N/A
N/A
24,6
-37,5
Ligantes-PDB
32,7
0,7
8,6
8,9
N/A
20,7
198,3
6,7
5,8
N/A
WOMBAT
-23,0
-24,1
-13,0
3,1
43,6
-7,3
2,4
-4,0
-6,1
35,4
Tabela 4.6: Valores de testes T-Student entre as séries de AUCsROC geradas pelo bootstrap para
cada conjunto de dados associados aos alvos da Tabela 4.1 sem diferenciação dos conjuntos de
dados de compostos ativos (Global) e considerando cada conjunto de dados separadamente. Os
conjuntos de dados que contém menos de 12 compostos ativos não foram considerados e são
marcados na tabela pelo valor “N/A”.
AUCROC Média
Método
Aplicado
Aleatório
Sistemático
Melhor Método
Aleatório Sistemático
0,893
0,903
0,860
0,936
Tabela 4.7: Valores de AUCROC média ao se aplicar um dos métodos de distribuição de compostos entre os grupos de validação cruzada nas situações em que o mesmo método tem o melhor
desempenho e nas situações em que o método não é o mais indicado.
é o melhor para um dado par alvo/conjunto de dados (Tabela 4.7). O método aleatório tem a
melhor média geral (0,892) e o maior número de pares alvo/conjunto de dados em que ele é o
método de melhor desempenho. Além disso, ele tem um desempenho mais robusto (diferença de
0,010 unidades de AUC entre as duas médias) quando o mesmo é aplicado nos sete conjunto de
dados em que o sistemático é o melhor método (média = 0,902). Já o método sistemático (Média
Geral = 0,874) tem um desempenho superior (0,936) quando o mesmo é o melhor método, mas
sofre uma degradação substancial (0,076 unidades de AUC) quando aplicado nos treze conjuntos
de dados em que o melhor método é o aleatório (média=0,860).
Com base nas análises aqui apresentadas, podemos concluir que o método aleatório tem o
desempenho mais robusta, independente dos dados sobre os quais ele é aplicado. Já o método
sistemático tem um desempenho melhor sobre dados de compostos do WOMBAT, uma base
de dados mais completa que as outras utilizadas neste estudo, como indicam os resultados da
66
validação externa (Seção 4.3.2). Entretanto, a distribuição sistemática por similaridade média
não é robusta para a maioria dos conjuntos de dados de moléculas, pois seu desempenho é inesperadamente pior que a do método aleatório. Isto pode ser revertido com uma melhor polı́tica
de divisão dos grupos da validação cruzada, que garanta a homogeneidade entre os grupos mas
também garanta uma heterogeneidade interna. Apesar disso, a distribuição sistemática foi a escolhida para a realização do estudo de validação externa na seção a seguir por ser a distribuição
determinı́stica, não dependendo de múltiplas execuções para a avaliação do desempenho do 3DPharma.
4.3.2
Validação Externa
Usando as fontes de dados descritas na seção 4.1 como referência para a construção de modelos e o conjunto de compostos ativos e decoys do DUD para o teste de desempenho, foi feito um
estudo de validação externa do 3D-Pharma, bem como um comparativo de desempenho com outras técnicas que também usaram a base de dados do DUD como benchmark. Foram selecionados
dez sistemas associados a alvos dentre os 40 presentes no DUD. Três contêm substâncias ativas
com baixa variedade estrutural (menos de 15 classes estruturais): Aldose Redutase (ALR2), Receptor de Androgênio (AR) e Receptor Ativado por Proliferador de Peroxissomo γ (PPARγ ). Os
outros sete possuem moléculas ativas com alta diversidade estrutural (mais de 15 classes estruturais). São eles: Cinase dependente de Ciclina 2 (CDK2), Ciclooxigenase-2 (COX-2), Receptor
de Fator de Crescimento Epidérmico (EGFR), Fator de Coagulação X α (FXα ), Transcriptase
Reversa de HIV-1 (HIVRT), Cinase Protéica Ativada por Mitogênio 14 (P38) e Fosfodiesterase
V (PDE5). Estes dez sistemas foram escolhidos por terem dados de compostos ativos provindos do WOMBAT disponı́veis através do site do DUD (http://dud.docking.org). A tabela
4.1 contém o tamanho de cada conjunto de dados associado aos alvos, bem como o número de
classes estruturais para os compostos ativos do DUD.
Com o intuito de realizar uma validação verdadeiramente externa, dez modelos foram gerados e validados de acordo com o protocolo de validação da Seção 3.4 para cada conjunto externo
de compostos ativos (Fármacos, Ligantes-PDB e WOMBAT) usando o valor de corte (τ) igual a
0,7. Três conjuntos de dados contêm menos de dez moléculas e não puderam passar pelo protocolo de validação: COX-2 Ligantes-PDB (4 moléculas), FXα Fármacos (5 moléculas) e HIVRT
67
Fármacos (5 moléculas). Além disso, todos os conjuntos de dados de substâncias ativas para cada
alvo tiveram um modelo simples (que não passou pelo protocolo de validação) gerado, usando
τ = 0, 7. Cada modelo foi usado como referência de busca em um grupo de moléculas formado
pelo DUD-Ativos e DUD-Decoys do respectivo alvo. Cada molécula teve sua similaridade com
o modelo calculada através do Coeficiente de Tanimoto (Equação 3.1) e foi colocada em uma
lista ordenada pelo valor de tal similaridade.
A acurácia de cada modelo foi medida através da área sob a curva ROC (AUCROC ), tendo
como conjunto positivo o conjunto DUD-Ativos e como conjunto negativo o conjunto DUDDecoys. A capacidade de reconhecimento precoce foi medida através do BEDROCα . O parâmetro
α assumiu os valores de 160, 9; 32, 2 e 20, que correspondem a seleções de 1%, 5% e 8% da lista
ordenada, respectivamente (89). A capacidade de amostragem de diversidade estrutural (scaffold
hopping) foi medida através da área sobre a curva ROC ponderada aritmeticamente (AUCawROC ),
usando a informação de agrupamento estrutural dos DUD-Ativos disponı́vel nos dados provindos do próprio DUD. Os valores das métricas apresentados nas sessões seguintes correspondem
à média entre os dez modelos e é acompanhada pelo desvio padrão, exceto quando o conjunto de
compostos ativos gerou apenas um modelo.
Ao mesmo tempo em que se realizou a validação externa, uma comparação foi feita com outras técnicas que usaram o DUD como uma base de medida de desempenho e disponibilizaram
todos os dados para fins de comparação: o 4D FAPOA (166); os métodos de atribuição ótima
OAK e OAKFLEX (168, 169), 2SHA e OAAP (179); o FieldScreen (48) e o FLAP (159–162).
Com exceção do 4D FAPOA , que realizou seus estudos de validação com todos os 40 sistemas do
DUD, os autores das técnicas citadas apenas realizaram estudos de desempenho sobre o conjunto
de sistemas com alta diversidade estrutural de compostos ativos. Treze dentre os 40 conjuntos de
DUD-Ativos são considerados de alta diversidade estrutural, ou seja, as moléculas ativas se distribuem em mais de 15 classes estruturais (ou scaffolds) (48). A interseção entre os treze sistemas
com alta diversidade estrutural de compostos ativos e os dez que possuem dados do WOMBAT
disponı́veis contém sete dos dez sistemas selecionados para este estudo (CDK2, COX-2, EGFR,
FXα , HIVRT, P38 e PDE5). Os dados de validação externa para os outros três sistemas (ALR2,
AR e PPARγ ) foram comparados apenas aos dados provenientes do 4D FAPOA .
68
Aldose Redutase
A Aldose Redutase (ALR2) é uma oxirredutase envolvida no metabolismo de açúcares, especialmente conhecida por seu papel na degradação da glicose através da produção de sorbitol.
Por ter menor afinidade com a glicose quando esta está em concentrações normais, a alr2 não
participa ativamente do metabolismo do açúcar. Mas em alta concentração, como no caso da
diabetes, parte da glicose em meio celular passa a ser degradada pela via do poliol, que envolve
a enzima, o que pode estar associado a uma série de complicações da doença, como neuropatias,
cegueira e falência renal. A Aldose Redutase não é um alvo terapêutico validado, mas possui
alguns candidatos a fármaco em testes clı́nicos, como o Epalrestat e o Sulindac (Figura 4.4).
Figura 4.4: Fármacos em testes clı́nicos inibidores da Aldose Redutase: Epalrestat e Sulindac
A Figura 4.5 contém as curvas ROC para os três conjuntos de dados usados pelo 3D-Pharma
e para o 4D FAPOA . A Tabela 4.8 contém os dados numéricos do experimento. O 3D-Pharma
usando os ligantes PDB e as moléculas do WOMBAT como referências produziram bons modelos, com AUCROC acima de 0.8, respectivamente, enquanto o 3D-Pharma usando os fármacos
conhecidos e o 4D FAPOA tiveram um desempenho razoável, com AUCsROC acima de 0.6. Entretanto os modelos baseados nos Fármacos tiveram um desempenho melhor no reconhecimento
precoce, atrás apenas dos ligantes PDB. Ao analisar o enriquecimento da amostragem de diversidade estrutural, o desempenho do 3D-Pharma destaca-se, principalmente ao observar o aumento
das AUCsawROC em comparação às AUCsROC da base de Fármacos. Os modelos simples têm
desempenho igual aos modelos validados, com seus escores dentro da faixa de desvio padrão.
69
Aldose Redutase
1
Fármacos
Ligantes-PDB
WOMBAT
4D FAPoa
0.9
0.8
Sensitividade
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
1 - Especificidade
Aldose Redutase
1
Fármacos
Ligantes-PDB
WOMBAT
4D FAPoa
0.9
0.8
Sensitividade
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.001
0.01
0.1
1
1 - Especificidade
Figura 4.5: Curvas ROC linear e em escala logarı́tmica comparativas entre as três bases de dados
usadas pelo 3D-Pharma e o desempenho do 4D FAPOA para a Aldose Redutase.
70
3D-Pharma
AUCROC ± dp.
BEDROC160.9 ± dp.
BEDROC32.2 ± dp.
BEDROC20 ± dp.
AUCawROC ± dp.
Desempenho Geral
Fármacos
0.69 ± 0.05
Ligantes-PDB 0.82 ± 0.02
WOMBAT
0.83 ± 0.03
Reconhecimento Precoce
Fármacos
0.54 ± 0.09
Ligantes-PDB 0.70 ± 0.01
WOMBAT
0.41 ± 0.00
Fármacos
0.48 ± 0.09
Ligantes-PDB 0.47 ± 0.02
WOMBAT
0.26 ± 0.03
Fármacos
0.48 ± 0.07
Ligantes-PDB 0.49 ± 0.02
WOMBAT
0.31 ± 0.03
Diversidade Estrutural
Fármacos
0.76 ± 0.04
Ligantes-PDB 0.86 ± 0.02
WOMBAT
0.85 ± 0.02
3D-Pharma
Modelo
Simples
4D FAPOA
0.66
0.81
0.80
0.63
0.54
0.65
0.37
0.44
0.46
0.25
0.45
0.48
0.29
0.74
0.84
0.83
0.18
0.10
0.11
0.59
Tabela 4.8: Desempenho dos métodos em triagem virtual para a Aldose Redutase, usando os
dados do DUD para validação Externa. O 3D-Pharma usando os Ligantes-PDB como referência
teve melhor reconhecimento precoce, apesar dos modelos provindos das moléculas do WOMBAT terem a melhor taxa de recuperação em geral.
71
Receptor de Androgênio
O Receptor de Androgênio (AR - Androgen Receptor) é um receptor nuclear ligado ao
DNA e regulador de fatores de transcrição gênica, ativado através da ligação dos hormônios
androgênicos testosterona e di-hidrotestosterona. Os genes regulados pelo receptor estão envolvidos no desenvolvimento dos fenótipos sexuais masculinos, mas o receptor também é associado
a fenótipos tipicamente femininos. O receptor de androgênios é um alvo terapêutico validado de
uma série de fármacos, a maioria envolvida no tratamento de câncer de próstata com ação antagonista (Figura 4.6). Outras indicações terapêuticas de moduladores do Receptor de Androgênio
abrangem desde reposição hormonal, aumento de massa muscular, tratamento de câncer de mama
e dos sintomas da menopausa (agonistas) a contraceptivo feminino oral (antagonistas).
Figura 4.6: Fármacos com ação antagonista para o Receptor de Androgênio, voltados ao tratamento de câncer de próstata: Bicalutamida (Casodex), Flutamida (Eulexin) e Nilutamida (Anandron)
A Figura 4.7 contém as curvas ROC para os três conjuntos de dados usados pelo 3D-Pharma
e para o 4D FAPOA . A Tabela 4.9 contém os dados numéricos do experimento. Todas as técnicas
e bases de dados produzem excelentes modelos, com AUCROC acima de 0.9. Porém, o 3DPharma tem um desempenho superior, com modelos acima de 0.98, enquanto o 4D FAPOA chega
a 0.92. Entretanto, ao analisar o reconhecimento precoce e a amostragem de diversidade estrutural, o 3D-Pharma se destaca, especialmente quando analisados os dados dos conjuntos LigantesPDB e WOMBAT. O 4D FAPOA tem um desempenho muito inferior nos dois quesitos, o que
72
Receptor de Androgênio
1
Fármacos
Ligantes-PDB
WOMBAT
4D FAPoa
0.9
0.8
Sensitividade
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
1 - Especificidade
Receptor de Androgênio
1
Fármacos
Ligantes-PDB
WOMBAT
4D FAPoa
0.9
0.8
Sensitividade
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.001
0.01
0.1
1
1 - Especificidade
Figura 4.7: Curvas ROC linear e em escala logarı́tmica comparativas entre as três bases de dados
usadas pelo 3D-Pharma e o desempenho do 4D FAPOA para o Receptor de Androgênio.
73
3D-Pharma
AUCROC ± dp.
BEDROC160.9 ± dp.
BEDROC32.2 ± dp.
BEDROC20 ± dp.
AUCawROC ± dp.
Desempenho Geral
Fármacos
0.99 ± 0.00
Ligantes-PDB 0.98 ± 0.00
WOMBAT
0.99 ± 0.00
Reconhecimento Precoce
Fármacos
0.76 ± 0.00
Ligantes-PDB 0.93 ± 0.00
WOMBAT
0.93 ± 0.01
Fármacos
0.83 ± 0.02
Ligantes-PDB 0.88 ± 0.01
WOMBAT
0.86 ± 0.00
Fármacos
0.87 ± 0.02
Ligantes-PDB 0.89 ± 0.00
WOMBAT
0.88 ± 0.00
Diversidade Estrutural
Fármacos
0.99 ± 0.00
Ligantes-PDB 0.98 ± 0.00
WOMBAT
0.95 ± 0.00
3D-Pharma
Modelo
Simples
4D FAPOA
0.99
0.98
0.99
0.92
0.76
0.94
0.94
0.82
0.87
0.87
0.86
0.89
0.89
0.99
0.98
0.96
0.64
0.54
0.59
0.77
Tabela 4.9: Desempenho dos métodos em triagem virtual para o Receptor de Androgênio,
usando os dados do DUD para validação Externa. 3D-Pharma e 4D FAPOA tiveram desempenho próximos quando se analisa somente os dados de AUCROC , mas o método de Jahn et al.
tem capacidade reduzida de reconhecimento precoce e de amostragem de diversidade estrutural.
74
não transparece quando analisada somente a curva ROC. Os modelos simples têm desempenho
muito próximo da média dos modelos produzidos pelo protocolo de validação cruzada, mas em
alguns casos eles se sobressaem acima da faixa de desvio padrão, mas ainda assim apenas um
centésimo de unidade de AUC, como nos casos de BEDROC32.2 e awROC usando as substâncias
do WOMBAT.
75
Receptor γ Ativado por Proliferador de Peroxissomo
O Receptor γ Ativado por Proliferador de Peroxissomo (PPARγ - Peroxisome ProliferatorActivated Receptor γ) é um receptor nuclear ligante-dependente que regula a transcrição de genes, como a Acetilcolina Oxidase, ligados ao metabolismo de ácidos graxos e da glicose, e à
criação de células adiposas (adipogênese). Sua modulação tem sido associada à redução do nı́vel
de glicose no sangue sem aumentar a produção de insulina no pâncreas, o que torna o PPARγ um
alvo para fármacos relacionados ao tratamento de Diabetes tipo II (Figura 4.8). O papel do receptor na adipogênese também o torna alvo de fármacos relacionados ao tratamento de obesidade,
mas tal ação ainda é experimental.
Figura 4.8: Fármacos usados no controle de Diabetes tipo II que têm como alvo o Receptor
γ Ativado por Proliferador de Peroxissomo. Sua ação consiste em aumentar a sensibilidade à
insulina nos tecidos muscular esquelético e adiposo: Troglitazone, retirado do mercado pelo
risco de hepatotoxicidade e substituı́do por Rosiglitazone (Avandia) e Pioglitazone (Actos)
A Figura 4.9 contém as curvas ROC comparativas entre as três bases de dados usadas pelo
3D-Pharma e o desempenho do 4D FAPOA e a Tabela 4.10 contém os dados numéricos do experimento. Os dados do DUD para o PPARγ têm uma peculiaridade: o baixo número de compostos
inativos em relação ao número de compostos ativos, já que a maioria foi eliminada no filtro leadlike de Oprea (92) (6,33 substâncias inativas por substância ativa, contra uma relação de 521,17
compostos inativos por composto ativo na versão sem filtro). Isso causa uma anormalidade nos
cálculos, especialmente nos números da BEDROC, onde os cortes iniciais podem considerar
76
Receptor Gama Ativado por Proliferador de Peroxissom
1
Fármacos
Ligantes-PDB
WOMBAT
4D FAPoa
0.9
0.8
Sensitividade
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
1 - Especificidade
Receptor Gama Ativado por Proliferador de Peroxissom
1
Fármacos
Ligantes-PDB
WOMBAT
4D FAPoa
0.9
0.8
Sensitividade
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.1
1
1 - Especificidade
Figura 4.9: Curvas ROC linear e em escala logarı́tmica comparativas entre as três bases de dados
usadas pelo 3D-Pharma e o desempenho do 4D FAPOA para o Receptor γ Ativado por Proliferador de Peroxissomo
77
3D-Pharma
Desempenho Geral
Fármacos
0.64 ± 0.01
AUCROC ± dp.
Ligantes-PDB 0.59 ± 0.00
WOMBAT
0.81 ± 0.03
Reconhecimento Precoce
Fármacos
0.98 ± 0.01
BEDROC160.9 ± dp. Ligantes-PDB 0.31 ± 0.43
WOMBAT
0.97 ± 0.00
Fármacos
0.73 ± 0.10
BEDROC32.2 ± dp. Ligantes-PDB 0.37 ± 0.13
WOMBAT
0.63 ± 0.03
Fármacos
0.66 ± 0.09
BEDROC20 ± dp.
Ligantes-PDB 0.38 ± 0.07
WOMBAT
0.59 ± 0.02
Diversidade Estrutural
Fármacos
0.64 ± 0.01
AUCawROC ± dp.
Ligantes-PDB 0.59 ± 0.00
WOMBAT
0.81 ± 0.03
3D-Pharma
Modelo
Simples
4D FAPOA
0.63
0.59
0.75
0.54
0.97
0.03
0.97
0.62
0.28
0.62
0.57
0.33
0.58
0.63
0.59
0.75
0.99
0.76
0.63
0.54
Tabela 4.10: Desempenho dos métodos em triagem virtual para o Receptor γ Ativado por Proliferador de Peroxissomo, usando os dados do DUD para validação Externa. Devido à disparidade
entre os números de DUD-Ativos e DUD-Decoys, os dados de BEDROC não são confiáveis para
determinar o desempenho do modelo. Assim mesmo, o 3D-Pharma usando o WOMBAT obteve
os melhores resultados.
78
menos de uma molécula (no caso do BEDROC160.9 ). Apesar disso, a AUCROC é robusta o suficiente para ser considerada nesta análise. Assim, o 3D-Pharma usando WOMBAT foi o único
a produzir bons modelos, com AUCROC acima de 0.8. A análise de amostragem de diversidade
estrutural não tem significado com os dados do DUD para o PPARγ , já que o número de classes
estruturais é igual ao número de compostos no conjunto DUD-Ativos, o que torna os valores
de awROC iguais aos da curva ROC. Os modelos simples tiveram desempenho estatisticamente
iguais aos modelos validados internamente, já que obtiveram marcas dentro da faixa de desvio
padrão, exceto quando analisado os dados do WOMBAT, onde o modelo simples obteve uma
acurácia menor.
79
Cinase dependente de Ciclina 2
A Cinase dependente de Ciclina 2 (CDK2 - Cyclin-Dependent Kinase 2) é uma transferase
serina/treonina envolvida no controle do ciclo celular, essencial para a meiose mas dispensável
na mitose. O ápice de sua expressão é na transição entre as fases G1 e S do ciclo celular, onde
a duplicação do DNA é regulada. Acredita-se que a CDK2 tenha influência em diversos tipos
de neoplasias: Leucemia Mielóide Aguda, Carcinomas Hepatocelulares, Câncer Nasofarı́ngeo,
dentre outros. Não existem fármacos regulamentados que tenham a CDK2 como alvo, mas
compostos como o Flavopiridol, Purvalanol e Staurosporina (Figura 4.10) estão sendo testados
clinicamente.
Figura 4.10: Compostos em testes clı́nicos que têm a CDK2 como alvo terapêutico: Flavopiridol,
Purvalanol e Staurosporina
A Figura 4.11 contém as curvas ROC comparativas entre as três bases de dados usadas pelo
3D-Pharma e o desempenho das técnicas em triagem virtual incluı́das neste estudo. A Tabela
4.11 contém os dados numéricos do experimento. O 3D-Pharma e o FLAP usando o modo LBt
Pareto R produzem os melhores modelos, com AUCsROC acima de 0.9. Entretanto, o desempenho do FLAP LBt Pareto R no reconhecimento imediato é bem aquém do esperado, inconsistente
ao bom valor de AUCROC obtido pelo método. Apesar dos valores de AUCROC serem próximos,
os valores de BEDROC das duas técnicas são bem diferentes, destacando a melhor capacidade do
3D-Pharma de posicionar os compostos ativos no topo da busca. Entre os diferentes conjuntos de
dados, os Ligantes-PDB obtiveram consistentemente a melhor desempenho. Os modelos simples
80
Cinase Dependente de Ciclina 2
1
0.9
0.8
0.7
Sensitividade
Fármacos
Ligantes-PDB
WOMBAT
4D FAPoa
OAK
OAKflex
2SHA
OAAP
FieldScreen
FLAP (LBopt)
FLAP (LBt Pareto R)
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
1 - Especificidade
Cinase Dependente de Ciclina 2
1
0.9
0.8
0.7
Sensitividade
Fármacos
Ligantes-PDB
WOMBAT
4D FAPoa
OAK
OAKflex
2SHA
OAAP
FieldScreen
FLAP (LBopt)
FLAP (LBt Pareto R)
0.6
0.5
0.4
0.3
0.2
0.1
0
0.001
0.01
0.1
1
1 - Especificidade
Figura 4.11: Curvas ROC linear e em escala logarı́tmica comparativas entre as três bases de
dados usadas pelo 3D-Pharma e o desempenho dos outros métodos de triagem virtual para a
Cinase dependente de Ciclina 2
0.98 ± 0.00
0.99 ± 0.00
0.97 ± 0.00
0.66 ± 0.02
0.74 ± 0.01
0.63 ± 0.01
0.75 ± 0.02
0.80 ± 0.01
0.63 ± 0.01
0.80 ± 0.03
0.85 ± 0.00
0.69 ± 0.02
0.98 ± 0.01
0.99 ± 0.00
0.96 ± 0.00
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
0.98
0.99
0.97
0.67
0.73
0.64
0.75
0.80
0.64
0.81
0.85
0.69
0.99
0.99
0.97
OAKFLEX
0.47
0.19
0.19
0.33
0.27
0.26
0.39
0.55
0.46
0.48
Diversidade Estrutural
0.22
0.21
0.34
Reconhecimento Precoce
0.57
0.50
2SHA
Desempenho Geral
OAK
0.53
0.28
0.28
0.46
0.55
OAAP
0.44
0.11
0.10
0.20
0.47
FieldScreen
0.42
0.42
0.94
0.33
0.38
0.82
0.12
0.93
FLAP
(LBt
Pareto R)
0.44
0.79
FLAP
(LBopt)
Tabela 4.11: Desempenho dos métodos em triagem virtual para a Cinase dependente de Ciclina 2, usando os dados do DUD para
validação Externa. O FLAP LBt Pareto R teve desempenho similar ao 3D-Pharma quando se analisa a acurácia e a amostragem
de diversidade estrutural, mas a técnica têm uma capacidade de reconhecimento imediato mediana.
AUCawROC ± dp.
BEDROC20 ± dp.
BEDROC32.2 ± dp.
BEDROC160.9 ± dp.
AUCROC ± dp.
3D-Pharma
3D-Pharma
Modelo
Simples
81
0.80
0.25
0.22
0.29
0.77
4D FAPOA
82
tiveram desempenhos dentro da faixa de desvio padrão dos modelos validados internamente.
83
Ciclooxigenase-2
A Ciclooxigenase-2 (COX-2) ou Prostaglandina G/H Sintase 2 é uma enzima envolvida nas
respostas inflamatórias, ao produzir prostaglandinas a partir do ácido araquidônico. As ciclooxigenases estão envolvidas em uma série de processos bioquı́micos, e sua inibição farmacológica
tem efeitos analgésicos, anti-inflamatórios e antipiréticos. Historicamente, anti-inflamatórios
não-esteroidais inibiam tanto a Ciclooxigenase-1 quanto a COX-2, entretanto, devido ao fato da
COX-1 estar presente em praticamente todos os tecidos, sua inibição não seletiva acarretava uma
série de efeitos colaterais, notadamente no trato gastro-intestinal. Com a comercialização dos
fármacos seletivos para COX-2, os chamados coxib (Figura 4.12), a maior parte dos efeitos adversos relacionados à inibição da COX-1 deixaram de ser observados em larga escala. Entretanto,
esta classe de medicamentos tem sido associada ao aumento do risco de infarto do miocárdio e
de acidente vascular cerebral, com alguns representantes sendo retirados do mercado.
Figura 4.12: Compostos coxib, que apresentam inibição seletiva para COX-2: Celecoxib (Celebra), Etoricoxib (Arcoxia), Lumiracoxib (Prexige), Rofecoxib (Vioxx) e Valdecoxib (Bextra)
A Figura 4.13 contém as curvas ROC comparativas entre as três bases de dados usadas pelo
3D-Pharma e o desempenho das técnicas em triagem virtual incluı́das neste estudo. Já a Tabela
4.12 contém os dados numéricos do experimento. Todas as técnicas construı́ram bons modelos, com AUCsROC acima de 0.8, exceto o 3D-Pharma usando os Ligantes-PDB. Isto pode ser
explicado pela escassez de dados de ligantes provindos do PDB, já que a Ciclooxigenase-2 humana possui apenas nove estruturas depositadas (até 28 de Fevereiro de 2012), sendo que apenas
84
Ciclooxigenase-2
1
0.9
0.8
0.7
Sensitividade
Fármacos
Ligantes-PDB
WOMBAT
4D FAPoa
OAK
OAKflex
2SHA
OAAP
FieldScreen
FLAP (LBopt)
FLAP (LBt Pareto R)
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
1 - Especificidade
Ciclooxigenase-2
1
0.9
0.8
0.7
Sensitividade
Fármacos
Ligantes-PDB
WOMBAT
4D FAPoa
OAK
OAKflex
2SHA
OAAP
FieldScreen
FLAP (LBopt)
FLAP (LBt Pareto R)
0.6
0.5
0.4
0.3
0.2
0.1
0
0.0001
0.001
0.01
0.1
1
1 - Especificidade
Figura 4.13: Curvas ROC linear e em escala logarı́tmica comparativas entre as três bases de
dados usadas pelo 3D-Pharma e o desempenho dos outros métodos de triagem virtual para a
Ciclooxigenase-2
0.77
0.42
0.89
0.83
0.46
0.90
0.87
0.50
0.92
0.98
0.75
0.98
0.79 ± 0.02
0.42
0.90 ± 0.00
0.86 ± 0.01
0.46
0.90 ± 0.00
0.89 ± 0.01
0.50
0.92 ± 0.00
0.99 ± 0.00
0.75
0.98 ± 0.00
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
0.99
0.78
0.99
0.99 ± 0.00
0.78
0.99 ± 0.00
Fármacos
Ligantes-PDB
WOMBAT
OAKFLEX
0.89
0.75
0.73
0.82
0.71
0.71
0.80
0.77
0.77
0.79
Diversidade Estrutural
0.69
0.65
0.72
Reconhecimento Precoce
0.88
0.87
2SHA
Desempenho Geral
OAK
0.87
0.82
0.80
0.87
0.93
OAAP
0.79
0.76
0.75
0.88
0.90
FieldScreen
0.83
0.79
0.94
0.80
0.79
0.82
0.76
0.97
FLAP
(LBt
Pareto R)
0.88
0.92
FLAP
(LBopt)
Tabela 4.12: Desempenho dos métodos em triagem virtual para a Ciclooxigenase-2, usando os dados do DUD para validação
Externa. Todas as técnicas têm desempenhos parecidos, com exceção do 3D-Pharma PDB. Entretanto, o melhor desempenho é
atingida pelo 3D-Pharma usando os Fármacos e os compostos ativos do WOMBAT.
AUCawROC ± dp.
BEDROC20 ± dp.
BEDROC32.2 ± dp.
BEDROC160.9 ± dp.
AUCROC ± dp.
3D-Pharma
3D-Pharma
Modelo
Simples
85
0.80
0.79
0.79
0.89
0.89
4D FAPOA
86
quatro ligantes foram co-cristalizados. 3D-Pharma (Fármacos e WOMBAT), OAAP, FieldScreen e FLAP (LBOpt e LBt Pareto R) construı́ram modelos com AUCs acima de 0.9, sendo
que os modelos do 3D-Pharma tiveram o melhor desempenho. Quando se analisa a capacidade
de amostragem de diversidade estrutural, apenas o 3D-Pharma e o FLAP LBt Pareto R obtiveram AUCsawROC acima de 0.9. Ao analisarmos o reconhecimento imediato, com uma taxa de
falso positivos de 1%, as técnicas 3D-Pharma WOMBAT, OAAP, OAKFLEX , FieldScreen, FLAP
LBopt e 4D FAPOA têm valores de BEDROC160.9 bem próximos. Mas a partir daı́, o 3D-Pharma
Fármacos e WOMBAT começam a se destacar, mantendo seus altos valores de BEDROC enquanto que os das outras técnicas diminuem. Os modelos simples estão sempre dentro da faixa
de desvio padrão dos modelos validados, exceto no caso do conjunto Fármacos, com valores de
BEDROC32.2 e BEDROC20 , onde o desempenho dos modelos simples é relativamente pior.
87
Receptor de Fator de Crescimento Epidérmico
O Receptor de Fator de Crescimento Epidérmico (EGFR - Epidermal Growth Factor Receptor) é uma Tirosina-Cinase com um domı́nio extracelular que se liga ao Fator de Crescimento
Epidérmico (EGF). Quando o fator se liga, a cinase dispara uma cascata de sinalizações intracelulares através de fosforilações, que resulta no aumento da atividade mitótica e da proliferação
das células. Esta função biológica é importante, por exemplo, para a recuperação de úlceras nas
mucosas gastrointestinais. A EGFR é também considerada um oncogene, ou seja, mutações, superexpressão ou superatividade deste receptor são considerados fatores precursores de processos
cancerı́genos, especialmente neoplasias pulmonares, intestinais e epiteliais. Assim, o EGFR é
alvo de quimioterapias anticâncer, que incluem anticorpos monoclonais que visam o bloqueio
do sı́tio receptor do EGF, ou pequenas moléculas (Figura 4.14) que visam o bloqueio do sı́tio do
ATP no domı́nio citoplasmático (responsável pela atividade de Cinase).
Figura 4.14: Fármacos usados em quimioterapias para tratamento de câncers sólidos, como
os de pulmão, pâncreas e mamário, que têm como alvo o Receptor de Fator de Crescimento
Epidérmico: Erlotinib (Tarceva), Gefitinib (Iressa) e Lapatinib (Tycerb)
A Figura 4.15 contém as curvas ROC comparativas entre as três bases de dados usadas
pelo 3D-Pharma e o desempenho das técnicas em triagem virtual incluı́das neste estudo. Já
a Tabela 4.13 contém os dados numéricos do experimento. Este é um sistema problemático
para o 3D-Pharma, que obteve desempenho abaixo de técnicas como o FLAP, FieldScreen e o
4D FAPOA . Este último, inclusive, obteve o melhor desempenho em todas as métricas. A se
88
Receptor de Fator de Crescimento Epidérmico
1
0.9
0.8
0.7
Sensitividade
Fármacos
Ligantes-PDB
WOMBAT
4D FAPoa
OAK
OAKflex
2SHA
OAAP
FieldScreen
FLAP (LBopt)
FLAP (LBt Pareto R)
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
1 - Especificidade
Receptor de Fator de Crescimento Epidérmico
1
0.9
0.8
0.7
Sensitividade
Fármacos
Ligantes-PDB
WOMBAT
4D FAPoa
OAK
OAKflex
2SHA
OAAP
FieldScreen
FLAP (LBopt)
FLAP (LBt Pareto R)
0.6
0.5
0.4
0.3
0.2
0.1
0
0.0001
0.001
0.01
0.1
1
1 - Especificidade
Figura 4.15: Curvas ROC linear e em escala logarı́tmica comparativas entre as três bases de
dados usadas pelo 3D-Pharma e o desempenho dos outros métodos de triagem virtual para o
Receptor de Fator de Crescimento Epidérmico
0.79 ± 0.02
0.57 ± 0.03
0.79 ± 0.01
0.18 ± 0.03
0.21 ± 0.02
0.09 ± 0.01
0.28 ± 0.03
0.17 ± 0.01
0.24 ± 0.02
0.33 ± 0.03
0.19 ± 0.01
0.31 ± 0.02
0.72 ± 0.03
0.76 ± 0.01
0.66 ± 0.00
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
0.75
0.77
0.67
0.16
0.25
0.08
0.22
0.18
0.23
0.28
0.20
0.30
0.78
0.59
0.79
OAKFLEX
0.75
0.66
0.65
0.78
0.71
0.72
0.87
0.72
0.71
0.72
Diversidade Estrutural
0.68
0.65
0.76
Reconhecimento Precoce
0.76
0.74
2SHA
Desempenho Geral
OAK
0.49
0.40
0.40
0.61
0.51
OAAP
0.82
0.51
0.48
0.58
0.84
FieldScreen
0.69
0.67
0.85
0.64
0.68
0.78
0.63
0.87
FLAP
(LBt
Pareto R)
0.87
0.83
FLAP
(LBopt)
Tabela 4.13: Desempenho dos métodos em triagem virtual para o Receptor de Fator de Crescimento Epidérmico, usando os dados
do DUD para validação Externa. O 3D-Pharma não teve bom desempenho para este conjunto de dados, sendo ofuscado pelo
excelente desempenho do 4D FAPOA
AUCawROC ± dp.
BEDROC20 ± dp.
BEDROC32.2 ± dp.
BEDROC160.9 ± dp.
AUCROC ± dp.
3D-Pharma
3D-Pharma
Modelo
Simples
89
0.98
0.93
0.92
0.95
0.99
4D FAPOA
90
destacar sobre o desempenho do 3D-Pharma é o salto na amostragem de diversidade estrutural
dos modelos baseados nos Ligantes-PDB quando comparado à AUCROC . Os modelos simples
tiveram o mesmo desempenho ruim dos modelos validados, com valores dentro das faixas de
desvio padrão, exceto nas análises BEDROC32.2 e BEDROC20 , onde o modelo simples baseado
no conjunto Fármacos teve uma taxa de reconhecimento precoce pior do que os modelos que
passaram pelo protocolo de validação cruzada.
91
Fator de Coagulação Xα
O Fator de Coagulação Xα (FXα ) é uma serino-endopeptidase envolvida na cadeia de coagulação
sanguı́nea, sintetizada no fı́gado com a presença obrigatória da Vitamina K. Quando ativada, a
enzima cliva a protrombina em dois pontos, transformando-a em trombina e dando sequência
ao processo de coagulação. O Fator Xα pode ser desativado pela Antitrombina III (AT III). A
inibição da enzima é de interesse farmacêutico para o tratamento de condições trombóticas ou
para se evitar a coagulação em procedimentos cirúrgicos, e pode ser feita de três maneiras: compostos que mimetizam a Vitamina K e impedem a sintetização do fator, inibição indireta através
de compostos como a heparina e derivados (Enoxaparina e Fondaparinux) que potencializam a
ação da AT III e compostos que inibem diretamente a enzima (Figura 4.16).
Figura 4.16: A estrutura do Rivaroxaban, o primeiro fármaco comercializado que inibe diretamente o Fator de Coagulação Xα.
A Figura 4.17 contém as curvas ROC comparativas entre as três bases de dados usadas
pelo 3D-Pharma e o desempenho das técnicas em triagem virtual incluı́das neste estudo. Já a
Tabela 4.14 contém os dados numéricos do experimento. O modelo produzido pelo 3D-Pharma
usando as moléculas do WOMBAT teve um desempenho praticamente perfeito, posicionando
todos os compostos ativos antes do primeiro inativo na busca. O FLAP e os outros modelos
do 3D-Pharma vieram logo depois, produzindo modelos com AUCROC entre 0.88 e 0.94, mas
o 3D-Pharma Ligantes-PDB e o FLAP LBopt apresentaram melhor reconhecimento precoce,
com ligeira vantagem para o 3D-Pharma. As outras técnicas não produziram modelos com boa
acurácia. Mais uma vez, as bases de Fármacos e Ligantes-PDB tiveram um grande salto ao
priorizar o reconhecimento das classes estrurais, como mostra o salto da AUCawROC em relação
a AUCROC . Um destaque deve ser dado ao desempenho do 3D-Pharma Fármacos, que conseguiu
AUCROC = 0.88 e a impressionante marca de AUCawROC = 0.96 com apenas cinco moléculas de
92
Fator de Coagulação X-alfa
1
0.9
0.8
0.7
Sensitividade
Fármacos
Ligantes-PDB
WOMBAT
4D FAPoa
OAK
OAKflex
2SHA
OAAP
FieldScreen
FLAP (LBopt)
FLAP (LBt Pareto R)
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
1 - Especificidade
Fator de Coagulação X-alfa
1
0.9
0.8
0.7
Sensitividade
Fármacos
Ligantes-PDB
WOMBAT
4D FAPoa
OAK
OAKflex
2SHA
OAAP
FieldScreen
FLAP (LBopt)
FLAP (LBt Pareto R)
0.6
0.5
0.4
0.3
0.2
0.1
0
0.001
0.01
0.1
1
1 - Especificidade
Figura 4.17: Curvas ROC linear e em escala logarı́tmica comparativas entre as três bases de
dados usadas pelo 3D-Pharma e o desempenho dos outros métodos de triagem virtual para o
Fator de Coagulação Xα
0.85
0.95 ± 0.00
1.00 ± 0.00
0.69
0.83 ± 0.01
1.00 ± 0.00
0.69
0.82 ± 0.00
1.00 ± 0.00
0.96
0.95 ± 0.00
1.00 ± 0.00
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
0.96
0.94
1.00
0.85
0.94
1.00
0.69
0.81
1.00
0.69
0.80
1.00
0.88
0.86
1.00
3D-Pharma
Modelo
Simples
OAKFLEX
0.51
0.04
0.03
0.07
0.07
0.05
0.07
0.46
0.50
0.56
Diversidade Estrutural
0.05
0.05
0.11
Reconhecimento Precoce
0.43
0.59
2SHA
Desempenho Geral
OAK
0.57
0.06
0.06
0.14
0.58
OAAP
0.74
0.17
0.13
0.07
0.72
FieldScreen
0.63
0.76
0.92
0.52
0.74
0.82
0.19
0.94
FLAP
(LBt
Pareto R)
0.80
0.92
FLAP
(LBopt)
Tabela 4.14: Desempenho dos métodos em triagem virtual para o Fator de Coagulação Xα, usando os dados do DUD para
validação Externa. O 3D-Pharma WOMBAT teve uma recuperação de compostos ativos perfeita, com AUCROC = 1.00. Outro
destaque deve ser feito ao 3D-Pharma Fármacos, que com somente cinco moléculas de referência, conseguiu uma AUCawROC =
0.96.
AUCawROC ± dp.
BEDROC20 ± dp.
BEDROC32.2 ± dp.
BEDROC160.9 ± dp.
AUCROC ± dp.
0.88
0.88 ± 0.01
1.00 ± 0.00
Fármacos
Ligantes-PDB
WOMBAT
3D-Pharma
93
0.62
0.13
0.09
0.13
0.64
4D FAPOA
94
referência. Os modelos simples obtiveram desempenhos dentro das faixas de desvio padrão dos
modelos validados, com a única exceção sendo a análise BEDROC20 para o modelo baseado nos
Ligantes-PDB.
95
Transcriptase Reversa de HIV-1
A transcriptase Reversa é uma das enzimas principais no processo de infecção do HIV, já
que transforma o RNA viral em cDNA, que virá a ser integrado ao DNA da célula hospedeira,
e por isso é alvo de inibidores presentes nos coquetéis anti-HIV. Os inibidores de Transcriptase
Reversa se dividem em três classes: análogos de nucleosı́deos, análogos de nucletı́deos e os nãonucleosı́deos. As duas primeiras classes competem com os nucleotı́deos, impedindo a formação
da cadeia de DNA pela enzima. A terceira classe consiste de inibidores não-competitivos, que
impedem o funcionamento mecânico da proteı́na (Figura 4.18).
Figura 4.18: Inibidores não-competitivos (Não-nucleosı́deos) de Transcriptase Reversa de HIV1, usados no tratamento de infecções por HIV-1: Delavirdina, Efavirenz e Nevirapina.
A Figura 4.19 contém as curvas ROC comparativas entre as três bases de dados usadas pelo
3D-Pharma e o desempenho das técnicas em triagem virtual incluı́das neste estudo. Já a Tabela 4.15 contém os dados numéricos do experimento. O 3D-Pharma apresenta um desempenho
muito superior a das outras técnicas, inclusive para o conjunto de dados de Fármacos, que com
apenas quatro compostos de referência conseguiu um AUCROC = 0.87, mas teve uma queda
quando analisada a AUCawROC . Os dados do WOMBAT geraram o melhor modelo, mas os
Ligantes-PDB obtiveram um desempenho bem próximo. Os modelos simples apresentaram desempenho equivalente (dentro da faixa de desvio padrão) aos modelos validados.
96
Transcriptase Reversa de HIV-1
1
0.9
0.8
0.7
Sensitividade
Fármacos
Ligantes-PDB
WOMBAT
4D FAPoa
OAK
OAKflex
2SHA
OAAP
FieldScreen
FLAP (LBopt)
FLAP (LBt Pareto R)
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
1 - Especificidade
Transcriptase Reversa de HIV-1
1
0.9
0.8
0.7
Sensitividade
Fármacos
Ligantes-PDB
WOMBAT
4D FAPoa
OAK
OAKflex
2SHA
OAAP
FieldScreen
FLAP (LBopt)
FLAP (LBt Pareto R)
0.6
0.5
0.4
0.3
0.2
0.1
0
0.001
0.01
0.1
1
1 - Especificidade
Figura 4.19: Curvas ROC linear e em escala logarı́tmica comparativas entre as três bases de
dados usadas pelo 3D-Pharma e o desempenho dos outros métodos de triagem virtual para a
Transcriptase Reversa de HIV-1
0.87
0.93 ± 0.00
0.94 ± 0.00
0.68
0.87 ± 0.00
0.89 ± 0.00
0.51
0.68 ± 0.01
0.74 ± 0.01
0.54
0.70 ± 0.01
0.75 ± 0.00
0.82
0.90 ± 0.01
0.92 ± 0.00
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
0.82
0.90
0.93
0.68
0.87
0.89
0.51
0.68
0.74
0.54
0.71
0.75
0.87
0.93
0.94
OAKFLEX
0.48
0.25
0.26
0.48
0.26
0.26
0.47
0.53
0.47
0.53
Diversidade Estrutural
0.24
0.25
0.45
Reconhecimento Precoce
0.53
0.60
2SHA
Desempenho Geral
OAK
0.65
0.36
0.35
0.58
0.65
OAAP
0.56
0.34
0.34
0.62
0.66
FieldScreen
0.32
0.47
0.62
0.25
0.46
0.69
0.07
0.75
FLAP
(LBt
Pareto R)
0.63
0.72
FLAP
(LBopt)
Tabela 4.15: Desempenho dos métodos em triagem virtual para o Transcriptase Reversa de HIV-1, usando os dados do DUD
para validação Externa. Mesmo com apenas quatro compostos, o conjunto Fármacos conseguiu bons modelos, mas os modelos
baseados nos Ligantes-PDB e nas moléculas do WOMBAT tiveram um desempenho superior às outras técnicas.
AUCawROC ± dp.
BEDROC20 ± dp.
BEDROC32.2 ± dp.
BEDROC160.9 ± dp.
AUCROC ± dp.
3D-Pharma
3D-Pharma
Modelo
Simples
97
0.62
0.26
0.27
0.50
0.58
4D FAPOA
98
Cinase Protéica 14 Ativada por Mitogênio
A Cinase Protéica 14 Ativada por Mitogênio (MAPK14 - Mitogen Activated Protein Kinase
14, ou simplesmente p38) é uma cinase envolvida na via de transdução de sinal de mitogênio,
usualmente envolvida em resposta a estı́mulos de estresse externos, como citocinas, irradiação
ultra-violeta, choque térmico ou choque osmótico. A MAPK14 fosforila um grande conjunto de
proteı́nas e fatores transcricionais e, apesar de ainda ser um alvo terapêutico experimental, sua
modulação está associada ao tratamento de diversas disfunções, como Doença Pulmonar Obstrutiva Crônica (DCOP), depressão, doenças cardiovasculares e Sı́ndrome da Angústia Respiratória
do Adulto (SARA) (Figura 4.20).
Figura 4.20: Candidatos a fármacos para a modulação da Cinase Protéica 14 Ativada por Mitogênio: Losmapimod (Fase Clı́nica II para tratamento de DCOP, Depressão e doenças cardiovasculares), Dilmapimod (Fase Clı́nica I para SARA) e Ozagrel (Fase Clı́nica I para DCOP)
A Figura 4.21 contém as curvas ROC comparativas entre as três bases de dados usadas pelo
3D-Pharma e o desempenho das técnicas em triagem virtual incluı́das neste estudo. Já a Tabela
4.16 contém os dados numéricos do experimento. Com exceção dos modelos gerados à partir dos
Ligantes-PDB, os modelos do 3D-Pharma obtiveram a melhor acurácia em geral, conseguindo
AUCsROC acima de 0.9, especialmente o 3D-Pharma WOMBAT, que obteve um AUCROC =
0.97. Entretanto, o FLAP LBopt teve o melhor escore BEDROC160.9 , mas o reconhecimento
precoce do mesmo perde força quando os maiores cortes são considerados. Observa-se que para
todos os métodos (exceto OAAP, FieldScreen e 4D FAPOA ), há uma melhora na AUCawROC ,
99
Cinase Protéica 14 Ativada por Mitogênio
1
0.9
0.8
0.7
Sensitividade
Fármacos
Ligantes-PDB
WOMBAT
4D FAPoa
OAK
OAKflex
2SHA
OAAP
FieldScreen
FLAP (LBopt)
FLAP (LBt Pareto R)
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
1 - Especificidade
Cinase Protéica 14 Ativada por Mitogênio
1
0.9
0.8
0.7
Sensitividade
Fármacos
Ligantes-PDB
WOMBAT
4D FAPoa
OAK
OAKflex
2SHA
OAAP
FieldScreen
FLAP (LBopt)
FLAP (LBt Pareto R)
0.6
0.5
0.4
0.3
0.2
0.1
0
0.0001
0.001
0.01
0.1
1
1 - Especificidade
Figura 4.21: Curvas ROC linear e em escala logarı́tmica comparativas entre as três bases de
dados usadas pelo 3D-Pharma e o desempenho dos outros métodos de triagem virtual para a
Cinase Protéica 14 Ativada por Mitogênio
0.94 ± 0.02
0.75 ± 0.01
0.97 ± 0.00
0.76 ± 0.05
0.44 ± 0.01
0.65 ± 0.08
0.75 ± 0.06
0.37 ± 0.01
0.79 ± 0.02
0.78 ± 0.06
0.40 ± 0.02
0.83 ± 0.02
0.98 ± 0.01
0.80 ± 0.01
0.99 ± 0.00
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
0.99
0.80
0.99
0.78
0.44
0.61
0.80
0.37
0.78
0.83
0.40
0.83
0.95
0.75
0.97
OAKFLEX
0.44
0.19
0.18
0.19
0.18
0.16
0.17
0.47
0.49
0.76
Diversidade Estrutural
0.10
0.10
0.10
Reconhecimento Precoce
0.43
0.75
2SHA
Desempenho Geral
OAK
0.43
0.09
0.09
0.08
0.45
OAAP
0.27
0.07
0.08
0.16
0.33
FieldScreen
0.54
0.65
0.91
0.54
0.66
0.95
0.69
0.89
FLAP
(LBt
Pareto R)
0.79
0.89
FLAP
(LBopt)
Tabela 4.16: Desempenho dos métodos em triagem virtual para a Cinase Protéica 14 Ativada por Mitogênio, usando os dados do
DUD para validação Externa. O 3D-Pharma obterve o melhor desempenho, exceto para os Ligantes-PDB. Entretanto, o FLAP
LBopt obteve o melhor reconhecimento precoce a 1%, como mostra seu escore BEDROC160.9 .
AUCawROC ± dp.
BEDROC20 ± dp.
BEDROC32.2 ± dp.
BEDROC160.9 ± dp.
AUCROC ± dp.
3D-Pharma
3D-Pharma
Modelo
Simples
100
0.68
0.14
0.10
0.05
0.68
4D FAPOA
101
indicando melhor distribuição das classes estruturais entre os compostos ativos do DUD. Os
modelos simples apresentaram desempenho equivalente (dentro da faixa de desvio padrão) aos
modelos validados.
102
Fosfodiesterase V
Fosfodiesterases são um grupo de enzimas que têm como substrato nucleotı́deos cı́clicos,
como o AMPc (Adenosina Monofosfato Cı́clico) e o GMPc (Guanosina Monofosfato Cı́clico), e
tem um papel importante em transdução de sinais que envolvem os nucelotı́deos cı́clicos. Dentre
a famı́lia de PDEs (PhosphoDiEsterase), a PDE5 (ou Fosfodiesterase GMPc-especı́fica 3’,5’cı́clica) tem um interesse clı́nico relevante devido à sua maior concentração no tecido do corpo
cavernoso peniano, sendo sua modulação o alvo de fármacos que visam reverter quadros de
disfunção erétil. Fármacos com maior seletividade para a PDE5 (Figura 4.22, como o Sildenafil
(Viagra), Vardenafil (Levitra) e Tadalafil (Cialis), obtêm os efeitos desejados contra a disfunção
erétil com efeitos adversos minimizados quando comparados aos inibidores menos seletivos.
Figura 4.22: Fármacos com alta seletividade para a Fosfodiesterase V, indicados para homens
com disfunção erétil: Sildenafil (Viagra), Vardenafil (Levitra) e Tadalafil (Cialis)
A Figura 4.23 contém as curvas ROC comparativas entre as três bases de dados usadas
pelo 3D-Pharma e o desempenho das técnicas em triagem virtual incluı́das neste estudo. Já a
Tabela 4.17 contém os dados numéricos do experimento. Dos modelos produzidos pelo 3DPharma, apenas os que usaram as moléculas do WOMBAT como referência tiveram um bom
desempenho. As substâncias presentes nas bases de Fármacos e dos Ligantes-PDB parecem
não cobrir alguma classe de substâncias ativas, o que pode explicar a recuperação mais lenta
dos verdadeiros positivos. Já as moléculas do WOMBAT geram um modelo quase ideal: apenas
quatro compostos inativos foram recuperados antes de todos os 26 compostos ativos para a PDE5.
103
Fosfodiesterase V
1
0.9
0.8
0.7
Sensitividade
Fármacos
Ligantes-PDB
WOMBAT
4D FAPoa
OAK
OAKflex
2SHA
OAAP
FieldScreen
FLAP (LBopt)
FLAP (LBt Pareto R)
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
1 - Especificidade
Fosfodiesterase V
1
0.9
0.8
0.7
Sensitividade
Fármacos
Ligantes-PDB
WOMBAT
4D FAPoa
OAK
OAKflex
2SHA
OAAP
FieldScreen
FLAP (LBopt)
FLAP (LBt Pareto R)
0.6
0.5
0.4
0.3
0.2
0.1
0
0.001
0.01
0.1
1
1 - Especificidade
Figura 4.23: Curvas ROC linear e em escala logarı́tmica comparativas entre as três bases de
dados usadas pelo 3D-Pharma e o desempenho dos outros métodos de triagem virtual para a
Fosfodiesterase V
0.73 ± 0.04
0.69 ± 0.01
1.00 ± 0.00
0.02 ± 0.01
0.00 ± 0.00
0.98 ± 0.00
0.07 ± 0.03
0.01 ± 0.00
0.99 ± 0.00
0.10 ± 0.04
0.03 ± 0.01
0.99 ± 0.00
0.75 ± 0.04
0.71 ± 0.01
1.00 ± 0.00
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
Fármacos
Ligantes-PDB
WOMBAT
0.73
0.60
1.00
0.00
0.00
0.97
0.04
0.00
0.98
0.07
0.00
0.99
0.71
0.57
1.00
OAKFLEX
0.41
0.17
0.17
0.27
0.23
0.21
0.17
0.37
0.32
0.38
Diversidade Estrutural
0.19
0.18
0.26
Reconhecimento Precoce
0.46
0.47
2SHA
Desempenho Geral
OAK
0.35
0.07
0.04
0.00
0.38
OAAP
0.62
0.30
0.27
0.24
0.66
FieldScreen
0.68
0.45
0.96
0.57
0.41
0.94
0.20
0.98
FLAP
(LBt
Pareto R)
0.41
0.91
FLAP
(LBopt)
Tabela 4.17: Desempenho dos métodos em triagem virtual para a Fosfodiesterase V, usando os dados do DUD para validação
Externa. O 3D-Pharma WOMBAT obteve o melhor desempenho, com AUCROC ≈ 1.00, enquanto os outros conjuntos de dados
obtiveram desempenhos bem piores.
AUCawROC ± dp.
BEDROC20 ± dp.
BEDROC32.2 ± dp.
BEDROC160.9 ± dp.
AUCROC ± dp.
3D-Pharma
3D-Pharma
Modelo
Simples
104
0.63
0.33
0.33
0.49
0.69
4D FAPOA
105
O excelente desempenho do FLAP também deve ser destacado, com AUCsROC acima de 0.9 e
bons valores de BEDROC. Como os 26 compostos ativos do DUD se distribuem em 22 classes
estruturais, o desempenho mensurado pela AUCawROC não é muito diferente da AUCROC . Os
modelos simples tiveram um desempenho próximo dos modelos validados, exceto o produzido
pelos Ligantes-PDB, que obteve um desempenho pior.
106
Análise Geral do desempenho do 3D-Pharma sobre a base de dados do DUD
Observando as AUCsROC médias de todos os métodos (Figura 4.24) para os dez sistemas (no
caso do 3D-Pharma e do 4D FAPOA ) ou os sete sistemas com alta diversidade estrutural de compostos ativos do DUD (técnicas restantes), pode-se ver que o desempenho do 3D-Pharma usando
os dados do WOMBAT tem a melhor média de AUC entre todos os métodos (0.93), seguida pelo
FLAP LBt Pareto R (0.91), FLAP LBopt (0.86), 3D-Pharma Fármacos (0.85), 3D-Pharma-PDB
(0.80) e 4D FAPOA (0.73). As técnicas restantes têm médias inferiores a 0.7. Apesar do melhor
resultado, não se pode afirmar com significância estatı́stica que o 3D-Pharma é melhor que o
FLAP, por exemplo. De acordo com Nicholls (90), é preciso realizar pelo menos 100 experimentos (no caso, 100 conjuntos diferentes de dados) para se afirmar que um método é melhor que
outro com uma confiança de 95%. Infelizmente, não há bases de dados de benchmark que possuam tantos conjuntos de compostos ativos/inativos de alvos terapêuticos, e fazer tal afirmação
baseado em sete experimentos, como foi apresentado aqui, é subestimar a contribuição do erro
em cada experimento. De fato, o desvio padrão de cada método (não mostrado nos gráficos das
Figuras 4.24 e 4.25) é, em média, 0,1 unidades de AUC, tornando qualquer tentativa de se determinar o melhor método uma afirmação sem significância estatı́stica. Entretanto, ao observar que
o 3D-Pharma obtém sempre o melhor desempenho (exceto no EGFR), pode-se esperar que esta
tendência se confirme em outros experimentos. Além disso, há de ser considerado o fato que o
FLAP usa os dados dos compostos presentes no conjunto DUD-Parents como referência, o qual
é um subconjunto do DUD-Ativos. Esta escolha pode melhorar artificialmente os resultados.
O mesmo pode-se dizer ao analisar a capacidade de diversificação estrutural (ou scaffold hopping), já que os valores de AUCawROC (Figura 4.24) são proporcionais aos valores de AUCROC .
Entretanto, uma observação interessante pode ser feita em relação às duas métricas. Em todos
os métodos, há uma pequena mas constante queda dos valores médios de AUCawROC em relação
aos de AUCROC , exceto para os conjuntos de dados Fármacos e Ligantes-PDB, em que o valor
de AUCawROC aumenta. Isso pode ser explicado pela natureza dos dados provindos das bases
de dados de fármacos e do PDB, ou seja, as substâncias ativas destas fontes de dados provavelmente não sofrem do “viés do análogo”, ao contrário da série de dados do DUD e do WOMBAT,
as quais aparentam sofrer o viés.
Já ao analisar o reconhecimento precoce (Figura 4.25), percebe-se claramente a disparidade
107
AUCROC e AUCawROC médias por método
1
AUCROC
AUCawROC
0.9
0.8
0.7
0.6
0.5
4D
A
Bt
(L
PO
FA
AP
to
)
R
T)
B)
D
−P
es
nt
)
os
ac
BA
M
O
re
Pa
)
pt
Bo
(L
en
EX
W
a(
m
ga
Li
a(
m
rm
Fá
a(
m
e
cr
dS
AP
FL
FL
el
Fi
P
AA
O
FL
A
H
2S
AK
O
AK
O
ar
h
−P
3D
ar
h
−P
3D
ar
h
−P
3D
Figura 4.24: AUCROC e AUCawROC médias para cada método. As médias do 3D-Pharma e do 4D
FAPOA foram calculadas sobre os dez conjuntos de dados usados na validação externa, enquanto
que a média das demais técnicas foram calculadas sobre os sete sistemas com alta diversidade
estrutural. É possı́vel perceber que os métodos 3D-Pharma e FLAP têm um alto desempenho,
com AUCsROC médias acima de 0.8, seguidos pelo 4D FAPOA , com média acima de 0.7. As
demais técnicas obtiveram médias inferiores.
108
dos valores obtidos pelo FLAP LBt Pareto R. Apesar de ter a segunda melhor AUCROC média
dentre os métodos investigados (perdendo apenas para o 3D-Pharma WOMBAT), os valores de
BEDROCα estão muito aquém dos apresentados pelo 3D-Pharma e pelo FLAP LBopt, especialmente ao considerar os cortes mais restritivos (α = 160.9 e 32.2, correspondentes a enriquecimentos em 1% e 5% respectivamente). Novamente considerando as análises de Nicholls (90),
não podemos afirmar se um método é melhor que outro com significância estatı́stica. Mas podese observar que o 3D-Pharma WOMBAT tem os melhores valores médios de BEDROCα para todos os cortes (0.74/0.70/0.72), seguido pelo 3D-Pharma Fármacos (0.62/0.59/0.61) e pelo FLAP
LBopt (0.69/0.59/0.60). Uma observação interessante: os outros métodos têm um valor médio
de BEDROC160.9 maior que os outros cortes (BEDROC32.2 e BEDROC20 ), mas o 3D-Pharma
tende a manter os três valores razoavelmente iguais, o que contribui para o melhor desempenho
do método quando analisados os valores de AUCROC , ou seja, o 3D-Pharma continua a posicionar melhor os compostos ativos em relação aos inativos mesmo após o primeiro corte de 1%, ao
contrário das outras técnicas, que tendem a misturar moléculas ativas e inativas após este corte.
Vale frisar que os modelos produzidos pelo 3D-Pharma foram construı́dos a partir de três
conjuntos de dados completamente externos ao DUD, ao contrário do FLAP, que usou os compostos do DUD-Parents (incluı́dos no DUD-Ativos) como refeência. As outras técnicas usaram
dados de ligantes do PDB, os quais não são necessariamente os mesmos contidos no conjunto
Ligantes-PDB usado pelo 3D-Pharma.
Um fator determinante para o bom desempenho do 3D-Pharma é o tamanho dos conjuntos de compostos ativos usados para a geração do modelo, como mostra a Figura 4.26. Há
uma percepção imediata que quanto maior o conjunto de dados usado como referência pelo
3D-Pharma, maior é a probabilidade dos modelos construı́dos a partir dos dados obter um bom
poder preditivo. De fato, dos 30 grupos de modelos construı́dos a partir dos pares alvo/conjunto
de moléculas ativas, 14 (46,6%) obtiveram AUCROC acima de 0.9 e todos eles foram construı́dos
a partir de conjuntos com pelo menos 13 compostos. Já dentre os conjuntos de dados com menos
de 13 compostos, nenhum obteve modelos com AUCROC acima de 0,9, mas dois obtiveram um
bom desempenho (AUC> 0, 8): FXα Fármacos (0,88) e HIVRT Fármacos (0,87), coincidentemente modelos simples construı́dos a partir de cinco e quatro compostos ativos, respectivamente.
O único par alvo/conjunto de dados formado por 13 ou mais compostos ativos que produziu modelos com AUC abaixo de 0.7 foi o PPARγ /Ligantes-PDB. Entretanto, a análise deste
109
BEDROCα médio por método
0.75
α=160.9
α=32.2
α=20
0.7
0.65
0.6
0.55
0.5
0.45
0.4
0.35
0.3
0.25
4D
O
Bt
(L
A
Pa
)
pt
n
W
a(
Bo
(L
ee
cr
rm
EX
P
FA
AP
FL
AP
FL
P
dS
el
Fi
AA
O
FL
ha
re
R
)
T)
BA
M
to
O
)
os
ac
B)
PD
a(
rm
Fá
a(
rm
ha
rm
ha
A
H
AK
AK
2S
O
O
−P
3D
−P
3D
−P
3D
Figura 4.25: BEDROCα médio por método, para os três valores de α (160.9, 32.2 e 20). O
3D-Pharma WOMBAT tem o melhor desempenho médio ao se considerar o reconhecimento
precoce, seguido pelo FLAP LBopt e os outros conjuntos de compostos ativos usados pelo 3DPharma. O FLAP LBt Pareto R, apesar do excelente desempenho geral, tem um decepcionante
reconhecimento imediato, principalmente nos cortes mais restritivos.
110
sistema foi comprometida devido ao pequeno número de negativos (DUD-Decoys), como explicitado na Seção 4.3.2. Dois modelos provindos de conjuntos com pelo menos 13 compostos
ativos obtiveram AUCs entre 0.7 e 0.8: EGFR/WOMBAT e P38/Ligantes-PDB. O 3D-Pharma
não conseguiu gerar bons modelos para o EGFR com nenhum dos conjuntos de compostos ativos, mesmo usando os dados do WOMBAT, com 62 substâncias. Já o caso do P38/MAPK14
requer uma análise mais profunda dos seus ligantes e suas interações com o alvo biológico que
possa explicar a diferença no resultado. Peréz-Nueno e outros (181), usando os programas de
superposição de volume PARAFIT e PARASURF para investigar os alvos do DUD quanto a
múltiplos modos de ligação com os ligantes do mesmo, obtiveram resultados que sugerem que
os ligantes da Cinase P38 podem interagir com a proteı́na em múltiplos sı́tios, o que também foi
observado na literatura (204). Por outro lado, no caso dos modelos construı́dos a partir de conjuntos que possuiam menos de 13 compostos, dois se destacam: HIVRT/Fármacos (4 substâncias)
e FXα /Fármacos (5 substâncias), os quais geraram modelos que obtiveram uma AUCROC acima
de 0.8 e, no caso do modelo FXα /Fármacos, AUCawROC = 0.96.
111
Efeito do tamanho do conjunto de dados na performance do 3D−Pharma
16
<13 Compostos
13 compostos ou mais
14
14
Números de Modelos
12
10
8
6
4
4
4
3
2
2
2
1
0
AUCROC < 0.7
0.7 < AUCROC < 0.8
0.8 < AUCROC < 0.9
AUCROC > 0.9
Figura 4.26: O efeito do tamanho do conjunto de substâncias ativas no desempenho do 3DPharma. Dos nove conjuntos de modelos provenientes de grupos formados por menos de 13
compostos ativos, nenhum obteve AUCROC acima de 0.9. Já dos 21 conjuntos de modelos gerados a partir de grupo de dados formados por 13 compostos ou mais, dois terços obtiveram valores
de AUCROC acima de 0.9.
112
5
Conclusões
Esta tese apresentou o 3D-Pharma, uma nova ferramenta para triagem virtual baseada na estrutura de compostos ativos que usa uma abordagem baseada em múltiplas espécies e múltiplos
modos (MS-MM). As caracterı́sticas principais do 3D-Pharma consistem no uso de vetores
binários indexados que codificam farmacóforos de três pontos em resolução atômica; o uso de
múltiplas representações moleculares que incluem tautômeros e seus estados de protonação e
múltiplos confôrmeros; o extensivo protocolo de validação dos modelos; e a abordagem baseada
em múltiplas referências para a produção de modelos, os quais são representados por fingerprints
modais baseadas na frequência dos farmacóforos de três pontos sobre os compostos ativos.
Esta abordagem foi aplicada com sucesso em um estudo retrospectivo de triagem virtual,
produzindo modelos simples, robustos, consistentes e com alto poder preditivo. O 3D-Pharma
também teve seu desempenho avaliado em um estudo comparativo contendo oito técnicas LBVS,
sendo três delas (FLAP LBopt, FLAP LB Pareto R e 4D FAPOA ) técnicas de alto desempenho
(AUCROC média acima de 0,7). Os resultados nos levam a crer que o 3D-Pharma supera todos os
outros métodos LBVS investigados, em termos de acurácia geral, reconhecimento precoce e de
diversidade estrutural, principalmente quando os dados provindos do WOMBAT foram usados
como referência.
Logo, o 3D-Pharma se qualifica como um método in silico muito promissor, que pode
auxiliar no processo de descoberta racional de fármacos, apesar de seu poder preditivo ainda
precisar ser testado em cenários prospectivos e experimentais.
113
Referências Bibliográficas
1 ARROWSMITH, J. A decade of change. Nat Rev Drug Discov, v. 11, n. 1, p. 17–18, 2012.
2 ARROWSMITH, J. Trial watch: Phase II failures: 2008-2010. v. 10, n. 5, p. 328–329, 2011.
3 BENNANI, Y. L. Drug discovery in the next decade: innovation needed ASAP. Drug
Discovery Today, v. 16, n. 17-18, p. 779 – 792, 2011.
4 BLEICHER, K. H. et al. Hit and lead generation: beyond high-throughput screening. Nature
Reviews Drug Discovery, v. 2, n. 5, p. 369–378, 2003.
5 KESERű, G. M.; MAKARA, G. M. Hit discovery and hit-to-lead approaches. Drug
Discovery Today, v. 11, n. 15-16, p. 741 – 748, 2006.
6 KÜMMEL, A.; PARKER, C. N. The interweaving off chemoinformatics and hts. In:
BAJORATH, J. (Ed.). Chemoinformatics and Computational Chemical Biology. [S.l.]: Springer
Science+Business Media, LLC 2011, 2011. cap. 17, p. 435–457.
7 MAYR, L. M.; FUERST, P. The future of high-throughput screening. Journal of
Biomolecular Screening, v. 13, n. 6, p. 443–448, 2008.
8 BAJORATH, J. Integration of virtual and high-throughput screening. Nature Reviews Drug
Discovery, v. 1, p. 882–894, 2002.
9 WALTERS, W. P.; STAHL, M. T.; MURCKO, M. A. Virtual screening – an overview. Drug
Discovery Today, v. 3, n. 4, p. 160–178, 1998.
10 VARNEK, A. Fragment descriptors in structure-property modeling and virtual screening.
In: BAJORATH, J. (Ed.). Chemoinformatics and Computational Chemical Biology. [S.l.]:
Springer Science+Business Media, LLC 2011, 2011. cap. 9, p. 213–243.
11 VOGT, M.; BAJORATH, J. Virtual screening methods based on bayesian statistics. In:
LODHI, H.; YAMANISHI, Y. (Ed.). Chemoinformatics and Advanced Machine Learning
Perspectives: Complex Computational Methods and Collaborative Techniques. [S.l.]: IGI
Global, 2011. cap. 10, p. 190–211.
12 LEACH, A. R.; SHOICHET, B. K.; PEISHOFF, C. E. Prediction of protein-ligand
interactions. docking and scoring: Successes and gaps. Journal of Medicinal Chemistry, v. 49,
n. 20, p. 5851–5855, 2006.
114
13 IRWIN, J. Community benchmarks for virtual screening. Journal of Computer-Aided
Molecular Design, v. 22, p. 193–199, 2008.
14 LIEBESCHUETZ, J. Evaluating docking programs: keeping the playing field level. Journal
of Computer-Aided Molecular Design, v. 22, p. 229–238, 2008.
15 KUNTZ, I. D. et al. A geometric approach to macromolecule-ligand interactions. Journal
of Molecular Biology, v. 161, n. 2, p. 269 – 288, 1982.
16 WARR, W. A. Some trends in chem(o)informatics. In: BAJORATH, J. (Ed.).
Chemoinformatics and Computational Chemical Biology. [S.l.]: Springer Science+Business
Media, LLC 2011, 2011. cap. 1, p. 1–38.
17 BABER, J. C.; FEHER, M. Predicting synthetic accessibility: Application in drug discovery
and development. Mini Reviews in Medicinal Chemistry, v. 4, n. 6, p. 681–692, 2004.
18 ZALIANI, A. et al. Second-generation de novo design: a view from a medicinal chemist
perspective. Journal of Computer-Aided Molecular Design, v. 23, p. 593–602, 2009.
19 PATEL, H. et al. Knowledge-based approach to de novo design using reaction vectors.
Journal of Chemical Information and Modeling, v. 49, n. 5, p. 1163–1184, 2009.
20 CARR, R. A. et al. Fragment-based lead discovery: leads by design. Drug Discovery Today,
v. 10, n. 14, p. 987 – 992, 2005.
21 WARR, W. Fragment-based drug discovery. Journal of Computer-Aided Molecular Design,
v. 23, p. 453–458, 2009.
22 JOSEPH-MCCARTHY, D. Challenges of fragment screening. Journal of Computer-Aided
Molecular Design, v. 23, p. 449–451, 2009.
23 BERMAN, H. M. et al. The Protein Data Bank. Nucl. Acids Res., v. 28, n. 1, p. 235–242,
2000.
24 BOLTON, E. E. et al. Pubchem: Integrated platform of small molecules and biological
activities. In: WHEELER, R. A.; SPELLMEYER, D. C. (Ed.). [S.l.]: Elsevier, 2008, (Annual
Reports in Computational Chemistry, v. 4). p. 217 – 241.
25 GAULTON, A. et al. Chembl: a large-scale bioactivity database for drug discovery. Nucleic
Acids Research, v. 40, n. D1, p. D1100–D1107, 2012.
26 OLAH, M. et al. WOMBAT: World of Molecular Bioactivity. In: OPREA, T. I. (Ed.).
Chemoinformatics in Drug Discovery. New York: Wiley-VCH, 2004. cap. 9, p. 223–239.
27 RIPPHAUSEN, P. et al. Quo vadis, virtual screening? a comprehensive survey of
prospective applications. Journal of Medicinal Chemistry, v. 53, n. 24, p. 8461–8467, 2010.
115
28 WILLETT, P. Similarity searching using 2d structural fingerprints. In: BAJORATH, J. (Ed.).
Chemoinformatics and Computational Chemical Biology. [S.l.]: Springer Science+Business
Media, LLC 2011, 2011. cap. 5, p. 133–158.
29 HESSLER, G.; BARINGHAUS, K.-H. The scaffold hopping potential of pharmacophores.
Drug Discovery Today: Technologies, v. 7, n. 4, p. e263 – e269, 2010.
30 CARHART, R. E.; SMITH, D. H.; VENKATARAGHAVAN, R. Atom pairs as molecular
features in structure-activity studies: definition and applications. Journal of Chemical
Information and Computer Sciences, v. 25, n. 2, p. 64–73, 1985.
31 WILLETT, P.; WINTERMAN, V.; BAWDEN, D. Implementation of nearest-neighbor
searching in an online chemical structure search system. Journal of Chemical Information and
Computer Sciences, v. 26, n. 1, p. 36–41, 1986.
32 JOHNSON, M. A.; MAGGIORA, G. M. Concepts and applications of molecular similarity.
New York: John Wiley, 1990.
33 PELTASON, L.; BAJORATH, J. Computational analysis of activity and selectivity cliffs.
In: BAJORATH, J. (Ed.). Chemoinformatics and Computational Chemical Biology. [S.l.]:
Springer Science+Business Media, LLC 2011, 2011. cap. 4, p. 119–132.
34 MAGGIORA, G. M. On outliers and activity cliffs: Why QSAR often disappoints. Journal
of Chemical Information and Modeling, v. 46, n. 4, p. 1535–1535, 2006.
35 PELTASON, L.; BAJORATH, J. Sar index: Quantifying the nature of structure-activity
relationships. Journal of Medicinal Chemistry, v. 50, n. 23, p. 5571–5578, 2007.
36 CRAMER, R. D.; REDL, G.; BERKOFF, C. E. Substructural analysis. novel approach to
the problem of drug design. Journal of Medicinal Chemistry, v. 17, n. 5, p. 533–535, 1974.
37 VARNEK, A. et al. Substructural fragments: an universal language to encode reactions,
molecular and supramolecular structures. Journal of Computer-Aided Molecular Design, v. 19,
p. 693–703, 2005.
38 HUGHES, S. J. et al. Fragment based discovery of a novel and selective pi3 kinase inhibitor.
Bioorganic & Medicinal Chemistry Letters, v. 21, n. 21, p. 6586 – 6590, 2011.
39 HORST, E. van der et al. Substructure-based virtual screening for adenosine a2a receptor
ligands. ChemMedChem, WILEY-VCH Verlag, v. 6, n. 12, p. 2302–2311, 2011.
40 GÜNER, O. Pharmacophore perception, development, and use in drug design. La Jolla,
CA: International University Line, 1999. (IUL biotechnology series). ISBN 9780963681768.
41 LANGER, T.; HOFFMANN, R. D. Pharmacophores and Pharmacophore Searches.
Weinheim, Germany: Wiley-VCH, 2006. (Methods and Principles in Medicinal Chemistry,
v. 32).
116
42 LEACH, A. R. et al. Three-dimensional pharmacophore methods in drug discovery. Journal
of Medicinal Chemistry, v. 53, n. 2, p. 539–558, 2010.
43 SHENG-YONG; YANG. Pharmacophore modeling and applications in drug discovery:
challenges and recent advances. Drug Discovery Today, v. 15, n. 11-12, p. 444 – 450, 2010.
44 BEMIS, G.; KUNTZ, I. A fast and efficient method for 2D and 3D molecular shape
description. Journal of Computer-Aided Molecular Design, v. 6, n. 6, p. 607–628, 1992.
45 GRANT, J.; PICKUP, B. A gaussian description of molecular shape. The Journal of
Physical Chemistry, v. 99, n. 11, p. 3503–3510, 1995.
46 CRUCIANI, G. et al. Molecular Interaction Fields: Applications in Drug Discovery and
ADME Prediction. [S.l.]: John Wiley & Sons, 2006. (Methods and Principles in Medicinal
Chemistry). ISBN 9783527607136.
47 NICHOLLS, A.; GRANT, J. Molecular shape and electrostatics in the encoding of relevant
chemical information. Journal of computer-aided molecular design, v. 19, n. 9, p. 661–686,
2005.
48 CHEESERIGHT, T. J. et al. Fieldscreen: Virtual screening using molecular fields.
application to the dud data set. Journal of Chemical Information and Modeling, v. 48, n. 11, p.
2108–2117, 2008. Disponı́vel em: <http://pubs.acs.org/doi/abs/10.1021/ci800110p>.
49 VAINIO, M.; PURANEN, J.; JOHNSON, M. ShaEP: molecular overlay based on shape and
electrostatic potential. Journal of chemical information and modeling, v. 49, n. 2, p. 492–502,
2009.
50 LIU, X.; JIANG, H.; LI, H. SHAFTS: A Hybrid Approach for 3D Molecular Similarity
Calculation. 1. Method and Assessment of Virtual Screening. Journal of Chemical Information
and Modeling, v. 51, n. 9, p. 2372–2385, 2011.
51 SASTRY, G. M.; DIXON, S. L.; SHERMAN, W. Rapid shape-based ligand alignment and
virtual screening method based on atom/feature-pair similarities and volume overlap scoring.
Journal of Chemical Information and Modeling, v. 51, n. 10, p. 2455–2466, 2011.
52 CAI, C. et al. A novel, customizable and optimizable parameter method using spherical
harmonics for molecular shape similarity comparisons. Journal of Molecular Modeling, v. 18,
p. 1597–1610, 2012.
53 GOLBRAIKH, A.; TROPSHA, A. Predictive qsar modeling based on diversity sampling
of experimental datasets for the training and test set selection. Journal of Computer-Aided
Molecular Design, Springer Netherlands, v. 16, p. 357–369, 2002. ISSN 0920-654X.
54 OPREA, T. I. et al. Computational systems chemical biology. In: BAJORATH, J. (Ed.).
Chemoinformatics and Computational Chemical Biology. [S.l.]: Springer Science+Business
Media, LLC 2011, 2011. cap. 18, p. 459–488.
117
55 GOLBRAIKH, A.; TROPSHA, A. Beware of q2! Journal of Molecular Graphics and
Modelling, v. 20, n. 4, p. 269 – 276, 2002.
56 HANSCH, C.; FUJITA, T. ρ − σ − π Analysis. A Method for the Correlation of Biological
Activity and Chemical Structure. Journal of the American Chemical Society, v. 86, n. 8, p.
1616–1626, 1964.
57 KUBINYI, H. QSAR : Hansch analysis and related approaches. New York, USA: VCH,
1993. (Methods and principles in medicinal chemistry). ISBN 9781560817680.
58 RANDIĆ, M. Characterization of molecular branching. Journal of the American Chemical
Society, v. 97, n. 23, p. 6609–6615, 1975.
59 KIER, L.; HALL, L. Molecular connectivity in chemistry and drug research. New York,
USA: Academic Press, 1976. (Medicinal chemistry). ISBN 9780124065604.
60 KIER, L.; HALL, L. Molecular connectivity in structure-activity analysis. New York, USA:
Research Studies Press, 1986. (Chemometrics series). ISBN 9780471909835.
61 HALL, L. H.; KIER, L. B. Determination of topological equivalence in molecular graphs
from the topological state. Quantitative Structure-Activity Relationships, WILEY-VCH Verlag,
v. 9, n. 2, p. 115–131, 1990.
62 HALL, L. H.; MOHNEY, B.; KIER, L. B. The electrotopological state: An atom index for
qsar. Quantitative Structure-Activity Relationships, v. 10, n. 1, p. 43–51, 1991.
63 HALL, L. H.; MOHNEY, B.; KIER, L. B. The electrotopological state: structure
information at the atomic level for molecular graphs. Journal of Chemical Information and
Computer Sciences, v. 31, n. 1, p. 76–82, 1991.
64 KIER, L.; HALL, L. Molecular Structure Description: The Electrotopological State. New
York, USA: Academic Press, 1999. ISBN 9780124065550.
65 KELLOGG, G. E. et al. E-state fields: Applications to 3D QSAR. Journal of
Computer-Aided Molecular Design, v. 10, p. 513–520, 1996.
66 SHERIDAN, R. P.; NACHBAR, R. B.; BUSH, B. L. Extending the trend vector: The trend
matrix and sample-based partial least squares. Journal of Computer-Aided Molecular Design,
v. 8, p. 323–340, 1994.
67 MATTER, H. Selecting optimally diverse compounds from structure databases: A
validation study of two-dimensional and three-dimensional molecular descriptors. Journal of
Medicinal Chemistry, v. 40, n. 8, p. 1219–1229, 1997.
68 CLEMENTI, S.; WOLD, S. How to choose the proper statistical method. In:
WATERBEEMD, H. van de (Ed.). Chemometric methods in molecular design. New York, USA:
VCH, 1995, (Methods and principles in medicinal chemistry). cap. 5.2, p. 319–338.
118
69 WOLD, S. PLS for multivariate linear modeling. In: WATERBEEMD, H. van de (Ed.).
Chemometric methods in molecular design. New York, USA: VCH, 1995, (Methods and
principles in medicinal chemistry). cap. 4.4, p. 195–218.
70 HOFFMAN, B. et al. Quantitative structure-activity relationship modeling of dopamine d1
antagonists using comparative molecular field analysis, genetic algorithms-partial least-squares,
and k nearest neighbor methods. Journal of Medicinal Chemistry, v. 42, n. 17, p. 3217–3226,
1999.
71 ZHENG, W.; TROPSHA, A. Novel variable selection quantitative structure-property
relationship approach based on the k-nearest-neighbor principle. Journal of Chemical
Information and Computer Sciences, v. 40, n. 1, p. 185–194, 2000.
72 AJAY. A unified framework for using neural networks to build qsars. Journal of Medicinal
Chemistry, v. 36, n. 23, p. 3565–3571, 1993.
73 CRAMER, R. D.; PATTERSON, D. E.; BUNCE, J. D. Comparative molecular field
analysis (comfa). 1. effect of shape on binding of steroids to carrier proteins. Journal of the
American Chemical Society, v. 110, n. 18, p. 5959–5967, 1988.
74 MARSHALL, G. R.; CRAMER, R. D. Three-dimensional structure-activity relationships.
Trends in Pharmacological Sciences, v. 9, n. 8, p. 285 – 289, 1988.
75 GEPPERT, H.; VOGT, M.; BAJORATH, J. Current trends in ligand-based virtual screening:
Molecular representations, data mining methods, new application areas, and performance
evaluation. Journal of Chemical Information and Modeling, v. 50, n. 2, p. 205–216, 2010.
76 BURBIDGE, R. et al. Drug design by machine learning: support vector machines for
pharmaceutical data analysis. Computers & Chemistry, v. 26, n. 1, p. 5 – 14, 2001.
77 WARMUTH, M. K. et al. Active learning with support vector machines in the drug
discovery process? Journal of Chemical Information and Computer Sciences, v. 43, n. 2, p.
667–673, 2003.
78 VAPNIK, V. The nature of statistical learning theory. [S.l.]: Springer, 2000. (Statistics for
engineering and information science). ISBN 9780387987804.
79 KLON, A. E.; DILLER, D. J. Library fingerprints: A novel approach to the screening of
virtual libraries. Journal of Chemical Information and Modeling, v. 47, n. 4, p. 1354–1365,
2007.
80 WATSON, P. Naive bayes classification using 2d pharmacophore feature triplet vectors.
Journal of Chemical Information and Modeling, v. 48, n. 1, p. 166–178, 2008.
81 HARPER, G. et al. Prediction of biological activity for high-throughput screening using
binary kernel discrimination. Journal of Chemical Information and Computer Sciences, v. 41,
n. 5, p. 1295–1300, 2001.
119
82 WILLETT, P. et al. Prediction of ion channel activity using binary kernel discrimination.
Journal of Chemical Information and Modeling, v. 47, n. 5, p. 1961–1966, 2007.
83 ZHANG, S. Application of machine learning in drug discovery and development. In:
LODHI, H.; YAMANISHI, Y. (Ed.). Chemoinformatics and Advanced Machine Learning
Perspectives: Complex Computational Methods and Collaborative Techniques. [S.l.]: IGI
Global, 2011. cap. 12, p. 235–256.
84 ZHOU, Y.-P. et al. Modified particle swarm optimization algorithm for adaptively
configuring globally optimal classification and regression trees. Journal of Chemical
Information and Modeling, v. 49, n. 5, p. 1144–1153, 2009.
85 PALMER, D. S. et al. Random forest models to predict aqueous solubility. Journal of
Chemical Information and Modeling, v. 47, n. 1, p. 150–158, 2007.
86 EHRMAN, T. M.; BARLOW, D. J.; HYLANDS, P. J. Virtual screening of chinese herbs
with random forest. Journal of Chemical Information and Modeling, v. 47, n. 2, p. 264–278,
2007.
87 NICHOLLS, A. What do we know?: Simple statistical techniques that help. In:
BAJORATH, J. (Ed.). Chemoinformatics and Computational Chemical Biology. [S.l.]: Springer
Science+Business Media, LLC 2011, 2011. cap. 22, p. 531–581.
88 KORFF, M. von; FREYSS, J.; SANDER, T. Comparison of ligand- and structure-based
virtual screening on the dud data set. Journal of Chemical Information and Modeling, v. 49,
n. 2, p. 209–231, 2009.
89 TRUCHON, J.-F.; BAYLY, C. I. Evaluating virtual screening methods: Good and bad
metrics for the ”early recognition” problem. Journal of Chemical Information and Modeling,
v. 47, n. 2, p. 488–508, 2007.
90 NICHOLLS, A. What do we know and when do we know it? Journal of Computer-Aided
Molecular Design, Springer Netherlands, v. 22, p. 239–255, 2008.
91 CLARK, R.; WEBSTER-CLARK, D. Managing bias in roc curves. Journal of
Computer-Aided Molecular Design, Springer Netherlands, v. 22, p. 141–146, 2008.
92 GOOD, A.; OPREA, T. Optimization of camd techniques 3. virtual screening enrichment
studies: a help or hindrance in tool selection? Journal of Computer-Aided Molecular Design,
Springer Netherlands, v. 22, p. 169–178, 2008.
93 WERMUTH, C. G. et al. Glossary of terms used in medicinal chemistry (IUPAC
recommendations 1998). Pure and Applied Chemistry, v. 70, n. 5, p. 1129–1143, 1998.
94 ARIËNS, E. J. Molecular Pharmacology. New York, USA: Academic Press, 1964.
120
95 PETER; GUND. Chapter 29 pharmacophoric pattern searching and receptor mapping. In:
HESS, H.-J. (Ed.). [S.l.]: Academic Press, 1979, (Annual Reports in Medicinal Chemistry,
v. 14). p. 299 – 308.
96 DRIE, J. H. V. Monty kier and the origin of the pharmacophore concept. Internet Electronic
Journal of Molecular Design, v. 6, n. 9, p. 271–279, 2007.
97 CAPORUSCIO, F.; TAFI, A. Pharmacophore modelling: A forty year old approach and its
modern synergies. Current Medicinal Chemistry, v. 18, n. 17, p. 2543–2553, 2011.
98 EHRLICH, P. Über den jetzigen Stand der Chemotherapie. Chem Ber, v. 42, p. 17, 1909.
99 KIER, L. B. Molecular orbital calculation of preferred conformations of acetylcholine,
muscarine, and muscarone. Molecular Pharmacology, v. 3, n. 5, p. 487–494, 1967.
100 KIER, L. B. Molecular orbital theory in drug research. New York, USA: Academic Press,
1971.
101 WERMUTH, C. G. Pharmacophore: Historical perspective and viewpoint from a
medicinal chemist. In: LANGER, T.; HOFFMANN, R. D. (Ed.). Pharmacophores and
Pharmacophore Searches. Weinheim, Germany: Wiley-VCH, 2006. cap. 1.
102 SEIDEL, T. et al. Strategies for 3d pharmacophore-based virtual screening. Drug
Discovery Today: Technologies, v. 7, n. 4, p. e221 – e228, 2010.
103 POPTODOROV, K.; LUU, T.; HOFFMANN, R. D. Pharmacophore model generation
software tools. In: LANGER, T.; HOFFMANN, R. D. (Ed.). Pharmacophores and
Pharmacophore Searches. Weinheim, Germany: Wiley-VCH, 2006. cap. 2.
104 HORVATH, D. Pharmacophore-based virtual screening. In: BAJORATH, J. (Ed.).
Chemoinformatics and Computational Chemical Biology. [S.l.]: Springer Science+Business
Media, LLC 2011, 2011. cap. 11, p. 261–298.
105 COTTRELL, S. J. et al. Generation of multiple pharmacophore hypotheses using
multiobjective optimisation techniques. Journal of Computer-Aided Molecular Design, Springer
Netherlands, v. 18, p. 665–682, 2004.
106 KRISTAM, R. et al. Comparison of conformational analysis techniques to generate
pharmacophore hypotheses using catalyst. Journal of Chemical Information and Modeling,
v. 45, n. 2, p. 461–476, 2005.
107 SCHWAB, C. H. Conformations and 3d pharmacophore searching. Drug Discovery
Today: Technologies, v. 7, n. 4, p. e245 – e253, 2010.
108 WOLBER, G.; LANGER, T. LigandScout: 3-D Pharmacophores Derived from
Protein-Bound Ligands and Their Use as Virtual Screening Filters. J Chem Info Model, v. 45,
n. 1, p. 160–169, 2005.
121
109 Accelrys Software. DiscoveryStudio®. 2001–2012. www.accelrys.com.
110 BARNUM, D. et al. Identification of common functional configurations among molecules.
Journal of Chemical Information and Computer Sciences, v. 36, n. 3, p. 563–571, 1996.
111 LI, H.; SUTTER, J.; HOFFMANN, R. HypoGen: An automated system for generating
3d predictive pharmacophore models. In: GÜNER, O. (Ed.). Pharmacophore perception,
development, and use in drug design. [S.l.]: International University Line, 1999, (IUL
biotechnology series). cap. 10, p. 173–189.
112 JONES, G.; WILLETT, P.; GLEN, R. C. A genetic algorithm for flexible molecular
overlay and pharmacophore elucidation. Journal of Computer-Aided Molecular Design,
Springer Netherlands, v. 9, p. 532–549, 1995.
113 RICHMOND, N. et al. GALAHAD: 1. pharmacophore identification by hypermolecular
alignment of ligands in 3D. Journal of Computer-Aided Molecular Design, Springer
Netherlands, v. 20, p. 567–587, 2006.
114 Tripos Inc. GALAHAD™. 2006–2012. www.tripos.com.
115 Chemical Computing Group. Molecular Operating Environment. Montreal, Canada:
[s.n.]. www.chemcomp.com.
116 DIXON, S. et al. Phase: a new engine for pharmacophore perception, 3d qsar model
development, and 3d database screening: 1. methodology and preliminary results. Journal of
Computer-Aided Molecular Design, Springer Netherlands, v. 20, p. 647–671, 2006.
117 SCHNEIDMAN-DUHOVNY, D. et al. Deterministic pharmacophore detection via
multiple flexible alignment of drug-like molecules. Journal of Computational Biology, v. 15,
n. 7, p. 737–754, 2008.
118 DROR, O. et al. Novel approach for efficient pharmacophore-based virtual screening:
Method and applications. Journal of Chemical Information and Modeling, v. 49, n. 10, p.
2333–2343, 2009. PMID: 19803502.
119 FENG, J.; SANIL, A.; YOUNG, S. S. PharmID: Pharmacophore Identification Using
Gibbs Sampling. J Chem Info Model, v. 46, n. 3, p. 1352–1359, 2006.
120 HERT, J. et al. Comparison of fingerprint-based methods for virtual screening using
multiple bioactive reference structures. Journal of Chemical Information and Computer
Sciences, v. 44, n. 3, p. 1177–1185, 2004.
121 RAYMOND, J. W.; WILLETT, P. Effectiveness of graph-based and fingerprint-based
similarity measures for virtual screening of 2d chemical structure databases. Journal of
Computer-Aided Molecular Design, v. 16, p. 59–71, 2002.
122
122 HOLLIDAY, J.; HU, C.-Y.; WILLETT, P. Grouping of coefficients for the calculation
of inter-molecular similarity and dissimilarity using 2d fragment bit-strings. Combinatorial
Chemistry & High Throughput Screening, v. 5, n. 2, p. 155–166, 2002.
123 MARTIN, E. J.; HOEFFEL, T. J. Oriented Substituent Pharmacophore PRopErtY Space
(OSPPREYS): A substituent-based calculation that describes combinatorial library products
better than the corresponding product-based calculation. Journal of Molecular Graphics and
Modelling, v. 18, n. 4-5, p. 383 – 403, 2000.
124 CATO, S. J. Exploring phrarmacophores with Chem-X. In: GÜNER, O. (Ed.).
Pharmacophore perception, development, and use in drug design. La Jolla, CA: International
University Line, 1999, (IUL biotechnology series). p. 107–125.
125 MCGREGOR, M. J.; MUSKAL, S. M. Pharmacophore Fingerprinting. 1. Application to
QSAR and Focused Library Design. Journal of Chemical Information and Computer Sciences,
v. 39, n. 3, p. 569–574, 1999.
126 MCGREGOR, M. J.; MUSKAL, S. M. Pharmacophore fingerprinting. 2. application to
primary library design. Journal of Chemical Information and Computer Sciences, v. 40, n. 1, p.
117–125, 2000.
127 Accelrys Software. Cerius2 . San Diego, CA: [s.n.]. www.accelrys.com.
128 Tripos, L.P. Tuplets. St. Louis, MO: [s.n.]. www.tripos.com.
129 KOES, D. R.; CAMACHO, C. J. Pharmer: Efficient and exact pharmacophore search.
Journal of Chemical Information and Modeling, v. 51, n. 6, p. 1307–1314, 2011.
130 RANU, S.; SINGH, A. K. Novel method for pharmacophore analysis by examining the
joint pharmacophore space. Journal of Chemical Information and Modeling, v. 51, n. 5, p.
1106–1121, 2011. Disponı́vel em: <http://pubs.acs.org/doi/abs/10.1021/ci100503y>.
131 TROPSHA, A. Best practices for qsar model development, validation, and exploitation.
Molecular Informatics, WILEY-VCH Verlag, v. 29, n. 6-7, p. 476–488, 2010.
132 EFRON, B.; TIBSHIRANI, R. J. An Introduction to the Bootstrap. New York: Chapman
and Hall, 1993.
133 TROPSHA, A.; GRAMATICA, P.; GOMBAR, V. K. The importance of being earnest:
Validation is the absolute essential for successful application and interpretation of qspr models.
QSAR & Combinatorial Science, WILEY-VCH Verlag, v. 22, n. 1, p. 69–77, 2003.
134 TROPSHA, A.; GOLBRAIKH, A. Predictive qsar modeling workflow, model applicability
domains, and virtual screening. Current Pharmaceutical Design, v. 13, n. 34, p. 3494–3504,
2007.
123
135 GOLBRAIKH, A. et al. Rational selection of training and test sets for the development of
validated qsar models. Journal of Computer-Aided Molecular Design, Springer Netherlands,
v. 17, p. 241–253, 2003.
136 FILIMONOV, D.; POROIKOV, V. Probabilistic approaches in activity prediction. In:
VARNEK, A.; TROPSHA, A. (Ed.). Chemoinformatics Approaches to Virtual Screening. [S.l.]:
RSC Publishing, 2008. cap. 6, p. 182–216.
137 SCIOR, T. et al. Recognizing pitfalls in virtual screening: A critical review. Journal of
Chemical Information and Modeling, v. 52, n. 4, p. 867–881, 2012.
138 BRINK, T. ten; EXNER, T. E. Influence of protonation, tautomeric, and stereoisomeric
states on protein-ligand docking results. Journal of Chemical Information and Modeling, v. 49,
n. 6, p. 1535–1546, 2009.
139 KALLIOKOSKI, T. et al. The effect of ligand-based tautomer and protomer prediction on
structure-based virtual screening. Journal of Chemical Information and Modeling, v. 49, n. 12,
p. 2742–2748, 2009.
140 MILLETTI, F.; VULPETTI, A. Tautomer preference in pdb complexes and its impact on
structure-based drug discovery. Journal of Chemical Information and Modeling, v. 50, n. 6, p.
1062–1074, 2010.
141 VIETH, M.; HIRST, J. D.; BROOKS, C. L. Do active site conformations of small ligands
correspond to low free-energy solution structures? Journal of Computer-Aided Molecular
Design, v. 12, p. 563–572, 1998.
142 SITZMANN, M. et al. Pdb ligand conformational energies calculated quantummechanically. Journal of Chemical Information and Modeling, v. 52, n. 3, p. 739–756,
2012.
143 DEPRISTO, M. A.; BAKKER, P. I. W. de; BLUNDELL, T. L. Heterogeneity and
inaccuracy in protein structures solved by x-ray crystallography. Structure, v. 12, p. 831 – 838,
2004.
144 AGRAFIOTIS, D. K. et al. Conformational sampling of bioactive molecules: A
comparative study. Journal of Chemical Information and Modeling, v. 47, n. 3, p. 1067–1086,
2007.
145 BROOKS, B. R. et al. CHARMM: A program for macromolecular energy, minimization,
and dynamics calculations. Journal of Computational Chemistry, v. 4, n. 2, p. 187–217, 1983.
146 SMELLIE, A.; TEIG, S.; TOWBIN, P. Poling: promoting conformational variation.
Journal of Computational Chemistry, v. 16, n. 2, p. 171–187, 1995.
124
147 LI, J. et al. CAESAR: a new conformer generation algorithm based on recursive buildup
and local rotational symmetry consideration. Journal of Chemical Information and Modeling,
v. 47, n. 5, p. 1923–1932, 2007.
148 HAWKINS, P. et al. Conformer generation with OMEGA: algorithm and validation using
high quality structures from the Protein Databank and Cambridge Structural Database. Journal
of Chemical Information and Modeling, v. 50, n. 4, p. 572–584, 2010.
149 OpenEye Scientific Software. OMEGA. 1997–2012. www.eyesopen.com.
150 MOHAMADI, F. et al. MacroModel–an integrated software system for modeling organic
and bioorganic molecules using molecular mechanics. Journal of Computational Chemistry,
v. 11, n. 4, p. 440–467, 1990.
151 KOLOSSVÁRY, I.; GUIDA, W. Low mode search. an efficient, automated computational
method for conformational analysis: Application to cyclic and acyclic alkanes and cyclic
peptides. Journal of the American Chemical Society, v. 118, n. 21, p. 5011–5019, 1996.
152 FERGUSON, D.; RABER, D. A new approach to probing conformational space with
molecular mechanics: random incremental pulse search. Journal of the American Chemical
Society, v. 111, n. 12, p. 4371–4378, 1989.
153 PEARLMAN, R.; BALDUCCI, R. CONFORT: a novel algorithm for conformational
analysis. In: National Meeting of the American Chemical Society, New Orleans. New Orleans,
USA: [s.n.], 1998.
154 MCMARTIN, C.; BOHACEK, R. QXP: powerful, rapid computer algorithms for
structure-based drug design. Journal of Computer-Aided Molecular Design, v. 11, n. 4, p.
333–344, 1997.
155 KLEBE, G.; MIETZNER, T. A fast and efficient method to generate biologically relevant
conformations. Journal of Computer-Aided Molecular Design, v. 8, n. 5, p. 583–606, 1994.
156 KLEBE, G.; MIETZNER, T.; WEBER, F. Methodological developments and strategies
for a fast flexible superposition of drug-size molecules. Journal of Computer-Aided Molecular
Design, v. 13, n. 1, p. 35–49, 1999.
157 TRESADERN, G.; AGRAFIOTIS, D. K. Conformational sampling with stochastic
proximity embedding and self-organizing superimposition: Establishing reasonable parameters
for their practical use. Journal of Chemical Information and Modeling, v. 49, n. 12, p.
2786–2800, 2009.
158 GRIEWEL, A. et al. Conformational sampling for large-scale virtual screening: accuracy
versus ensemble size. Journal of Chemical Information and Modeling, v. 49, n. 10, p.
2303–2311, 2009.
125
159 PERRUCCIO, F. et al. FLAP: 4-point pharmacophore fingerprints from GRID. In:
CRUCIANI, G. (Ed.). Molecular Interaction Fields: Applications in Drug Discovery and
ADME Prediction. Weinheim, Germany: Wiley-VCH, 2006. cap. 4.
160 BARONI, M. et al. A Common Reference Framework for Analyzing/Comparing Proteins
and Ligands. Fingerprints for Ligands And Proteins (FLAP): Theory and Application. J Chem
Info Model, v. 47, n. 2, p. 279–294, 2007.
161 CAROSATI, E. et al. Ligand-based virtual screening and adme-tox guided approach to
identify triazolo-quinoxalines as folate cycle inhibitors. Bioorganic & Medicinal Chemistry,
v. 18, n. 22, p. 7773 – 7785, 2010.
162 CROSS, S. et al. Flap: Grid molecular interaction fields in virtual screening. validation
using the dud data set. Journal of Chemical Information and Modeling, v. 50, n. 8, p. 1442–1450,
2010.
163 GOODFORD, P. J. A computational procedure for determining energetically favorable
binding sites on biologically important macromolecules. J Med Chem, v. 28, n. 7, p. 849–857,
1985.
164 JAHN, A. et al. Probabilistic modeling of conformational space for 3D machine learning
approaches. Molecular Informatics, v. 29, n. 5, p. 441–455, 2010.
165 JAHN, A. et al. Boltzmann-Enhanced Flexible Atom-Pair Kernel with Dynamic
Dimension Reduction. Molecular Informatics, v. 30, n. 4, p. 307–315, 2011.
166 JAHN, A. et al. 4d flexible atom-pairs: An efficient probabilistic conformational space
comparison for ligand-based virtual screening. Journal of Cheminformatics, v. 3, n. 1, p. 23,
2011.
167 DEMPSTER, A.; LAIRD, N.; RUBIN, D. Maximum likelihood from incomplete data via
the EM algorithm. Journal of the Royal Statistical Society. Series B (Methodological), v. 39,
n. 1, p. 1–38, 1977.
168 FRÖHLICH, H. et al. Optimal assignment kernels for attributed molecular graphs. In:
ICML. [S.l.: s.n.], 2005. p. 225–232.
169 FRöHLICH, H. et al. Kernel functions for attributed molecular graphs - a new similaritybased approach to adme prediction in classification and regression. QSAR & Combinatorial
Science, WILEY-VCH Verlag, v. 25, n. 4, p. 317–326, 2006. ISSN 1611-0218. Disponı́vel em:
<http://dx.doi.org/10.1002/qsar.200510135>.
170 Cresset Group. XedeX - XED Tools. Hertfordshire, UK: [s.n.], 2012. http:
//www.cresset-group.com/products/xedtools/.
126
171 KINNINGS, S. L.; JACKSON, R. M. Ligmatch: A multiple structure-based ligand
matching method for 3d virtual screening. Journal of Chemical Information and Modeling,
v. 49, n. 9, p. 2056–2066, 2009.
172 BRAKOULIAS, A.; JACKSON, R. Towards a structural classification of phosphate
binding sites in protein–nucleotide complexes: An automated all-against-all structural
comparison using geometric matching. Proteins: Structure, Function, and Bioinformatics, v. 56,
n. 2, p. 250–260, 2004.
173 INBAR, Y. et al. Deterministic pharmacophore detection via multiple flexible alignment
of drug-like molecules. In: Research in Computational Molecular Biology (RECOMB) - 11th
Annual International Conference. Oakland, CA, USA: [s.n.], 2007. v. 4453, p. 412–429.
174 LIU, X. et al. Cyndi: a multi-objective evolution algorithm based method for bioactive
molecular conformational generation. BMC Bioinformatics, v. 10, n. 1, p. 101, 2009.
175 HUANG, N.; SHOICHET, B. K.; IRWIN, J. J. Benchmarking sets for molecular docking.
J Med Chem, v. 49, n. 23, p. 6789–6801, 2006.
176 ROHRER, S.; BAUMANN, K. Maximum unbiased validation (MUV) data sets for virtual
screening based on pubchem bioactivity data. Journal of Chemical Information and Modeling,
v. 49, n. 2, p. 169–184, 2009.
177 RIPPHAUSEN, P.; WASSERMANN, A. M.; BAJORATH, J. REPROVIS-DB: A
benchmark system for ligand-based virtual screening derived from reproducible prospective
applications. Journal of Chemical Information and Modeling, v. 51, n. 10, p. 2467–2473, 2011.
178 IRWIN, J.; SHOICHET, B. ZINC-a free database of commercially available compounds
for virtual screening. Journal of Chemical Information and Modeling, v. 45, n. 1, p. 177–182,
2005.
179 JAHN, A. et al. Optimal assignment methods for ligand-based virtual screening.
Journal of Cheminformatics, v. 1, n. 1, p. 14, 2009. ISSN 1758-2946. Disponı́vel em:
<http://www.jcheminf.com/content/1/1/14>.
180 VENKATRAMAN, V. et al. Comprehensive comparison of ligand-based virtual screening
tools against the dud data set reveals limitations of current 3d methods. Journal of Chemical
Information and Modeling, v. 50, n. 12, p. 2079–2093, 2010.
181 PÉREZ-NUENO, V. I.; RITCHIE, D. W. Using consensus-shape clustering to identify
promiscuous ligands and protein targets and to choose the right query for shape-based virtual
screening. Journal of Chemical Information and Modeling, v. 51, n. 6, p. 1233–1248, 2011.
182 OPREA, T. I. et al. Is there a difference between leads and drugs? a historical perspective.
Journal of Chemical Information and Computer Sciences, v. 41, n. 5, p. 1308–1315, 2001.
127
183 VERDONK, M. et al. Virtual screening using protein-ligand docking: avoiding artificial
enrichment. Journal of Chemical Information and Computer Sciences, v. 44, n. 3, p. 793–806,
2004.
184 UPTON, G.; FINGLETON, B. Spatial Data Analysis by Example. New York: John Wiley
& Sons Ltd., 1985. (Point Pattern and Quantitative Data).
185 FORTIN, M.; DALE, M. Spatial Analysis: A Guide For Ecologists. [S.l.]: Cambridge
University Press, 2005.
186 WANG, Y. et al. PubChem’s BioAssay Database. Nucleic Acids Research, v. 40, n. D1, p.
D400–D412, 2012.
187 BAJORATH, J. Chemoinformatics and Computational Chemical Biology. Humana
Press, 2011. (Methods in Molecular Biology). ISBN 9781607618386. Disponı́vel em:
<http://books.google.com.br/books?id=shHJSAAACAAJ>.
188 ChemAxon. 1999–2012. www.chemaxon.com.
189 HALGREN, T. A. MMFF VI. MMFF94s option for energy minimization studies. Journal
of Computational Chemistry, v. 20, n. 7, p. 720–729, 1999.
190 JAKALIAN, A.; JACK, D. B.; BAYLY, C. I. Fast, efficient generation of highquality atomic charges. AM1-BCC model: II. parameterization and validation. Journal of
Computational Chemistry, v. 23, n. 16, p. 1623–1641, 2002.
191 BOTELHO, F. C.; ZIVIANI, N. External perfect hashing for very large key sets. In: CIKM
’07: Proceedings of the sixteenth ACM Conference on information and knowledge management.
Lisbon, Portugal: ACM, 2007. p. 653–662.
192 WISHART, D. S. et al. Drugbank: a comprehensive resource for in silico drug discovery
and exploration. Nucleic Acids Research, v. 34, n. suppl 1, p. D668–D672, 2006.
193 WISHART, D. S. et al. DrugBank: a knowledge base for drugs, drug actions and drug
targets. Nucl. Acids Res., v. 36, n. Database Issue, p. D901–906, 2008.
194 KANEHISA, M.; GOTO, S. KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucl.
Acids Res., v. 28, n. 1, p. 27–30, 2000.
195 CHEN, X.; JI, Z. L.; CHEN, Y. Z. TTD: Therapeutic Target Database. Nucl. Acids Res.,
v. 30, n. 1, p. 412–415, 2002.
196 KALASZI, A.; POLGAR, T.; VARGYAS, M. Ligand Based Virtual Screening using
Screen3D. Budapest, Hungary: [s.n.], 2011. ChemAxon User Group Meeting.
197 GRANT, J.; GALLARDO, M.; PICKUP, B. A fast method of molecular shape comparison:
A simple application of a gaussian description of molecular shape. Journal of Computational
Chemistry, v. 17, n. 14, p. 1653–1666, 1996.
128
198 OpenEye Scientific Software. ROCS. 2005–2012. http://www.eyesopen.com/rocs.
199 OpenEye Scientific Software. FRED - Fast Exaustive Docking. 2003–2012.
http://www.eyesopen.com/oedocking.
200 ABAGYAN, R.; TOTROV, M.; KUZNETSOV, D. ICM–a new method for protein
modeling and design: applications to docking and structure prediction from the distorted native
conformation. Journal of Computational Chemistry, v. 15, n. 5, p. 488–506, 1994.
201 JAIN, A. Ligand-based structural hypotheses for virtual screening. Journal of Medicinal
Chemistry, v. 47, n. 4, p. 947–961, 2004.
202 LEMMEN, C.; LENGAUER, T.; KLEBE, G. FLEXS: a method for fast flexible ligand
superposition. Journal of Medicinal Chemistry, v. 41, n. 23, p. 4502–4520, 1998.
203 GIGANTI, D. et al. Comparative evaluation of 3D virtual ligand screening methods:
impact of the molecular alignment on enrichment. Journal of Chemical Information and
Modeling, v. 50, n. 6, p. 992–1004, 2010.
204 PARGELLIS, C. et al. Inhibition of p38 MAP kinase by utilizing a novel allosteric binding
site. Nature Structural & Molecular Biology, v. 9, n. 4, p. 268–272, 2002.
129
Artigo: Journal of Chemical Information
and Modeling
Home
Submission Confirmation
You are logged in as Bernardo Domingues Thank you for submitting your manuscript to Journal of Chemical Information and Modeling.
Manuscript ID: ci­2012­00217a
Title: 3D­Pharma, A Ligand­based Virtual Screening tool using 3D Pharmacophore Fingerprints
Domingues, Bernardo
Authors: Lopes, Júlio César
Martins­José, Andrelly
Date Submitted: 04­May­2012
ScholarOne ManuscriptsTM v4.8.1 (patent #7,257,767 and #7,263,655). © ScholarOne, Inc., 2012. All Rights Reserved.
ScholarOne Manuscripts is a trademark of ScholarOne, Inc. ScholarOne is a registered trademark of ScholarOne, Inc.
Follow ScholarOne on Twitter
Terms and Conditions of Use ­ ScholarOne Privacy Policy ­ Get Help Now
3D-Pharma, A Ligand-based Virtual Screening tool
using 3D Pharmacophore Fingerprints
Bernardo F. Domingues,∗,†,‡ Andrelly Martins-José,† and Júlio C. D. Lopes∗,†
Chemoinformatics Group NEQUIM, Departamento de Química, Universidade Federal de Minas
Gerais, Belo Horizonte, Brazil
E-mail: [email protected]; [email protected]
Abstract
In this work, we introduced 3D-Pharma, a new Ligand-Based Virtual Screening method
that uses fingerprints of pharmacophore triplets at atomic resolutions to build very simple and
predictive models. Within 3D-Pharma the molecules are described by multiple representations that comprehend several prototropic species and conformations (multiple species, multiple mode approach). All the multiple representations of a compound are concatenated into
a unique fingerprint that accounts for most of its chemical and conformational diversity. The
biological activity of an ensemble of active molecules are represented by a single modal fingerprint or model, validated through a new exhaustive 10-fold cross-validation scheme, which
improves robustness and internal consistency of the models, as well as its predictive power.
We benchmark our method with 10 datasets of active compounds and decoys gathered from
DUD database and compare its performance against seven state-of-the-art LBVS methods. To
generate the models we used three external and independent datasets of bioactive compounds
(Drugs, PDB Ligands and WOMBAT). We concluded that 3D-Pharma overperforms all other
∗ To
whom correspondence should be addressed
† NEQUIM-UFMG
‡ Instituto
de Ciências Biológicas, Universidade Federal de Minas Gerais, Belo Horizonte, Brazil
1
state-of-the-art LBVS tools analyzed, in terms of global accuracy as well as scaffold hopping
and early recovery capacities. Furthermore, the models produced by 3D-Pharma are simple,
robust, consistent and predictive.
Introduction
Since 1996, the pharmaceutical industry has experienced a long period of low profits whilst experiencing a continuous increase in the expenditures. The productivity, as measured by the number
of approved NME’s, achieved its lowest number since the 80’s. 1 As a consequence, there is an
impressive number of blockbuster drugs reaching its patents covering in the next few years (a
phenomena known as "patent cliff") 2–4 and the major players in the pharmaceutical industry are
pushed to abandon less profitable branches and to concentrate the efforts on those whose financial
return is more likely. 5 Within this scenario, in silico methods became even more important in order
to speed up the process of discovery at lower aggregated cost. 6
A major problem in drug discovery is the identification of novel compounds that show binding
properties to protein targets of pharmaceutical interest together with appropriate pharmacokinetic
properties. In the lack of previous information regarding a target of interest nor known active compounds, there is no choice but to rely on a brute force hit identification process, such as HTS (High
Throughput Screening), over a whole chemical compound library. 7,8 But as data about known ligands or crystallographic structures from protein targets become available, such informations can be
used for selecting a small portion of some virtual compound database that shows a better likelihood
to interact with a given target than a randomly chosen compound. 9 Such enrichment is the goal of
Virtual Screening (VS) applications. 10 VS methods can be broadly classified by the origin of the
data used in the screening process. If it uses only data derived from previously known ligands, the
application is known as Ligand-Based VS; if the application uses data derived from the structure
of the protein target, the method is known as Target-Based VS. There is a plethora of methods
available within each class, and a handful of hybrid methods, 11–13 most of them summarized in
2
several recent reviews. 10,14–16
The methods of discovery and development of new drugs based on knowledge of the structures of biological targets are unavoidably dependent on their validation as potential therapeutic
targets, as well as the specific mode of action through which the new candidate drug will exert
its putative/predicted effect. It is worth mentioning that approximately 50% of the compounds
rejected at Clinical Phase II is due to insufficient efficacy, 17 suggesting deficiencies in target
or endpoint biomarkers validations. 18 A TBVS study is typically carried out through molecular
docking approaches. However, although they are able to reproduce with reasonable precision the
conformations observed in the crystallographic complexes, the scoring functions cannot consistently differentiate active from inactive compounds. 19 Moreover, the methods of drug discovery
and development based on the knowledge of the active ligands structures, e.g. those substances
previously known to cause a biological, pharmacological or therapeutic effect of interest, has a
great potential to generate predictive models aiming not only for a specific target, but also for biological effects which can be associated with in vitro or in vivo biological tests. 20–22 Conversely,
the ligand-based tools do not depend of information regarding a biological target nor a mechanism
of action, hence enabling them to create predictions over effects that should be multifactorial. 23–25
The methods based on the structures of the active ligands, although not necessarily dependent on a
specific mode of action, lack of a sufficient knowledge of the molecular structure and its role in the
interactions with the components of the biological environment. 26 Hence, there is not a consistent
set of molecular descriptors capable of foreseeing the biological properties of small molecules with
reasonable confidence.
The most popular ligand-based methods are those derived from 2D molecular structures, possibly due to its availability, quickness, easiness of use and relatively well established protocols. 27
In general, they present a good performance in retrospective studies, 28 but the results of prospective studies generally are disappointing, although propitiate a relative enrichment of actives. 29
The inclusion of conformational data in 3D LBVS methods increases the complexity of the algorithms and computational costs. Therefore, most of the 3D methods selects only one conforma-
3
tion for each compound. The options are the lowest energy conformation, a conformation from
a co-crystallized complex, or a conformation based on alignment with other active compounds.
However, the binding event could change dramatically the energy of conformers, and the active
conformation could not be same of the global minimum calculated in water or in vacuum, as
usually done by most molecular mechanics force-fields used in chemoinformatics and medicinal
chemistry. In fact, recently Nicklaus and co-workers 30 analyzed the conformations of ligands
found in PDB database at Density Functional level of theory. The difference of energy between the
conformations found in PDB structures and the fully optimized conformer stay in the range of 0
to 25 kcal/mol, distributed quite evenly and independently of the crystallographic resolution. The
ligands deposited on the Protein Data Bank 31 mostly present only one conformation bound to the
active site of the biological target. However, there is an increasing amount of data showing that
is not uncommon for a ligand to exhibit multiple conformations or multiple binding modes. 32,33
In addiction, the fact that crystallographic structures are not obtained in physiological conditions
casts doubts over which conformation should be considered as the bioactive. 34 Even the soaking
method used to produce the crystal could influence the conformation observed in models obtained
from the X-ray diffraction maps. 35
Some recent studies suggest that 2D methods outperform 3D approaches in terms of accuracy. 28 These can be due to deficiencies in the quality of the 3D descriptors or problems with the
conformational sampling. However, some 3D methods based on shape, electrostatics, or pharmacophore features have been shown to perform better than 2D LBVS methods when considering scaffold hopping. 36 Pharmacophore-based VS approaches are numerous. The classical use
of pharmacophore elucidation through the alignment of active compounds is the approach taken
by the majority of commercially available tools like CATALYST, 37 GALAHAD, 38 GASP, 39 the
pharmacophore module of MOE, 40 PHASE 41 and many others non-commercial tools, like PharmaGist. 42,43 Although the traditional pharmacophore mapping approach is well established and
performs satisfactorily, it is very sensitive to the size of the dataset to be screened 14 and biased by
the conformation selection. 44,45 Pharmacophore keys (or fingerprints) encode the pharmacophoric
4
features in binary vectors. They lack the intuitive nature of the classical pharmacophore elucidation, but they have a considerable higher throughput when dealing with large molecular databases,
making them a very popular approach to VS. There are several implementations of pharmacophore
searches powered by fingerprints, such as FLAP 46–49 and Pharmer. 50 Other examples found are
commercially available suites like Tripos’ Tuplets 51 and Accelrys’ 3DKeys. 52 Despite the number
of available techniques, any comparison between them is difficult due to the lack of benchmarking
standards both in databases and metrics of evaluation. 15
Currently there is a search for new molecular descriptors that associated with strong information modeling techniques and robust statistical methods that could make predictions in levels
beyond of those produced by the traditional methods. 28 Furthermore, considering that biological
systems are dynamic in their very nature, both ligands and biological targets are adaptive flexible
molecules and the emergent properties that arise from the binding event can trigger cascade effects
that ultimately produce the observed biological effects. 53 To clarify such a chain of events and to
develop suitable tools for practical application is far beyond the knowledge of the structures of the
binding partners. 26 Thus, we are currently at a crossroads in which the available methods are not
up to the challenge of predicting accurately the biological activities of small organic molecules. 54
Molecular recognition events are strongly dependent on conformational and proton-exchange
equilibria but they are often neglected in virtual screening studies. 55,56 Different microspecies
of biological macromolecules and their ligands are characterized by different conformations and
stereo-electronic characteristics. Therefore, including multiple species and multiple conformational data (MultiSpecies-MultiMode approach, or MS-MM) 57,58 in VS applications could result
in a comprehensive approach of biological activity and of inherent dynamics of the process of
binding for small molecules to its biological targets. Considering those LBVS methods that use
DUD datasets as benchmark, there are a few that have as a feature a full multimode approach, 59–61
being more common to start with multiple conformations but the final results are computed over a
single conformation. 46–49,62,63 To the best of our knowledge there is no published LBVS method
that use the MS-MM approach with DUD datasets.
5
This work aims to introduce 3D-Pharma, a new method for LBVS based on pharmacophore
fingerprints. The prediction power of 3D-Pharma is compared against other state-of-the-art LBVS
methods available elsewhere that used the Directory of Useful Decoys (DUD) database 64 as a
benchmarking data set. The 3D-Pharma method applies a multispecie-multimode (MS-MM) approach for the generation of atom-centered potentials pharmacophore triplets. Within 3D-Pharma,
all the multiple representations of a compound are concatenated into a unique binary vector or
fingerprint that accounts for most of the chemical and conformational diversity of the compound.
3D-Pharma uses a single modal fingerprint 65 to represent the biological activity of an ensemble
of active molecules, each one represented by its unique fingerprint. These models were built from
three external and independent datasets (Drugs, PDB-Ligands and Wombat) and were validated
by an exhaustive 10-fold cross validation scheme where each external dataset was divided in three
subsets comprising training, evaluation and test sets. The final models were selected after extensive
internal validation against the evaluation and testing sets.
Material and Methods
Data
A retrospective virtual screening study was made against ten protein targets chosen among the 40
targets available in the Directory of Useful Decoys (DUD) dataset. 64 The DUD Dataset is a benchmarking dataset for docking tools, but is commonly used to assess performance of ligand-based
methods and is well suited to do so. 28 The selected targets are: Aldose Reductase (ALR2), Androgen Receptor (AR), Cyclin-dependent Kinase 2 (CDK2), Cyclooxygenase-2 (COX-2), Epidermal
Growth Factor Receptor Kinase (EGFR), Factor X-α (FXα ), Mitogen activated Protein Kinase
14 (P38), HIV-1 Reverse Transcriptase (HIVRT), Phosphodiesterase V (PDE5) and Peroxisome
Proliferator Activated Receptor γ (PPARγ ). Those targets were selected based on availability of
WOMBAT datasets 66,67 molecules through the DUD website (http://dud.docking.org).
For each active molecule in the original release of DUD, there are approximately 36 other
6
inactive molecules with similar topological features. Jahn et al 68 performed a lead-like filter 69
over the molecules, as suggested by Good and Oprea, 67 in order to make the benchmark set more
suitable for LBVS applications. For each of the aforementioned targets, sets of actives and inactives molecules were obtained from DUD according to Jahn’s filter. Aiming to have true and
reliable external validation of 3D-Pharma approach, three independent datasets were used to build
the models for each target. The first dataset, called "Drugs", consists of all available approved
and experimental drugs for each target, gathered from the public databases DrugBank, 70,71 KEGG
Drugs 72 and Therapeutic Targets Database (TTD). 73 The second dataset, called "PDB-Ligands",
contains the ligands bound to any crystallographic structure of the target deposited on the Protein
Data Bank (PDB). 31 Finally, the third dataset, as mentioned above, was the WOMBAT datasets
available through the DUD website. All datasets used to build models for each target (Drugs, PDB
Ligands and WOMBAT) were previously filtered using a 2D comparison within ChemAxon’s Instant JChem 74 against the corresponding DUD Actives subset. Any redundancies between them
were excluded from the external datasets. A complete list of the molecules gathered for this study
is available in the Supporting Information. Table 1 shows the datasets sizes as well as the number
of different chemotypes found in DUD Actives datasets for each target. The numbers may vary
from the original DUD release and from other publications since some of the molecules generated
errors throughout the molecular treatment protocol and did not entered in the final subsets.
Treatment of Molecular Structures
All molecules used in this work were preprocessed following a pre-treatment protocol of manual dessalting, succeeded by standardization and dominant tautomer calculation with Standardizer
program by ChemAxon. 74 These steps ensure that all structures are in the same initial state. All
datasets were submitted to the same protocol of molecular treatment, which starts by determining
all dominant tautomer between pH 0 and 14, followed by a major microspecie calculation at pH
7 for each tautomer. These steps are important to be sure that a relevant sample of the chemical
variability of the compound is taken into account when computing the potential pharmacophore
7
Table 1: Number of unique compounds for each target in the DUD and external datasets (Drugs,
PDB-Ligands and WOMBAT), as well as the number of chemotypes for each DUD Active dataset.
Target
ALR2
AR
CDK2
COX-2
EGFR
FXα
HIVRT
P38
PDE5
PPARγ
Dataset
DUD Actives
DUD Decoys
Drugs
PDB Ligands
WOMBAT
DUD Actives
DUD Decoys
Drugs
PDB Ligands
WOMBAT
DUD Actives
DUD Decoys
Drugs
PDB Ligands
WOMBAT
DUD Actives
DUD Decoys
Drugs
PDB Ligands
WOMBAT
DUD Actives
DUD Decoys
Drugs
PDB Ligands
WOMBAT
DUD Actives
DUD Decoys
Drugs
PDB Ligands
WOMBAT
DUD Actives
DUD Decoys
Drugs
PDB Ligands
WOMBAT
DUD Actives
DUD Decoys
Drugs
PDB Ligands
WOMBAT
DUD Actives
DUD Decoys
Drugs
PDB Ligands
WOMBAT
DUD Actives
DUD Decoys
Drugs
PDB Ligands
WOMBAT
Number of
Compounds
26
910
11
26
41
68
2616
45
13
36
47
1702
37
132
148
212
11577
77
4
66
365
14516
10
12
62
64
1888
5
85
105
34
1370
4
29
97
135
5416
16
76
52
26
1561
12
10
85
6
38
12
8 60
27
Number of
Chemotypes
in DUD
Actives
14
10
32
44
40
19
17
20
22
6
points (PPP) (as shown in Figure 1). To accomplish these tasks the ChemAxon’s JChem 74 suite
was used.
The next step is a conformational sampling along with partial charge calculations for each
representation of the initial molecule. As the partial charge distribution affect the conformation
and vice-versa, an iterative process would be the most accurate. But this approach is not viable
when dealing with large datasets with thousands of molecules, due to its huge computational cost.
Hence, a better approach was devised, trying to optimize CPU time without significant loss of
precision. 75–77 Using OpenEye’s QuacPac and Omega2 78 suites, the lowest-energy conformation
is computed using the MMFF94s 79 force field, and its partial charges are determined using the
semi-empirical AM1BCC 80 method. The last step is a conformational sampling, limited up to 200
conformers (for the maximum of 25 rotatable bonds), within an energy window of 5 − 10 kcal/mol
and an RMSD between 0.5-1.0 Å.
Pharmacophore Fingerprint Build
After the molecular treatment, each compound is represented by a large ensemble of several conformations, associated to a small number of tautomers and protonation states. The next step is a
pharmacophoric mapping, performed by ChemAxon’s PMapper. 74 This process is done atom-wise
and assign at least one out of the following six PPP types to all heavy atoms in a molecule. The
Aromatic (R) feature is assigned to any atom that is part of an aromatic ring. Hydrogen Bond
Donor (D) and/or Hydrogen Bond Acceptor (A) are assigned to atoms able to establish hydrogen
bonds with a potential target. Positively Charged (P) and Negatively Charged (N) are assigned to
atoms with partial charges above +0.4 or below −0.4, respectively. Any other heavy atom that
fails to fit in the classes above is assigned as Hydrophobic(H). All triplets formed by PPP’s in 3D
space are generated for each conformer. The Euclidean distance between each pair of points is discretized in ten distance bins (in Å): 0–3, 3–4.5, 4.5–6, 6–8, 8–10, 10–12.5, 12.5–15, 15–18, 18–21
and 21–∞. Each triplet is a putative pharmacophore formed by three heavy atoms with a PPP type
assigned and a defined distance bin for each edge. This triplet is represented by a 6 character string
9
(3 characters for the feature on vertices and 3 for the distance bins on the edges) that identifies it
univocally. Figure 1 illustrates how is represented within 3D-Pharma the pharmacophore triplet
formed by a negatively charged Carboxyl group, a positively charged Amine group and Hydrogen
donor Nitrogen in the structure of histidine.
Each conformation of a single molecule could have hundreds of three-point potential pharmacophores, so 3D-Pharma transforms the strings in indexes of a binary fingerprint using a hash
function provided by the CMPH 81 library. These numeric fingerprints are analog to standard binary fingerprints, but instead of storing a very sparse array of bits, only the indexes of lit bits are
stored. This decision was made due to the non-scalability of the binary vector size when increasing
the number of nodes used in each tuplet (for example, when using tetrahedrons instead of triangles). Therefore, new operations are needed to substitute the binary operators AND and OR, since
they are not applicable to a non-binary representation. Using Set Theory, the analogs to the two
binary operations can be redefined: using Intersection (∩) for AND and Union (∪) for OR. The
Tanimoto coefficient was used for similarity computation between two vectors using Set Theory
operations. Given the fingerprints of two molecules A and B, the Tanimoto coefficient is given by:
T=
|A ∩ B|
|A ∪ B|
.
Model Construction
In some LBVS applications, it is necessary to generate comprehensive queries that represent a pursued activity profile. This query should hold enough information to search and retrieve molecules
with a potential activity from a large compound database. In 3D-Pharma, the query is a model built
from a set of molecules previously known to be actives. A model (M) is formally defined by a set
of pharmacophore triplets (x) that are present in the molecules that form the training set (T ) in a
frequency above a given threshold (τ). It can be formally defined as:
10
a.
SMILES
b.
Tautomers
N[C@@H](CC1=CN=CN1)C(O)=O
Tautomer 1
c.
Protonation
states and
Conformers
d.
Pharmacophore
String
PND111
e.
Hashed
Pharmacophore
123456
Tautomer 2
Conformer 1a Conformer 1b Conformer 2a Conformer 2b
f.
PND123
PND123
456123
PND134
321654
3D-Pharma
Hybrid Structure
of PND
pharmacophore
of histidine
Figure 1: The effects of the proposed molecular treatment and generation of the 3D-Pharma pharmacophore triplets fingerprint. The amino acid histidine were selected as an example and all structures are depicted in 2D for clarity. a) The SMILES representation of the neutral form of histidine.
b) The structures of the two dominant tautomers of histidine (pH between 0 and 14), showing
the hydrogen exchange between the two atoms of nitrogen at imidazole ring. c) The structures
of the major microspecies (protomers) of each tautomer of histidine at pH 7. For each protomer
two hypothetical conformations are presented (solely the imidazole ring flip are considered). The
dotted lines represent the pharmacophore triplet formed by one of the negative charged (N) oxygen atom at carboxyl group, the positive charged (P) alpha-nitrogen atom, and the hydrogen-bond
donor (D) nitrogen atom at imidazole ring. The same pharmacophore triplet is monitored over all
conformations d) the pharmacophore triplets of each conformation are converted to a string. PND
stands for a triplet formed by a positive, a negative and hydrogen-bond donor pharmacophores.
The numbers after the alphabetic string are indicatives of the distance between the atoms (see
text). e) The hashed pharmacophore form derived from alphanumeric string. f) The hypothetical
hybrid representation of the PND pharmacophore of histidine encoded by 3D-Pharma fingerprint.
All pharmacophore triplets detected over all conformations, represented by the dotted lines, are
equally considered
11
m
x∈M⇔
∑ f (x, Ti)
i=1
m


 1
≥ τ, f (x, Ti ) =

 0
if x ∈ Ti
otherwise
(1)
m being the size of the training set T , and Ti is the ith molecule in the set. We tried to optimize
the performance by incrementing the value of τ by 0.1 (0 ≤ τ ≤ 1). The gathered data (not shown
here) suggested that a value of 0.7 is a generally optimal cutoff when treating single molecular
target datasets.
In order to perform a virtual screening study, is necessary to have at least two datasets of active
molecules: a training set and a test set. The former is used for model construction, which should
be able to retrieve the latter among a set of inactive molecules. Although this is a widely used
approach, it presents a major problem: how to split the active data between these two groups?
The query construction is strongly affected by the training set selection. Besides, test and training
groups should not be too similar to turn the classification problem into a trivial one, nor be too
different, so molecules could show different profiles of activity or action mode. 82,83
To build and validate the models, 3D-Pharma uses a new protocol inspired by the work of Tropsha 84,85 on validation problems of QSAR models. In his work, Tropsha argues that the model must
be first exhaustively tested and validated internally before being used on external comparisons. In
order to accomplish this, one should generate multiple training and test groups, and only the most
internally consistent models should be considered to an external validation. 3D-Pharma splits the
active molecules among ten groups, using the average 3D similarity between them to create homogeneous groups. These groups are used to build models in a stratified 10-fold cross-validation
scheme where each group plays the role of test group once, and the remaining nine groups are recursively split between six training groups and three evaluation groups. Each training group is used
to build a model, which is compared against the molecules in its correspondent evaluation group.
Since 84 combinations of training/evaluation sets can be formed from nine groups, 84 models are
generated. Of these, only the ten models with the highest average similarity to the molecules of
its respective evaluation group are selected. These models are then used as a query to recover the
12
test group among a set of inactive molecules, and only the one which have the best recovery rate,
measured by the area under the Receiver Operating Characteristic (ROC) curve is retained (Figure 2). Subsequently, the next group assumes the role of test group and the process is repeated. At
the end, the full protocol generated a total of 840 models and produced 10 final models, one per
test group. Henceforth, all results from 3D-Pharma presented here were averaged over these 10
models. When a dataset contains less than 10 molecules, is not possible to do a stratified 10-fold
cross-validation and, in this case, a simple model is built without internal validation, considering
all active molecules to be part of the Training Set.
9
Actives
1
3
Evaluation
Groups
Test Group
Final Model
x10
1
ROC
6
10
Tanimoto
Training
Groups
84
Models
Inactives
Figure 2: The 3D-Pharma exhaustive 10-fold cross validation scheme used to model construction
and validation. Each group out of ten assumes the role of test group once, and the remaining
groups are systematically split between training (six groups) and evaluation (three groups) sets.
Each possible distribution generates a model from its training set to be compared against its correspondent evaluation set. There are 84 possible distributions and 84 models are generated. The
10 models most similar to its evaluation set are selected to a final validation against the test set.
Only the highest predictive model for each test set is selected, resulting in 10 final models built by
3D-Pharma.
13
Metrics of Evaluation
To assess the performance of 3D-Pharma and also compare it against other available tools, a set
of metrics were defined for measuring the performance of 3D-Pharma in VS applications. Three
key features should be addressed when designing a VS method, and each one has its own set of
metrics:
• Accuracy - The overall performance of a VS method. Can be easily quantified using the area
under the Receiver-Operating Characteristic curve (AUCROC ), which is a statically relevant
and unbiased metric for classification performance assessment. 86
• Early Recognition - The capacity of the VS method to recover active compounds at early
cuts. The AUCROC ’s capacity to assess the "early recognition" has been criticized, 87 since
whenever a true positive is found, it’s contribution to the final score is proportionally the
same regardless of ranking position. Usually results published elsewhere rely on Enrichment
Factor (EF) of selected cuts to assess the "Early Recognition" problem. However this metric
is not suitable as it depends on the size of the database and on the actives/inactives ratio. Even
on standardized databases, unbiased metrics are preferable. In search of a better metric,
Truchon and Bayly
87
generalized the Receiver-Operator Characteristic and designed the
parametric Boltzmann-Enhanced Discrimination ROC curve (BEDROCα ). The α parameter
is used to specify the range of the ranked list that would contribute the most to the overall
score. In their work, Truchon and Bayly formalized this relation and suggested some α
values. Within these suggestions, values of α = 160.9, 32.2 and 20, which corresponds
respectively to an EF at 1%, 5% and 8% of the selection, were chosen.
• Scaffold Hoping - The ability of the VS method to find novel (or diverse) molecular scaffolds.
To account for scaffold hoping in retrospective studies, one would need to cluster the actives
into groups of similar molecular structures. Since the DUD database has already clustered
its active molecules, it is straightforward to apply the metrics. The arithmetic weighting of
the ROC curve (awROC) 88 was used to assess scaffold hopping capabilities, which weights
14
the ROC curve to take into account cluster information. A true positive influence in the score
is inversely proportional to the size of the cluster that it is inserted into, so early recognition
of low represented clusters contributes more to the final score.
Methods in LBVS used for comparison
The performance of 3D-Pharma was compared to those of other LBVS methods that also used
DUD as a benchmarking dataset and its authors supplies enough data to support the full comparison.
Optimal Assignment methods
Optimal Assignment is a graph theory optimization problem. Given a bipartite graph where each
node is linked to another node by a weighted edge, an optimal assignment is a graph-matching
where the sum of the edges are maximized. This was first applied in molecular similarity by
Fröhlich and co-workers, 89,90 when they created the OAK (Optimal Assignment Kernel) method.
OAKFLEX 91 was a modification of OAK made by Fechner et al that included conformational space
similarity into the calculations. Other implementations of algorithms which mapped the optimal
assignment problem into molecular similarity measures include 2SHA (Two-Step Hierarchical Assignment) 68 and OAAP(Optimal Local Atom Pair Environment Assignment). 68
4D FAPOA
4D FAPOA 59 generates a very large ensemble of conformations whose atom-pair distance profile
are encoded in a series of Gaussian Mixed Models (GMM) generating a single probabilistic model.
The energy of conformations is used as a weight factor of each measured atom-pair distance in the
GMM generation. The complete information of the conformational space of a molecule is encoded
into a list of Gaussian mixture models that could be used to compare different molecules without
the need of original conformational ensemble. The final similarity value is computed through an
optimal assignment algorithm over atom-pairs in a distance matrix.
15
FLAP
FLAP (Fingerprints for Ligands and Proteins) 46–49 is a well known 3D fingerprint tool that utilizes molecular interaction fields (MIFs) from both ligand and target structures, generated by the
program GRID. 92 Each grid point with a local maximal value of the MIF generates a pharmacophoric point of the type of the probe used to generate the MIF and all tetrahedrons formed by
these points are stored in a fingerprint. A similarity search is made considering the fingerprints and
the alignment of the query molecule to the template. In the recent work by Cross et al, 49 data fusion techniques were used over several data sources to improve recall rates. Of these, LBtParetoR
and LBOpt were the best ligand-based techniques reported. LBtParetoR uses a recursive Pareto
sum ranking of the alignments, using the DUD cluster representatives (DUD-Parents) as templates.
The LBOpt mode uses information of inactive compounds to choose among the DUD-Parents the
best template.
FieldScreen
FieldScreen 93 computes molecular field points around a "relevant" conformation of the query
molecule and search a multiconformer database for matching patterns, using maximal colored
cliques of field points for the alignment.
Results and discussion
All compounds included in this study (DUD Actives, DUD Decoys, Drugs, PDB Ligands and
WOMBAT entries) were submitted to the same protocol of molecular treatment. A set of models
was built from the molecules of each active dataset (except COX-2 PDB Ligands, FXα Drugs and
HIVRT Drugs, which had less than 10 molecules in the dataset). Each model was used as query
in a similarity search against a pool of molecules formed by DUD Actives and DUD Decoys. The
resulting ranking was evaluated through the metrics aforementioned and compared to the LBVS
methods mentioned previously.
16
As shown in Figure 4, only 3D-Pharma and 4D FAPOA had data comprising all 10 targets
included in this study. The other techniques mentioned above only made data available for 13
targets with high chemotype diversity (greater than 15 classes). Within these, there are seven
targets in common with our selection : CDK2, COX-2, EGFR, FXα , HIVRT, P38 and PDE5.
Hence, all averaged data on the LBVS methods depicted in Figure 5 and Figure 6 (except for
3D-Pharma and 4D FAPOA ) are averaged across these seven targets.
Average AUC ROC over all targets
1
WOMBAT
Drugs
PDB
0.9
0.8
0.7
0.6
0.5
g
T
E5
PD
8
P3
R
IV
H
a
FX
FR
EG
X2
O
C
K2
2
AR
D
C
PP
AR
R
AL
Figure 3: Average AUCROC produced by 3D-Pharma for all targets. For each dataset, the AUCROC
value was averaged over the 10 models derived from the 10-fold Cross-validation protocol. The
error bars correspond to the calculated standard deviation for each dataset.
As seen in Figure 3, 3D-Pharma had an excellent overall accuracy, with 20 out of 30 models
with AUCROC above 0.8. Of these, 14 had AUCROC above 0.9. As for the targets, seven out of
ten had at least one dataset with AUCROC above 0.9, with nine out of ten targets with at least one
model with AUCROC above 0.8. The models constructed from the WOMBAT database presented
the best accuracy, with average AUCROC of 0.93 ± 0.08, compared to the other datasets (Drugs
AUCROC = 0.85 ± 0.12 and PDB AUCROC = 0.80 ± 0.14). This might be due to the fact that
17
a.
b.
c.
d.
e.
f.
g.
h.
i.
j.
Figure 4: Logarithmic ROC plots of all analysed Ligand-Based Virtual Screening tools against the
DUD datasets: a) AR b) ALR2 c) PPARγ d) CDK2 e) COX2 f) EGFR g) FXα h) HIVRT i) P38 j)
PDE5
18
1
0.9
0.8
0.7
0.6
0.5
4D
A
et
o
BA
M
B)
)
R
)
gs
O
ar
t)
P
Bt
(L
PO
FA
AP
W
p
Bo
(L
n
ee
cr
dS
AP
FL
FL
el
Fi
P
AA
O
a(
rm
PD
a(
rm
ru
D
a(
rm
EX
FL
A
AK
H
2S
O
AK
O
ha
-P
3D
ha
-P
3D
ha
-P
3D
T)
Figure 5: Average AUCROC and AUCawROC over 10 selected targets for 3D-Pharma (datasets
WOMBAT, Drugs and PDB Ligands) and 4D FAPOA . The results of the remaining six LigandBased Virtual Screening tools were averaged over seven targets. It is worth of note that all methods, except 3D-Pharma with PDB ligands and Drugs datasets, show an decrease the area under the
curve (AUC) from ROC to awROC.
19
0.75
α=160.9
α=32.2
α=20
0.7
0.65
0.6
0.55
0.5
0.45
0.4
0.35
0.3
0.25
4D
A
o
et
ar
t)
P
Bt
(L
n
p
Bo
PO
FA
AP
FL
(L
ee
X
LE
cr
dS
P
AP
FL
el
Fi
A
AA
O
H
2S
F
AK
T)
O
BA
M
O
(W
AK
a
O
rm
B)
ha
-P
PD
a(
3D
)
rm
gs
ha
ru
-P
D
a(
3D
rm
ha
-P
3D
)
R
Figure 6: Average BEDROCα scores over 10 selected targets for 3D-Pharma (datasets WOMBAT,
Drugs and PDB Ligands) and 4D FAPOA . The results of the remaining six Ligand-Based Virtual
Screening tools were averaged over seven targets. The values for the α parameter were 160.9, 32.2
and 20, which correspond to Enrichment Fators (EF) at 1%, 5% and 8% of selection, respectively.
20
Effect of Dataset Sizes on 3D-Pharma Accuracy
16
Less than 13 cpd
13 cpd or more
14
14
Number of Models
12
10
8
6
4
4
4
3
2
2
2
1
0
AUCROC < 0.7
0.7 < AUCROC < 0.8
0.8 < AUCROC < 0.9
AUCROC > 0.9
Figure 7: The effect of dataset sizes on 3D-Pharma accuracy. For datasets with 13 or more compounds most datasets (14 out of 21) produced high quality models (AUC> 0.9). For those datasets
with 12 or less compounds, two out of nine datasets produced good models (AUC> 0.8).
21
WOMBAT is a solid well stablished database, whereas the Drugs and PDB are still a growing set
of gathered data. Beyond the nature and quality of datasets used to build the models, it seems
that the size of the datasets shows the major impact on the performance of 3D-Pharma (Figure 7).
For those datasets with at least 13 compounds (21 datasets), not less than 14 (67%) produced high
quality models with AUCROC above 0.9, and 18 (86%) produced very good models with AUCROC
above 0.8. On the contrary, for those datasets with less than 13 compounds, none was able to
generate models with AUCROC above 0.9 and only two out of nine (22%) generated models with
AUCROC above 0.8.
In general, 3D-Pharma outperforms the other methods regardless of the dataset chosen to build
the models, with FLAP as a close second. However, despite of results achieved, both FLAP ligandbased approaches are subject of one drawback: the use of DUD cluster-parent actives as query or
templates. Therefore, the analysis is subject of analogue bias 67 that could potentially increment
artificially the results. Another interesting observation arises when BEDROC scores are analyzed.
When one looks over the bigger cuts (α = 32.2 and 20), all methods analyzed have an abrupt
fall in the early recovery rate, as seen in Figure 6, but 3D-Pharma fairly maintains its scores as α
diminishes. It seems that the higher BEDROC160.9 score with a subsequent substantial decrease
on BEDOC32.2 is an evidence of some kind of analog bias that puts a few actives compounds
very high in the rank (before 1% of selection) and leaves many other active molecules spread
over the rank positions. In 3D-Pharma we used three really external public datasets, used "as is",
that is, without any kind of filter, except for redundant molecules between the DUD actives and
external datasets. As a consequence the BEDROC score is sustained over all α values used in the
benchmark.
LBOpt and LBParetoR FLAP scenarios present very good overall results and perform better
than the other methods surveyed, except for 3D-Pharma. LBParetoR uses all DUD chemotype
cluster parents (DUD-own dataset) for each target as query in an ensemble approach with consensus analysis of the individual template similarity results. Consequently, the number of DUD
actives in the ROC analysis is smaller than all other methods under comparison in this paper, and
22
the conclusions must be seen carefully. When we look at the ROC and awROC from LBParetoR, the results are impressive, with average AUC above 0.9 for the seven targets under scrutiny.
However, the analysis of BEDROC results discloses a disappointing "early recovery", mainly for
BEDROC160.9 and BEDROC32.2 . The LBOpt approach produces smaller AUC in the ROC analysis than LBParetoR, but the "early recovery" is much better. LBopt also uses the DUD-Parents
as query, but they are subject to a previous optimal template selection that optimize proportions of
false positives and false negatives in order to select the single template to be used as query.
When analyzing scaffold hopping capabilities, one can note that all techniques, except 3DPharma, have a significant drop in their average AUCs when considering awROC over the standard
ROC (Figure 5). On the contrary, 3D-Pharma using the Drugs and PDB-Ligands datasets have an
increase in the score. The other techniques tend to rank higher the most populated scaffolds, hence
lowering AUCawROC scores in relation to AUCROC .
Conclusions
The main characteristics of 3D-Pharma are the use of pharmacophore triplets fingerprint based
on atom-centered potential pharmacophores, the use of several representations of the compound
that include tautomers, protonation states and conformers and the ensemble template approach
producing a single modal fingerprint based on frequency of pharmacophore triplets over the active
compounds. This dynamic pharmacophore fingerprint encodes all chemical and conformational
variability of the compound in a single fingerprint representation. Thus, the 3D-Pharma approach
adopts a paradigm where the full ensemble of conformers is taken into account at the same time
in a single modal fingerprint, similarly to the approach implemented by Ranu and Singh. 60 In our
study, 30 sets of models were generated for 10 selected targets from the DUD database, using three
external and independent datasets as reference. Is seems that the size of the modeling dataset exerts
the major impact on the model quality. For those datasets with at least 13 compounds (21 datasets)
not less than 18 (or 86%) were able to produce very good models with AUCROC above 0.8, and 14
23
datasets (67%) produced very high quality models with an AUCROC above 0.9.
The analysis of the scaffold hopping and early recovery capabilities of 3D-Pharma has shown
two distinguishing behaviors. The AUCawROC , used to estimate scaffold hopping capabilities,
shows evidences that 3D-Pharma with Drugs and PDB Ligands datasets has a better performance
in detecting rarer scaffolds than other LBVS tools analyzed. The second 3D-Pharma dicerning
behavior can be seen in the BEDROC plot (Figure 6) were 3D-Pharma datasets sustain high scores
over the three values chosen for the α parameter. All other LBVS tools (except FLAP LBParetoR)
presented a higher score at lower cuts (BEDROC160.9 ) than those at higher cuts, with a significant
decrease at the BEDROC32.2 and BEDROC20 scores.
Thus, the data shown here lead us to strongly believe that 3D-Pharma overperforms all other
state-of-the-art LBVS tools analyzed, in terms of global accuracy as well as scaffold hopping and
early recovery capacities. The fact that three really external datasets were used to generate the
models that are at the same time simple, robust, consistent and predictive should be highlighted.
It remains to be seen its predictive power in prospective virtual screening cases, but as far as the
results shown here can assess, 3D-Pharma is a promising method that can effectively contribute to
the success of any drug discovery process.
Acknowledgement
We would like to acknowledge the following agencies for their support: CNPq, CAPES and
FAPEMIG. We would also like to thanks ChemAxon and OpenEye Scientific Software for providing us academic licenses to their products.
Supporting Information Available
Supporting Information contains the ROC plots and complete tables comparing all methods for
each target. It also contains the molecular files (in SMILES) for Drugs and PDB-Ligands datasets
for each target, and the WOMBAT IDs considered on this study. The full ranking od DUD
molecules from each model is also available within the files. Please refer to the README.txt
24
file for more details.
References
(1) Paul, S.; Mytelka, D.; Dunwiddie, C.; Persinger, C.; Munos, B.; Lindborg, S.; Schacht, A.
How to improve R&D productivity: the pharmaceutical industry’s grand challenge. Nature
Reviews Drug Discovery 2010, 9, 203–214.
(2) IMAP’s Pharma & Biotech Industry Global Report 2011. http://www.imap.com/
imap/media/resources/IMAP_PharmaReport_8_272B8752E0FB3.pdf,
2011; Accessed 05/01/2012.
(3) Koenig, J. Does process excellence handcuff drug development? Drug Discovery Today
2011, 16, 377 – 381.
(4) Harrison, C. Patent Watch: The patent cliff steepens. Nature Reviews Drug Discovery 2011,
10, 12–13.
(5) Arrowsmith, J. A decade of change. Nat Rev Drug Discov 2012, 11, 17–18.
(6) Mucsi, Z.; Csizmadia, I. The Future of the Drug Discovery Process and the Fate of the Pharmaceutical Industry: An economical and scientific study. Philosophic Nature 2009, 1.
(7) Mayr, L. M.; Fuerst, P. The Future of High-Throughput Screening. Journal of Biomolecular
Screening 2008, 13, 443–448.
(8) Kümmel, A.; Parker, C. N. In Chemoinformatics and Computational Chemical Biology; Bajorath, J., Ed.; Springer Science+Business Media, LLC 2011, 2011; Chapter 17, pp 435–457.
(9) Bajorath, J. Integration of virtual and high-throughput screening. Nature Reviews Drug Discovery 2002, 1, 882–894.
(10) Ripphausen, P.; Nisius, B.; Bajorath, J. State-of-the-art in ligand-based virtual screening.
Drug Discovery Today 2011, 16, 372 – 376.
25
(11) Cortés-Cabrera, Á.; Gago, F.; Morreale, A. A reverse combination of structure-based and
ligand-based strategies for virtual screening. Journal of Computer-Aided Molecular Design
2012, 26, 319–327.
(12) Svensson, F.; Karlén, A.; Sköld, C. Virtual Screening Data Fusion Using Both Structure- and
Ligand-Based Methods. Journal of Chemical Information and Modeling 2012, 52, 225–232.
(13) Swann, S. L.; Brown, S. P.; Muchmore, S. W.; Patel, H.; Merta, P.; Locklear, J.; Hajduk, P. J.
A Unified, Probabilistic Framework for Structure- and Ligand-Based Virtual Screening. Journal of Medicinal Chemistry 2011, 54, 1223–1232.
(14) Leach, A. R.; Gillet, V. J.; Lewis, R. A.; Taylor, R. Three-Dimensional Pharmacophore Methods in Drug Discovery. Journal of Medicinal Chemistry 2010, 53, 539–558.
(15) Geppert, H.; Vogt, M.; Bajorath, J. Current Trends in Ligand-Based Virtual Screening:
Molecular Representations, Data Mining Methods, New Application Areas, and Performance
Evaluation. Journal of Chemical Information and Modeling 2010, 50, 205–216.
(16) Ripphausen, P.; Nisius, B.; Peltason, L.; Bajorath, J. Quo Vadis, Virtual Screening? A Comprehensive Survey of Prospective Applications. Journal of Medicinal Chemistry 2010, 53,
8461–8467.
(17) Arrowsmith, J. Trial watch: Phase II failures: 2008-2010. 2011, 10, 328–329.
(18) Colburn, W. Biomarkers in drug discovery and development: from target identification
through drug marketing. The Journal of Clinical Pharmacology 2003, 43, 329–341.
(19) Virtanen, S.; Pentikäinen, O. Efficient virtual screening using multiple protein conformations
described as negative images of the ligand-binding site. Journal of Chemical Information and
Modeling 2010, 50, 1005–1011.
(20) Koutsoukas, A.; Simms, B.; Kirchmair, J.; Bond, P.; Whitmore, A.; Zimmer, S.; Young, M.;
Jenkins, J.; Glick, M.; Glen, R.; Bender, A. From in silico target prediction to multi-target
26
drug design: Current databases, methods and applications. Journal of Proteomics 2011, 74,
2554–2574.
(21) Marrero-Ponce, Y.; Siverio-Mota, D.; Gálvez-Llompart, M.; Recio, M. C.; Giner, R. M.;
García-Domènech, R.; Torrens, F.; Arán, V. J.; Cordero-Maldonado, M. L.; Esguera, C. V.;
de Witte, P. A.; Crawford, A. D. Discovery of novel anti-inflammatory drug-like compounds
by aligning in silico and inăvivo screening: The nitroindazolinone chemotype. European
Journal of Medicinal Chemistry 2011, 46, 5736 – 5753.
(22) Bottegoni, G.; Favia, A. D.; Recanatini, M.; Cavalli, A. The role of fragment-based and
computational methods in polypharmacology. Drug Discovery Today 2012, 17, 23 – 34.
(23) Ekins, S.; Mestres, J.; Testa, B. In silico pharmacology for drug discovery: methods for
virtual ligand screening and profiling. British Journal of Pharmacology 2007, 152, 9–20.
(24) Bajorath, J. Computational analysis of ligand relationships within target families. Current
Opinion in Chemical Biology 2008, 12, 352–358.
(25) Luis G. Valerio, J. In silico toxicology for the pharmaceutical sciences. Toxicology and applied pharmacology 2009, 241, 356–370.
(26) Maggiora, G. The reductionist paradox: are the laws of chemistry and physics sufficient for
the discovery of new drugs? Journal of Computer-Aided Molecular Design 2011, 25, 699–
708.
(27) Willett, P. Similarity-based virtual screening using 2D fingerprints. Drug discovery today
2006, 11, 1046–1053.
(28) Venkatraman, V.; Pérez-Nueno, V. I.; Mavridis, L.; Ritchie, D. W. Comprehensive Comparison of Ligand-Based Virtual Screening Tools Against the DUD Data set Reveals Limitations
of Current 3D Methods. Journal of Chemical Information and Modeling 2010, 50, 2079–
2093.
27
(29) Stumpfe, D.; Bajorath, J. In Virtual Screening; Mannhold, R., Kubinyi, H., Folkers, G., Eds.;
Wiley-VCH Verlag GmbH & Co. KGaA, 2011; Chapter 11, pp 291–318.
(30) Sitzmann, M.; Weidlich, I. E.; Filippov, I. V.; Liao, C.; Peach, M. L.; Ihlenfeldt, W.-D.;
Karki, R. G.; Borodina, Y. V.; Cachau, R. E.; Nicklaus, M. C. PDB Ligand Conformational
Energies Calculated Quantum-Mechanically. Journal of Chemical Information and Modeling
2012, 52, 739–756.
(31) Berman, H. M.; Westbrook, J.; Feng, Z.; Gilliland, G.; Bhat, T. N.; Weissig, H.;
Shindyalov, I. N.; Bourne, P. i. E. The Protein Data Bank. Nucl. Acids Res. 2000, 28, 235–242.
(32) Mattos, C.; Ringe, D. In 3D QSAR in Drug Design: Theory, Methods and Applications;
Kubinyi, H., Ed.; Escom, 1993; pp 226–256.
(33) Lewis, P. et al. On the detection of multiple-binding modes of ligands to proteins, from biological, structural, and modeling data. Journal of Computer-Aided Molecular Design 2003,
17, 129–134.
(34) DePristo, M. A.; de Bakker, P. I. W.; Blundell, T. L. Heterogeneity and Inaccuracy in Protein
Structures Solved by X-Ray Crystallography. Structure 2004, 12, 831 – 838.
(35) Steuber, H.; Zentgraf, M.; Gerlach, C.; Sotriffer, C.; Heine, A.; Klebe, G. Expect the unexpected or caveat for drug designers: multiple structure determinations using aldose reductase
crystals treated under varying soaking and co-crystallisation conditions. Journal of Molecular
Biology 2006, 363, 174–187.
(36) Tresadern, G.; Bemporad, D.; Howe, T. A comparison of ligand based virtual screening methods and application to corticotropin releasing factor 1 receptor. Journal of Molecular Graphics and Modelling 2009, 27, 860–870.
(37) Barnum, D.; Greene, J.; Smellie, A.; Sprague, P. Identification of Common Functional Con-
28
figurations Among Molecules. Journal of Chemical Information and Computer Sciences
1996, 36, 563–571.
(38) Richmond, N.; Abrams, C.; Wolohan, P.; Abrahamian, E.; Willett, P.; Clark, R. GALAHAD:
1. Pharmacophore identification by hypermolecular alignment of ligands in 3D. Journal of
Computer-Aided Molecular Design 2006, 20, 567–587.
(39) Jones, G.; Willett, P.; Glen, R. C. A genetic algorithm for flexible molecular overlay and
pharmacophore elucidation. Journal of Computer-Aided Molecular Design 1995, 9, 532–549.
(40) Chemical Computing Group, Molecular Operating Environment. www.chemcomp.com.
(41) Dixon, S.; Smondyrev, A.; Knoll, E.; Rao, S.; Shaw, D.; Friesner, R. PHASE: a new engine
for pharmacophore perception, 3D QSAR model development, and 3D database screening:
1. Methodology and preliminary results. Journal of Computer-Aided Molecular Design 2006,
20, 647–671.
(42) Schneidman-Duhovny, D.; Dror, O.; Inbar, Y.; Nussinov, R.; Wolfson, H. J. Deterministic
Pharmacophore Detection via Multiple Flexible Alignment of Drug-Like Molecules. Journal
of Computational Biology 2008, 15, 737–754.
(43) Dror, O.; Schneidman-Duhovny, D.; Inbar, Y.; Nussinov, R.; Wolfson, H. J. Novel Approach
for Efficient Pharmacophore-Based Virtual Screening: Method and Applications. Journal of
Chemical Information and Modeling 2009, 49, 2333–2343, PMID: 19803502.
(44) Cottrell, S. J.; Gillet, V. J.; Taylor, R.; Wilton, D. J. Generation of multiple pharmacophore
hypotheses using multiobjective optimisation techniques. Journal of Computer-Aided Molecular Design 2004, 18, 665–682.
(45) Kristam, R.; Gillet, V. J.; Lewis, R. A.; Thorner, D. Comparison of Conformational Analysis
Techniques To Generate Pharmacophore Hypotheses Using Catalyst. Journal of Chemical
Information and Modeling 2005, 45, 461–476.
29
(46) Perruccio, F.; Mason, J. S.; Sciabola, S.; Baroni, M. In Molecular Interaction Fields: Applications in Drug Discovery and ADME Prediction; Cruciani, G., Ed.; Wiley-VCH: Weinheim,
Germany, 2006; Chapter 4.
(47) Baroni, M.; Cruciani, G.; Sciabola, S.; Perruccio, F.; Mason, J. S. A Common Reference
Framework for Analyzing/Comparing Proteins and Ligands. Fingerprints for Ligands And
Proteins (FLAP): Theory and Application. J Chem Info Model 2007, 47, 279–294.
(48) Carosati, E.; Sforna, G.; Pippi, M.; Marverti, G.; Ligabue, A.; Guerrieri, D.; Piras, S.;
Guaitoli, G.; Luciani, R.; Costi, M. P.; Cruciani, G. Ligand-based virtual screening and
ADME-tox guided approach to identify triazolo-quinoxalines as folate cycle inhibitors.
Bioorganic & Medicinal Chemistry 2010, 18, 7773 – 7785.
(49) Cross, S.; Baroni, M.; Carosati, E.; Benedetti, P.; Clementi, S. FLAP: GRID Molecular Interaction Fields in Virtual Screening. Validation using the DUD Data Set. Journal of Chemical
Information and Modeling 2010, 50, 1442–1450.
(50) Koes, D. R.; Camacho, C. J. Pharmer: Efficient and Exact Pharmacophore Search. Journal of
Chemical Information and Modeling 2011, 51, 1307–1314.
(51) Tripos, L.P., Tuplets. www.tripos.com.
(52) Accelrys Software, Cerius2 . www.accelrys.com.
(53) de Benedetti, P.; Fanelli, F. Computational quantum chemistry and adaptive ligand modeling
in mechanistic QSAR. Drug Discovery Today 2010, 15, 859–866.
(54) Schneider, G. Virtual screening: an endless staircase? Nat Rev Drug Discov 2010, 9, 273–
276.
(55) Kubinyi, H. Drug research: myths, hype and reality. Nature Reviews Drug Discovery 2003,
2, 665–667.
30
(56) Scior, T.; Bender, A.; Tresadern, G.; Medina-Franco, J. L.; Martínez-Mayorga, K.; Langer, T.;
Cuanalo-Contreras, K.; Agrafiotis, D. K. Recognizing Pitfalls in Virtual Screening: A Critical
Review. Journal of Chemical Information and Modeling 2012, 52, 867–881.
(57) Natesan, S.; Wang, T.; Lukacova, V.; Bartus, V.; Khandelwal, A.; Balaz, S. Rigorous Treatment of Multispecies Multimode Ligand-Receptor Interactions in 3D-QSAR: CoMFA Analysis of Thyroxine Analogs Binding to Transthyretin. Journal of Chemical Information and
Modeling 2011, 51, 1132–1150.
(58) Natesan, S.; Subramaniam, R.; Bergeron, C.; Balaz, S. Binding Affinity Prediction for
Ligands and Receptors Forming Tautomers and Ionization Species: Inhibition of MitogenActivated Protein Kinase-Activated Protein Kinase 2 (MK2). Journal of Medicinal Chemistry
2012, 55, 2035–2047.
(59) Jahn, A.; Rosenbaum, L.; Hinselmann, G.; Zell, A. 4D Flexible Atom-Pairs: An efficient
probabilistic conformational space comparison for ligand-based virtual screening. Journal of
Cheminformatics 2011, 3, 23.
(60) Ranu, S.; Singh, A. K. Novel Method for Pharmacophore Analysis by Examining the Joint
Pharmacophore Space. Journal of Chemical Information and Modeling 2011, 51, 1106–1121.
(61) Pérez-Nueno, V. I.; Ritchie, D. W. Using Consensus-Shape Clustering To Identify Promiscuous Ligands and Protein Targets and To Choose the Right Query for Shape-Based Virtual
Screening. Journal of Chemical Information and Modeling 2011, 51, 1233–1248.
(62) Sastry, G. M.; Dixon, S. L.; Sherman, W. Rapid Shape-Based Ligand Alignment and Virtual
Screening Method Based on Atom/Feature-Pair Similarities and Volume Overlap Scoring.
Journal of Chemical Information and Modeling 2011, 51, 2455–2466.
(63) Cai, C.; Gong, J.; Liu, X.; Jiang, H.; Gao, D.; Li, H. A novel, customizable and optimizable
parameter method using spherical harmonics for molecular shape similarity comparisons.
Journal of Molecular Modeling 2012, 18, 1597–1610.
31
(64) Huang, N.; Shoichet, B. K.; Irwin, J. J. Benchmarking Sets for Molecular Docking. J Med
Chem 2006, 49, 6789–6801.
(65) Hert, J.; Willett, P.; Wilton, D. J.; Acklin, P.; Azzaoui, K.; Jacoby, E.; Schuffenhauer, A.
Comparison of Fingerprint-Based Methods for Virtual Screening Using Multiple Bioactive
Reference Structures. Journal of Chemical Information and Computer Sciences 2004, 44,
1177–1185.
(66) Olah, M.; Mracec, M.; Ostopovici, L.; Rad, R.; Bora, A.; Hadaruga, N.; Olah, I.; Banda, M.;
Simon, Z.; Mracec, M.; Oprea, T. I. In Chemoinformatics in Drug Discovery; Oprea, T. I.,
Ed.; Wiley-VCH: New York, 2004; Chapter 9, pp 223–239.
(67) Good, A.; Oprea, T. Optimization of CAMD techniques 3. Virtual screening enrichment studies: a help or hindrance in tool selection? Journal of Computer-Aided Molecular Design
2008, 22, 169–178.
(68) Jahn, A.; Hinselmann, G.; Fechner, N.; Zell, A. Optimal assignment methods for ligand-based
virtual screening. Journal of Cheminformatics 2009, 1, 14.
(69) Oprea, T. I.; Davis, A. M.; Teague, S. J.; Leeson, P. D. Is There a Difference between Leads
and Drugs? A Historical Perspective. Journal of Chemical Information and Computer Sciences 2001, 41, 1308–1315.
(70) Wishart, D. S.; Knox, C.; Guo, A. C.; Shrivastava, S.; Hassanali, M.; Stothard, P.; Chang, Z.;
Woolsey, J. DrugBank: a comprehensive resource for in silico drug discovery and exploration.
Nucleic Acids Research 2006, 34, D668–D672.
(71) Wishart, D. S.; Knox, C.; Guo, A. C.; Cheng, D.; Shrivastava, S.; Tzur, D.; Gautam, B.;
Hassanali, M. DrugBank: a knowledge base for drugs, drug actions and drug targets. Nucl.
Acids Res. 2008, 36, D901–906.
32
(72) Kanehisa, M.; Goto, S. KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucl. Acids Res.
2000, 28, 27–30.
(73) Chen, X.; Ji, Z. L.; Chen, Y. Z. TTD: Therapeutic Target Database. Nucl. Acids Res. 2002,
30, 412–415.
(74) ChemAxon, www.chemaxon.com, 1999–2012.
(75) Mobley, D. L.; Dumont, É.; Chodera, J. D.; Dill, K. A. Comparison of Charge Models for
Fixed-Charge Force Fields: Small-Molecule Hydration Free Energies in Explicit Solvent.
The Journal of Physical Chemistry B 2007, 111, 2242–2254.
(76) Tsai, K.-C.; Wang, S.-H.; Hsiao, N.-W.; Li, M.; Wang, B. The effect of different electrostatic potentials on docking accuracy: A case study using DOCK5.4. Bioorganic & Medicinal
Chemistry Letters 2008, 18, 3509 – 3512.
(77) Wang, J.-C.; Lin, J.-H.; Chen, C.-M.; Perryman, A. L.; Olson, A. J. Robust Scoring Functions
for Protein-Ligand Interactions with Quantum Chemical Charge Models. Journal of Chemical
Information and Modeling 2011, 51, 2528–2537.
(78) OpenEye Scientific Software, OMEGA. www.eyesopen.com, 1997–2012.
(79) Halgren, T. A. MMFF VI. MMFF94s option for energy minimization studies. Journal of
Computational Chemistry 1999, 20, 720–729.
(80) Jakalian, A.; Jack, D. B.; Bayly, C. I. Fast, efficient generation of high-quality atomic charges.
AM1-BCC model: II. Parameterization and validation. Journal of Computational Chemistry
2002, 23, 1623–1641.
(81) Botelho, F. C.; Ziviani, N. External perfect hashing for very large key sets. CIKM ’07: Proceedings of the sixteenth ACM Conference on information and knowledge management. Lisbon, Portugal, 2007; pp 653–662.
33
(82) Golbraikh, A.; Tropsha, A. Predictive QSAR modeling based on diversity sampling of experimental datasets for the training and test set selection. Journal of Computer-Aided Molecular
Design 2002, 16, 357–369.
(83) Golbraikh, A.; Shen, M.; Xiao, Z.; Xiao, Y.-D.; Lee, K.-H.; Tropsha, A. Rational selection of
training and test sets for the development of validated QSAR models. Journal of ComputerAided Molecular Design 2003, 17, 241–253.
(84) Tropsha, A.; Gramatica, P.; Gombar, V. K. The Importance of Being Earnest: Validation is
the Absolute Essential for Successful Application and Interpretation of QSPR Models. QSAR
& Combinatorial Science 2003, 22, 69–77.
(85) Tropsha, A. Best Practices for QSAR Model Development, Validation, and Exploitation.
Molecular Informatics 2010, 29, 476–488.
(86) Nicholls, A. In Chemoinformatics and Computational Chemical Biology; Bajorath, J., Ed.;
Springer Science+Business Media, LLC 2011, 2011; Chapter 22, pp 531–581.
(87) Truchon, J.-F.; Bayly, C. I. Evaluating Virtual Screening Methods: Good and Bad Metrics for
the "Early Recognition" Problem. Journal of Chemical Information and Modeling 2007, 47,
488–508.
(88) Clark, R.; Webster-Clark, D. Managing bias in ROC curves. Journal of Computer-Aided
Molecular Design 2008, 22, 141–146.
(89) Fröhlich, H.; Wegner, J. K.; Sieker, F.; Zell, A. Optimal assignment kernels for attributed
molecular graphs. ICML. 2005; pp 225–232.
(90) Fröhlich, H.; Wegner, J. K.; Sieker, F.; Zell, A. Kernel Functions for Attributed Molecular Graphs - A New Similarity-Based Approach to ADME Prediction in Classification and
Regression. QSAR & Combinatorial Science 2006, 25, 317–326.
34
(91) Fechner, N.; Jahn, A.; Hinselmann, G.; Zell, A. Atomic Local Neighborhood Flexibility Incorporation into a Structured Similarity Measure for QSAR. Journal of Chemical Information
and Modeling 2009, 49, 549–560.
(92) Goodford, P. J. A computational procedure for determining energetically favorable binding
sites on biologically important macromolecules. J Med Chem 1985, 28, 849–857.
(93) Cheeseright, T. J.; Mackey, M. D.; Melville, J. L.; Vinter, J. G. FieldScreen: Virtual Screening
Using Molecular Fields. Application to the DUD Data Set. Journal of Chemical Information
and Modeling 2008, 48, 2108–2117.
This material is available free of charge via the Internet at http://pubs.acs.org/.
35

Documentos relacionados