Como ganhar no Mercado Financeiro, passo-a-passo

Transcrição

Como ganhar no Mercado Financeiro, passo-a-passo
Como ganhar no Mercado Financeiro, passo-a-passo
Por Hindemburg Melão Jr.
www.saturnov.com
Neste artigo, ensinarei passo-a-passo como proceder para ganhar no Mercado de ações,
commodities, divisas, futuros e de quaisquer outros instrumentos financeiros. Farei algumas
recomendações bibliográficas e de treinamento, farei apontamentos para estudos e pesquisas,
além de fornecer a estrutura didática geral em que a pessoa deve se basear em seus estudos.
Em alguns de meus artigos anteriores, desmistifiquei a crença disseminada por livros, cursos e
corretoras de que ganhar no Mercado Financeiro seja fácil, comum e acessível. Para os
vendedores de livros, é conveniente que as pessoas acreditem que podem aprender a ganhar
apenas lendo alguns poucos textos sobre o assunto. Para os vendedores de cursos, idem. Para
as corretoras, se as pessoas não acreditarem que podem ganhar adotando alguma estratégia
envolvendo compras e vendas nos momentos certos, estas pessoas praticariam Buy & Hold e
fariam tão poucas operações a cada década que as corretoras seriam levadas à falência. Por
isso, para as corretoras é interessante que as pessoas não apenas acreditem que podem
ganhar no Mercado, mas também pensem que podem ganhar com métodos que envolvam
grande número de operações por mês ou até por dia. Para os autores de cursos, basta que as
pessoas acreditem que o conhecimento necessário é bastante acessível, e que nenhuma
habilidade especial é requerida.
Os interesses de corretoras, autores de cursos e de livros se correlacionam positivamente, de
modo que acabam propagando basicamente o mesmo tipo de ilusão, e a pessoa que recebe
estas informações de várias fontes diferentes, tende a acreditar que sejam verdadeiras. Então
a pessoa segue a cartilha recomendada, aprende Análise Técnica, Análise Gráfica, estuda
padrões de candles, estuda retrações de Fibonacci, estuda ondas de Elliot, estuda os diversos
indicadores técnicos mais comuns, como IFR, MACD, MM, Bandas de Bollinger etc., verifica
que nos livros e cursos há abundantes exemplos práticos de como o uso de determinada
estratégia se encaixa perfeitamente em determinados momentos nos gráficos, assim acabam
concluindo que pode-se ganhar utilizando estas estratégias, pois os livros dão exemplos de
casos de cotações reais em que a estratégia se encaixa muito bem.
Então a pessoa vai para o Mercado e começa a colocar em prática o que aprendeu... Algumas
perdem desde o início e caem logo na realidade. Outras começam ganhando, numa maré de
sorte, o que é ainda pior, porque geralmente não percebem (ou não querem perceber) que
estão ganhando por sorte. Isso faz com que seus ganhos iniciais as incentivam a aumentar as
aplicações, até serem arrasadas, com perdas maiores do que as pessoas que foram chutadas
para fora do Mercado desde o início.
Depois de passar pelas primeiras grandes perdas, que engolem muito mais do que os lucros
que haviam sido acumulados até aquele momento, algumas pessoas percebem que os
métodos vendidos nos livros, cursos e corretoras não funcionam. Outras pessoas ainda
continuam pensando que os métodos são bons, e elas é que não souberam aplicar
corretamente. Estas pessoas ainda acabam perdendo mais um pouco, até aprender que não
importa quão bem elas executem uma estratégia ruim, o resultado será inevitavelmente o
prejuízo a longo prazo. Assim este nicho criado pelos vendedores de ilusões vai prosperando às
custas dos prejuízos e do sofrimento de quem confia em tudo que lhe é dito, sem submeter o
que lhe dizem a uma avaliação crítica rigorosa.
Quando comecei a denunciar os vendedores de cursos, em 2005, alguns amigos e conhecidos
chegaram a me criticar por eu expor a verdade sobre o altíssimo nível de dificuldade para se
ganhar no Mercado. Chegaram a me dizer que eu desestimulo as pessoas, quando deveria
ajudá-las a ganhar, dando a elas dicas e orientações. Pois bem, neste artigo farei exatamente
isso. Darei todas as dicas e orientações necessárias para que se possa ganhar no Mercado.
Neste artigo, compartilharei os “segredos” que permitiram o desenvolvimento do Saturno V, e
todos que quiserem trilhar o caminho também poderão chegar a bons resultados.
Após a leitura deste texto, as pessoas que queriam ganhar dinheiro fácil no Mercado passarão
a ter uma visão muito mais correta sobre como o Mercado funciona e quais os caminhos
realmente promissores a serem seguidos. Também perceberão que a expectativa de ganhar
dinheiro fácil não é compatível com o mundo real. Mas é possível ganhar com dificuldade,
muito trabalho, muita dedicação e outros quesitos.
Para desenvolver uma estratégia lucrativa, basicamente é necessário seguir estas 16 etapas:
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
Compreender os fundamentos de Lógica Formal e os aplicar corretamente.
Compreender Metodologia Científica e aplicá-la corretamente.
Conhecer um pouco sobre Estatística e saber aplicar corretamente este conhecimento.
Conhecer um pouco sobre Geometria Fractal e compreender seus fundamentos.
Conhecer um pouco sobre sistemas dinâmicos, processos estocásticos e determinísticos.
Conhecer um pouco sobre Gerenciamento de Risco e Teoria dos Jogos.
Conhecer as propriedades do Mercado que determinam o movimento dos preços.
Identificar os padrões morfológicos que se repetem no Mercado.
Encontrar uma função, com poucos parâmetros, para representar a evolução de cada uma
das propriedades fundamentais do Mercado ao longo do tempo.
Encontrar uma função que represente a maioria dos padrões que prenunciam assimetrias
nas probabilidades de o movimento seguir em determinada direção.
Elaborar uma estratégia baseada nos padrões que se repetem.
Configurar a estratégia conforme a função que representa a evolução dos parâmetros que
determinam o movimento dos preços.
Testar a estratégia em back tests, utilizando séries históricas com alta qualidade e de
fontes confiáveis, preferencialmente de várias fontes e comparar os resultados entre elas.
Otimizar os parâmetros numéricos e categóricos da estratégia.
Retornar aos itens 7, 8, 9, 10, 11, 12, 13 e 14 para revisar e aprimorar a estratégia tantas
vezes quantas forem necessárias, até que ela dê sinais de que pode funcionar.
Testar a estratégia em contas reais e comparar os resultados obtidos em back tests com os
resultados em contas reais.
O item 1 pode ser intuitivo para algumas pessoas. No meu caso, por exemplo, nunca cheguei a
estudar Lógica de maneira sistemática, inclusive eu não saberia recomendar bibliografia sobre
este assunto. Os problemas que envolvem Lógica me parecem naturais e os resolvo de forma
espontânea. Além disso, posso formular problemas de Lógica usando conhecimentos simples,
e atingindo um nível muito alto de dificuldade, como as questões do Sigma Test e Sigma Test
VI, que são problemas essencialmente lógicos, não exigem conhecimentos especializados além
do Ensino Médio, mas a dificuldade chega a níveis ionosféricos.
A questão 36 do Sigma Test, por exemplo, não teve acertador, apesar de algumas das pessoas
mais inteligentes da atualidade terem tentado, inclusive Petri Widsten, que teve o maior
escore no Sigma Test, foi campeão num concurso internacional de Lógica, vice-campeão em
dois outros concursos internacionais de Lógica, sua tese de doutorado foi distinguida Summa
Cum Laude e foi considerada a melhor tese de doutorado da Finlândia no biênio de 2003-2004.
Kristian Heide, recordista mundial no ThinkFast, maior escore no Sigma Test VI e doutor em
Astrofísica pela Universidade de Oslo. Peter Bentley, terceiro maior escore no Sigma Test, pósdoutorado em Física pela Universidade de Oxford, co-fundador de Ludomind, entre outros. E
nenhum deles obteve mais do que 32 acertos entre as 36 questões do Sigma Test, e 3½ acertos
entre as 10 questões do Sigma Test VI.
Ter facilidade inata para lidar com Lógica acaba sendo útil em qualquer atividade, mas é
especialmente útil em áreas nas quais a complexidade é muito grande e nas quais não existem
estudos nos quais se possa se basear, como ocorre no Mercado Financeiro. Praticamente não
há bibliografia sobre como desenvolver estratégias quantitativas que atinjam os padrões
mínimos de qualidade e que possibilitem obter resultados positivos a longo prazo, de modo
que a pessoa precisa criar isso por si. No caso de Análise Fundamentalista, existe o livro de
Benjamin Graham, que é uma boa fonte de informações corretas e úteis. Mas sobre Análise
Técnica não existem livros que tragam informações corretas nem úteis. Esta situação requer
uma abordagem de investigador, desbravador, pioneiro, descobridor e inventor.
Tendo aptidão inata para a Lógica ou não, sempre é útil exercitar o uso da Lógica. O Xadrez é
um jogo que exercita o raciocínio rápido, a memória de longo prazo, a memória de trabalho, a
capacidade de cálculo, a concentração, a imaginação. O Xadrez Postal exercita também o
pensamento profundo, complexo e rigoroso. Por isso uma das maneiras de exercitar e
assimilar a compreensão da Lógica é jogando Xadrez, especialmente Xadrez Postal. Outra
maneira é demonstrando teoremas matemáticos, seja por meio da Geometria ou da Álgebra.
Há muitos caminhos diferentes que podem conduzir a um nível razoável de domínio da Lógica
Formal. Cada pessoa deve encontrar o caminho que lhe seja mais agradável, para que sinta
prazer ao exercitar esta habilidade. Se não houver prazer no treinamento, dificilmente
conseguirá se manter por longo tempo nisso, nem obterá bons resultados.
O item 2 também pode ser intuitivo para algumas pessoas. No meu caso, embora tenha
facilidade para compreender Física e Matemática, o estudo de conceitos sobre método
científico contribuiu para uma percepção mais refinada sobre numerosos detalhes. Ainda que
todas as disciplinas estudem o método científico, geralmente a abordagem varia de uma
disciplina para outra quanto ao nível de profundidade e de rigor. Em Filosofica da Ciência e em
Física, talvez sejam os campos nos quais se trata o método científico com mais respeito e
seriedade. Mesmo assim, ainda há muitas falhas graves:





A Teoria dos Quarks, para explicar as propriedades dos bárions e mésons, não faz uso
adequado do método científico.
A Teoria das Supercordas, para explicar alguns fenômenos como Einstein-PodolskyRosen e outros que não são bem explicados pelo modelo padrão da Física de
Partículas, também não atende adequadamente a alguns quesitos fundamentais do
método científico.
A hipótese sobre matéria escura, para explicar a morfologia das galáxias, que sugere
velocidades de rotação muito diferentes das que seriam esperadas, viola aos critérios
básicos do método científico.
A hipótese sobre energia escura, para explicar os indícios de aceleração na velocidade
de recessão das galáxias, também não cumpre adequadamente os quesitos do método
científico.
A Teoria da Inflação de Guth, para tentar explicar o atual nível de anisotropia
observado no Universo, para manter a consistência no modelo de Friedmann-Lamaitre
sobre o Big-Bang, também não cumpre os protocolos que seriam esperados pelo uso
do método científico.
Estes são alguns exemplos de teorias que se consagraram no meio acadêmico, sem que
atendam aos critérios mínimos de cientificidade. Inclusive Murray Gell-Mann recebeu um
prêmio Nobel de Física, por sua teoria dos quarks, embora alguns meses antes, Georg Zweig
tivesse seu artigo sobre Teoria dos Ases recusado para publicação, justamente por não atender
aos quesitos mínimos da revista. A teoria de Zweig é essencialmente idêntica à de Gell-Mann,
com poucos detalhes diferentes e com nomes diferentes para as entidades envolvidas, mas
estruturalmente e organicamente, as teorias de ambos são iguais. Geralmente se critica os
referees da revista que recusaram a publicação do artigo de Zweig, e tentam embasar esta
crítica no sucesso de aceitação que foi alcançado pela teoria de Gell-Mann. Inclusive Feynman
cita o caso de Gell-Mann e Zweig como se representasse uma injustiça contra Zweig, mas
talvez Zweig não tenha sofrido nenhuma injustiça absoluta, embora possa ter sofrido uma
injustiça relativa, quando se compara sua história com a de Gell-Mann, pois os referees que
aceitaram o artigo de Gell-Mann é que deveriam ser criticados por frouxidão em seus critérios,
porque os que recusaram o artigo de Zweig agiram conforme as normas científicas vigentes, ao
passo que os que aprovaram o artigo de Gell-Mann foram permissivos.
O próprio Gell-Mann é muito consciente e autocrítico sobre isso, tanto é que ele comentou
que não tinha a pretensão de que se seu artigo apresentasse uma correta representação sobre
a estrutura fundamental da matéria, mas apenas uma “brincadeira matemática” que revelava
algumas coincidências interessantes e que permitia agrupar as partículas conhecidas conforme
suas propriedades quânticas, embora houvesse algumas lacunas nos agrupamentos. Quando
começaram a ser descobertas novas partículas que se encaixavam bem nas lacunas de seu
modelo, passaram a levar a sério esta teoria e, alguns anos depois, Gell-Mann foi laureado
com o Nobel, enquanto Zweig ficou quase no completo esquecimento. Mas daqui a algumas
décadas ou séculos, quando verificarem que tanto Gell-Mann quanto Zweig estavam errados
na essência de seus modelos, eles serão lembrados mais ou menos como Aristóteles, que se
consagrou por um modelo cosmológico errado, mas operacionalmente útil.
O fato é que neste caso específico, um trabalho não-científico acabou, por sorte, provendo um
modelo funcional, mas baseado em representações inapropriadas das entidades envolvidas
nos fenômenos reais que este modelo tenta descrever, ou seja, é provável que não existam
quarks (ou ases), assim como não existem as esferas de cristal do modelo geocêntrico de
Aristóteles, mas o modelo de Aristóteles foi operacionalmente bastante útil durante 2000
anos, porque permitia predizer, ainda que grosseiramente, as posições dos planetas, mesmo
estando fundamentalmente errado em suas premissas.
Os problemas no modelo de Aristóteles só começariam a ser sentidos se alguém tentasse
empreender uma viagem à Lua ou à Marte baseado no Geocentrismo, porque logo descobriria
que os planetas podem estar em posições aparentes compatíveis com este modelo, mas as
posições reais, quando se leva em conta a profundidade (ou distância), são completamente
diferentes das previstas pelo modelo. Então um modelo não-científico, pode até funcionar
grosseiramente após uma modelagem exaustiva para um propósito muito específico, mas
inevitavelmente padece de overfitting e não se aplica a situações diferentes daquelas nas quais
o modelo foi construído. Por exemplo: na época de Aristóteles não se conhecia Urano, Netuno
e Plutão, que foram descobertos em 1781, 1846 e 1930, e não havia como prever os
movimentos de Urano, Netuno, Plutão ou Ceres com base no sistema geocêntrico de
Aristóteles ou de Ptolomeu. Mas usando as 3 Leis de Kepler e o modelo heliocêntrico, que é
científico, pode-se prever precisamente os movimentos não apenas destes planetas e
planetoides descobertos séculos depois, como também se pode modelar as órbitas de
cometas, asteroides, satélites estrelas binárias e quase qualquer outro objeto do Universo.
Tanto Kepler quanto Aristóteles viveram antes da descoberta destes planetas, mas o modelo
de Aristóteles era altamente especializado para representar os movimentos aparentes
observados, por métodos não-paramétricos e não-científicos, enquanto o modelo de Kepler já
seguia basicamente os critérios científicos modernos e tentava representar o Cosmos com
base num pequeno conjunto de parâmetros capazes de modelar uma grande variedade de
cenários, e graças ao modelo cosmológico de Kepler e à Teoria da Gravitação de Newton, foi
possível descobrir Netuno com base nas perturbações gravitacionais observadas na órbita de
Urano. Prever a posição de um planeta desconhecido, com base na observação dos efeitos
provocados por ele sobre os planetas conhecidos, é algo que não seria possível com o modelo
de Aristóteles. Este é um dos grandes méritos e grandes diferenciais do método científico: os
resultados obtidos por metodologia cientifica são abrangentes, universais, gerais, enquanto os
métodos não-científicos só conseguem, na melhor das hipóteses, tratar de alguns casos
particulares muito específicos, para os quais o modelo foi construído e ajustado. Transferindo
esta situação para o Mercado Financeiro, o máximo que se consegue com um método nãocientífico é um modelo que seja capaz de representar um determinado intervalo histórico
dentro do qual a modelagem foi feita, mas quando se tenta aplicar este mesmo modelo num
intervalo diferente, ele falha completamente.
Por isso, um dos quesitos mais fundamentais ao se fazer back tests é que a modelagem ou a
otimização seja feita num intervalo relativamente curto, e depois se verifique se o resultado
desta modelagem continua a funcionar em intervalos diferentes e mais longos. Por exemplo:
otimiza-se os parâmetros de uma estratégia entre 1/1/1999 e 1/1/2000. Depois se verifica se o
genótipo campeão neste período continua a funcionar depois de 1/1/2000. Se funcionar, isso
confirma que a modelagem é representativa das propriedades gerais do Mercado. Caso
contrário, a modelagem é imprestável e serve apenas naquele período de 1/1/1999 a
1/1/2000, ou seja, o modelo não está baseado nas propriedades gerais do Mercado, mas sim
nas propriedades particulares que o Mercado apresentou naquele período específico dentro
do qual a otimização foi feita, logo este modelo não tem nenhuma utilidade para tentar
prognosticar os movimentos dos preços em épocas fora do intervalo da otimização.
Revistas do mundo todo recebem anualmente milhares de artigos que incorrem no mesmo
“erro” do artigo de Gell-Mann, e quase sempre os recusam, porque de fato mais de 99,9%
destes artigos são lixo imprestável (mesmo entre os artigos científicos aceitos para publicação,
mais de 90% são lixo imprestável). Ao longo de várias décadas, com muitos milhões de
pesquisadores enviando bilhões de artigos a milhares de revistas, é probabilisticamente
possível que um destes pesquisadores, no caso Gell-Mann, tenha a sorte de que, mesmo
seguindo um método não-científico, encontrou uma solução interessante e com algum valor
científico. Esta exceção extraordinária, imensamente rara e improvável não deve ser usada
para defender o uso de métodos não-científicos. É apenas uma curiosidade que mostra que
não é impossível chegar a resultados válidos por sorte, assim como não é impossível ganhar na
loteria escolhendo os números por mero palpite. Porém há uma diferença importante entre o
perfil de pessoa que aprecia ficar na dependência da sorte e jogar contra as probabilidades,
como acontece com os viciados em loteria e em outros jogos de azar, e o perfil de pessoa que
aprecia o rigor científico e prefere jogar para ganhar, conhecendo antecipadamente suas
probabilidades e sabendo que elas lhe são favoráveis.
Uma teoria não-científica tem alta probabilidade de apresentar baixa aderência aos dados
empíricos ligados aos fenômenos que ela tenta representar fora da amostra de elementos que
conduziu à sua formulação, ao passo que uma teoria científica apresenta altíssima aderência
aos dados empíricos ligados aos fenômenos que ela tenta representar, inclusive fora da
amostra de elementos que conduziu à sua formulação. Mas isso não impede que
eventualmente uma teoria não-cientifica possa funcionar em algumas circunstâncias
específicas, durante algum tempo, e isso acaba dificultando a eliminação desta teoria como
imprópria. Conforme disse o amigo Juliano, referindo-se a um conhecido dele que se mostrava
iludido por ter obtido lucro por uns 2 meses com um método ridículo, e pretendia aumentar as
aplicações: “ele teve azar de ter tido sorte”.
Também pode acontecer de uma teoria científica não predizer com exatidão determinados
fenômenos em condições específicas, como a Teoria da Gravitação de Newton, com a métrica
de Minkowski, quando aplicada nas imediações de buracos-negros. Nestas condições
extremas, a Teoria da Gravitação clássica fornece resultados muito destoantes da realidade
experimental, e tais situações exigem o uso de uma teoria mais completa e requintada, como a
Teoria da Relatividade Geral de Einstein, com a métrica de Kerr-Newman. Isso não significa
que a Teoria de Newton esteja errada. Ela trata de um certo conjunto de fenômenos que
podem ocorrer em determinadas circunstâncias. Toda teoria está sujeita a limitações, e este é
um dos motivos pelos quais qualquer modelo para o Mercado Financeiro precisa utilizar stop
losses bem posicionados, para interromper as perdas nos casos em que a modelagem se
mostra inadequada.
Assim, quando se modela corretamente uma parte considerável dos cenários mercadológicos,
em suas propriedades gerais e atemporais, mesmo quando surgem situações nas quais o
modelo não é perfeitamente válido, perde-se apenas até certo ponto, e quando o modelo
funciona, ganha-se até certo ponto. Operando aleatoriamente, a soma dos ganhos se
equilibraria com a soma das perdas, de modo que ao adotar uma estratégia que aumente um
pouco a porcentagem de ganhos, a soma dos ganhos supera em muito a soma das perdas.
Para operações aleatórias, os ganhos seriam aproximadamente iguais às perdas, em tamanho
e em frequência. Para operações baseadas em critérios adequados, definidos por uma
estratégia eficiente, as operações lucrativas acabam sendo maiores que as perdedoras, ou
mais frequentes, ou ambas. Quando se leva em conta que existem spreads e taxas a serem
pagas a cada operação, isso faz com que as operações aleatórias produzam mais perdas do
que ganhos, e exige também estratégias com eficiência acima de determinado nível para que
sejam lucrativas.
Em Ciência não há teorias “certas”. Elas podem ser boas representações para determinados
fenômenos ou não. O fato de serem boas representações, não significa que sejam
necessariamente um modelo fiel para a realidade sensciente. Mas o fato de não serem boas
representações, quase certamente indica que estão incorretas.
Um exemplo de teoria que oferece boa representação dos dados experimentais, mas que está
fundamentalmente incorreta, é o modelo cosmológico de Ptolomeu, que possibilitava fazer
cálculos muito precisos e acurados sobre as posições dos planetas, com vários anos de
antecedência, várias décadas e até mesmo séculos de antecedência. Só depois de acumular
alguns séculos de observações sistemáticas e de utilizar instrumentos cada vez mais precisos, é
que começaram a aparecer pequenas disparidades entre a previsão feita pelo modelo teórico
e a posição real observada experimentalmente, mas isso poderia ser resolvido introduzindo
novos parâmetros no modelo.
O sistema de Aristóteles, aperfeiçoado por Ptolomeu, foi adotado por quase 2000 anos, e foi
operacionalmente muito útil durante todo esse tempo, embora estivesse completamente
errado em seus fundamentos. Neste modelo, a Terra ficava no centro do Universo, imóvel,
enquanto o Sol, a Lua, os planetas e as estrelas giravam em torno da Terra. Os cometas eram
considerados por Aristóteles como fenômenos atmosféricos, os asteroides ainda não eram
conhecidos.
Alguns dos problemas no modelo aristotélico-ptolomaico só foram descobertos há poucos
séculos, tais como o efeito Coriolis, que está relacionado à rotação da Terra e não é compatível
com o modelo de Ptolomeu. Se a Terra não tivesse um movimento de rotação, não haveria
furacões ou tornados, que são produto do efeito Coriolis. Outro problema é que se a Terra não
girasse em torno do Sol, não existiria o efeito de paralaxe estelar. Outro problema é que as
variações no brilho aparente de Marte e Vênus não são consistentes com as variações de
brilho que estes planetas deveriam apresentar conforme o modelo de Ptolomeu. Entre outros
motivos que levaram ao abandono desta teoria e adoção do Heliocentrismo.
Portanto, mesmo na Ciência de ponta, o uso rigoroso do método científico acaba sendo muitas
vezes negligenciado. Em alguns casos, isso é justificável. Sob o ponto de vista operacional, é
melhor ter um modelo que funcione aproximadamente do que não ter modelo nenhum, ainda
que não se saiba explicar corretamente o motivo pelo qual ele funciona. Porém é importante
estar ciente das limitações que decorrem de se adotar um modelo não científico. O sistema de
Ptolomeu, por exemplo, funciona como uma projeção em 2D num cenário de fundo – o
firmamento –, mas não serve como um modelo 3D, de modo que não seria possível projetar
viagens à Lua e aos planetas, se as distâncias fossem calculadas com base no modelo de
Ptolomeu. Por isso, quando se adota uma modelagem que não possui fundamentação
científica nenhuma, servindo apenas a propósitos operacionais, é imprescindível que se esteja
ciente deste fato, para que se tenha em conta as limitações inerentes ao modelo enquanto
representação incompleta e inacurada de algumas propriedades da realidade sensciente.
A boa compreensão da Metodologia Científica é absolutamente fundamental em qualquer
processo de busca por conhecimento, porque é o caminho mais promissor e mais correto para
que se possa ter alguma segurança de que o conhecimento adquirido constitui uma
representação fidedigna dos fenômenos e processos que se deseja conhecer. Quando se tenta
obter conhecimento por métodos não científicos, torna-se muitíssimo elevado o risco de ser
enganado pelos próprios sentidos e se iludir com as aparências. No livro de Malba Tahan, “O
homem que calculava”, são apresentadas algumas ilusões cognitivas que exemplificam
situações nas quais as pessoas facilmente são induzidas a interpretar incorretamente uma
determinada situação. Citarei aqui um exemplo do livro e dois outros exemplos de outras
fontes:
O problema dos melões:
Al-Sufi recebeu de seus dois primos, Harim e Hamed, 60 melões para serem vendidos no
mercado. Harim lhe entregou 30 melões, que deveriam ser vendidos à razão de 3 por 1 dinar.
Hamed lhe entregou também 30 melões, para os quais estipulou um preço mais caro, à razão
de 2 por 1 dinar.
Al-Sufi, que era um mercador experiente, sabia que se tentasse vender primeiro os melões mais
baratos, depois não conseguiria vender os mais caros. E se tentasse vender primeiro os mais
caros, ninguém os compraria, porque ficariam aguardando até que começasse a venda dos
mais baratos. Então resolveu o problema de maneira simples: em vez de vender 3 por 1 dinar
para Harim e 2 por 1 dinar para Hamed, decidiu vender 5 por 2 dinares para ambos. E assim
fez.
Ao final do dia, vendeu todos os 60 melões, ao preço de 5 por 2 dinares, portanto recebeu 60 x
2 / 5 = 24 dinares. Satisfeito, foi entregar o dinheiro a seus primos, mas na hora de fazer a
divisão, deparou com um problema. Se Harim lhe entregou 30 melões para serem vendidos a 3
por 1 dinar, deveria receber 10 dinares. E Hamed, se seus 30 melões seriam vendidos a 2 po 1
1 dinar, deveria receber 15 dinares. Portanto ele deveria entregar 10 dinares para Harim e 15
para Hamed, no total de 25 dinares! Mas ele havia recebido apenas 24... Onde está o erro?
O segundo exemplo é ainda mais interessante e mais difícil:
Os leprechauns:
Quantos bonecos existem na figura abaixo? Conte com cuidado!
1) Se você contou 14 bonecos, parabéns! Está certo. Agora siga cuidadosamente estes
procedimentos:
2) Faça um corte horizontal no retângulo que contém as figuras, conforme a linha horizontal
que atravessa o retângulo.
3) Faça um corte vertical na metade superior do retângulo, conforme o traço vertical que está
na metade superior da imagem.
4) Remova os dois pedaços superiores da imagem e troque-os de posição.
O resultado é conforme a imagem a seguir:
Agora conte novamente os bonecos. Quantos são?
De 14, passaram a ser 15! Nada foi somado nem subtraído na imagem. Apenas foram feitos
dois cortes e depois duas partes da imagem mudaram de posição. Como resultado, surgiu um
boneco a mais. Como isso foi possível?
O terceiro exemplo é mais impressionante. Um dinossauro de papel que parece nitidamente se
mover.
Cuidado com o T-Rex:
O vídeo a seguir foi feito aqui em casa, não houve nenhum tipo de edição, não há nenhum tipo
de efeito especial. Trata-se puramente de uma ilusão de óptica. A maneira como nosso cérebro
interpreta as informações que chegam a ele por meio de nossa visão estereoscópica, transforma
um par de projeções bidimensionais em cada retina numa interpretação tridimensional que
tenta representar a estrutura 3D dos objetos observados. Porém quando se constrói um objeto
com propriedades peculiares, explorando alguns vícios cognitivos de nosso cérebro, o efeito
produzido é muito interessante. Melhor do que descrever é assistir ao vídeo:
http://www.sigmasociety.com/dino.mp4
http://youtu.be/qXmRknnDXkA
Estes são 3 exemplos de como nossos sentidos e nosso pensamento podem nos levar a uma
percepção grosseiramente incorreta da realidade. Poderia citar vários outros casos, como o
dilema de Monty Hall e uma grande variedade de ilusões interessantes. Deixarei o Monty Hall
para um capítulo mais adiante.
A importância de utilizar o método científico está em minimizar os riscos de que
interpretações equivocadas sejam adotadas como verdadeiras. O método científico não é
infalível, nem possibilita uma percepção completa e exata da verdade, mas permite filtrar uma
quantidade considerável de falsas verdades.
A Metodologia Científica é absolutamente imprescindível para a formulação de experimentos
adequados para a testagem das estratégias. Se os testes realizados para verificar a eficiência
de uma estratégia não seguirem os protocolos definidos pela Metodologia Científica, os
resultados serão inconclusivos e frequentemente levarão a interpretações excessivamente
otimistas e erradas.
As fontes que considero mais recomendáveis para se estudar Metodologia Científica são
basicamente as obras de Popper, Lakatos, Galileu, Francis Bacon, Hume e Roger Bacon.
O item 3 também pode ser intuitivo para algumas pessoas. No meu caso, infelizmente não
tenho muito talento para Probabilidades. Pelo menos não no mesmo nível que tenho para
Metodologia Científica e Lógica. Quando o amigo Rafael Zakowicz me apresentou o clássico
problema de Monty Hall, resolvi rapidamente, porém resolvi errado. E mesmo depois que ele
me mostrou a solução correta, ainda fiquei alguns minutos teimando, até compreender que eu
estava errado. Como consolo, o matemático Paul Ërdos, o mais prolífico da história, com 1475
artigos publicados, também errou o problema, com a diferença que ele demorou alguns dias
até perceber que estava errado.
De modo geral, o cérebro humano consegue estimar bem as probabilidades em certas
situações, mas não em outras. Por isso o conhecimento de Probabilidades e de Estatística é
importante para o correto julgamento de uma grande variedade de fenômenos.
Quando comecei a me interessar por testes de QI, não apenas pela resolução, mas também
pela criação e normatização, acabei tomando contato com algumas ferramentas estatísticas. À
medida que fui me aprofundando neste assunto, fui percebendo o alcance desta disciplina,
que abrange praticamente tudo que existe no Universo, bem como o que não existe
fisicamente. Em praticamente qualquer processo decisório num mundo físico, ou qualquer
modelagem matemática, a Estatística provê as melhores ferramentas para se obter os
resultados mais confiáveis. Em situações muito complexas, como mercado acionário,
aprendizagem de máquina, mecânica quântica, fenômenos meteorológicos, dinâmicas
populacionais, comportamento de gases e plasmas etc., a Estatística é a única salvação para
que se possa ter uma ideia pelo menos aproximada do que acontece.
Dentro da Estatística, há mais de uma maneira diferente de se abordar o mesmo problema.
Além da Estatística Clássica, existe a Estatística Robusta e a Estatística Bayesiana. A Estatística
Robusta pode ser encarada como uma variação da Estatística Clássica, diferindo desta por ser
menos sensível a outliers, porém a Estatística Bayesiana difere da Estatística Clássica não
apenas em seus métodos, mas também em seus fundamentos. Um problema que seja
examinado por ferramentas da Estatística Clássica, da Estatística Robusta e da Estatística
Bayesiana, pode produzir resultados completamente diferentes. Inclusive rankeamentos, que
podem ficar ordenados como ABC usando Estatística Clássica, podem ser ranqueados como
BCA usando Estatística Robusta ou CBA usando Estatística Bayesiana. O uso destas 3, em
situações reais, para prognosticar resultados, deixa claro que a Estatística Robusta e a
Estatística Bayesiana são claramente superiores à Estatística Clássica na grande maioria das
situações, no entanto, a maioria dos pesquisadores de todas as áreas continua usando quase
exclusivamente a Estatística Clássica, por ser mais simples, mais fácil e a única que se aprende
nos cursos de Exatas, Biológicas e Humanas. Só no próprio curso de Estatística é que se tem
uma visão panorâmica sobre Estatística Robusta e Estatística Bayesiana.
No artigo em que propus um aprimoramento no método usado pela NASA e pela ESA para
calcular paralaxes estelares, escrito em 2003, eu ainda não conhecia os métodos bayesianos,
mas deduzi alguns fundamentos, que são intuitivos nesta situação. Em meu artigo sobre a
densidade de CoRoT-Exo 3b, também adoto um procedimento análogo, com a diferença que
nesta época eu já conhecia um pouco sobre métodos bayesianos. Estes artigos podem ser lidos
aqui:
http://www.sigmasociety.com/artigos/paralaxe.pdf
http://www.sigmasociety.com/Corot-Exo-3b.pdf
Dentro de cada uma destas “doutrinas” estatísticas, também há uma larga variedade de
métodos que se pode escolher com alguma liberdade. Na maioria das situações, há pelo
menos 2 ou 3 abordagens alternativas para tratar de um determinado problema, e muitas
vezes existem mais de 10 abordagens alternativas aproximadamente equivalentes. Neste
artigo http://www.sigmasociety.com/saturno_estudo.pdf examino algumas propriedades do
Saturno V 8.07d por meio da Análise Hierárquica de Clusters, com o método Ward de ligação e
a métrica de Bhattacharya. Além da Análise Hierárquica de Clusters, outras ferramentas que
poderiam ser usadas com o mesmo propósito são Wavelets, Nuvens Dinâmicas ou Redes
Neurais.
Uma das vantagens no uso de métodos hierárquicos está em minimizar a subjetividade que
decorreria de se determinar a priori o número de clusters. Embora haja métodos objetivos
para se definir o número ótimo de fatores ou de clusters, como o critério Kaiser-Meyer-Olkin,
isto não substitui a riqueza de informação de um dendrograma gerado por uma análise
hierárquica, e a partir dela se pode obter mais informações úteis do que seria possível de uma
estratificação baseada num número predefinido de clusters.
Além do método Ward, pode-se usar K-médias, Normal mixture, D-probabilístico. Além de
distâncias de Bhattacharya, pode-se usar distâncias de Mahalanobis, distâncias de Minkowski,
dissimilaridade de Shebyshev, dissimilaridade de Pearson, distância de Jeffreys-Matusita, além
das mais básicas, como distância Euclidiana e blocos de Manhattan. No próprio artigo,
esclareço os motivos pelos quais foram usadas as distâncias de Bhattacharya, que é a mais
apropriada naquele caso.
Em algumas situações, pode-se escolher um caminho de análise por este ser superior aos
outros, devido a algumas particularidades do tipo de investigação que se deseja fazer, porém
outras vezes não existem motivos suficientes para se escolher um caminho entre várias
alternativas aproximadamente equivalentes, e pode acontecer de cada uma delas conduzir a
uma solução completamente diferente. Tais cenários são raros, mas quando surgem, acabam
impondo obstáculos difíceis de serem superados. O mais comum é que entre as várias
alternativas aparentemente equivalentes, todas conduzam a resultados muito semelhantes.
Quando os resultados não são semelhantes, geralmente há motivos claros para preferir um
método, em vez de outro.
Por exemplo: o método que proponho para cálculo de paralaxes estelares não é apenas uma
alternativa ao método tradicional. É objetivamente superior ao método tradicional, no sentido
de que os resultados obtidos são mais próximos dos valores verdadeiros.
A Estatística é uma arma extremamente poderosa para atacar qualquer problema,
especialmente quando o nível de complexidade é tão grande que torna impossível uma
abordagem analítica ou por outros meios. O clássico problema dos 3 corpos, por exemplo,
existe pelo menos desde os tempos de Laplace, mas até hoje não existe uma solução analítica.
Apesar de não ter solução, pode-se chegar a resultados muito próximos ao correto com o uso
de métodos estatísticos, não apenas para 3 corpos, mas com qualquer quantidade de corpos
que se queira, e não somente se consegue encontrar resultados muito próximos ao correto,
como também se pode ter uma ideia precisa sobre o tamanho aproximado do erro em relação
ao valor correto.
Considero o Textbook da StatSoft a melhor fonte para se começar a estudar Estatística:
https://www.statsoft.com/textbook e o handbook de Estatística do NIST é um complemento
indispensável: http://www.itl.nist.gov/div898/handbook/. Os livros do Maronna sobre
Estatística Robusta proporcionam um importante complemento para uma modelagem do
Mercado que não seja sensível aos outliers, e artigos do Sérgio Wechsler e Pedro Morettin
sobre Estatística Bayesiana podem oferecer as bases para uma interpretação bayesiana do
mundo.
O item 4 também pode ser intuitivo para algumas pessoas. No meu caso, desde que era
criança, já compreendia claramente os conceitos da Geometria Fractal, embora eu não
soubesse que aquilo se chamava Geometria Fractal. Quando eu tinha 9 anos, e a professora de
Geografia disse que o litoral do Brasil media cerca de 8.000 km, percebi que aquela informação
não fazia sentido e perguntei a ela qual o tamanho do mapa em que a medida havia sido feita.
Ela respondeu que não importava o tamanho do mapa, porque o cálculo era feito com base
numa escala. Tentei explicar a ela que minha pergunta não tinha nada a ver com a escala do
mapa, mas sim com o aumento progressivo no nível de detalhes que surgiriam no recorte
litorâneo se o mapa fosse maior, e estes detalhes interfeririam significativamente no
resultado. Não adiantou, ela não percebia o problema, então desenhei no caderno em dois
tamanhos bem diferentes e mostrei que onde parecia ser uma pequena reta num mapa
pequeno, se ampliasse a imagem, tornava-se possível perceber várias sinuosidades, e o
comprimento ficava muito maior que o da reta. Ela continuou sem compreender, e me disse
que mesmo quando a imagem do segmento de reta fosse substituído pela figura sinuosa, as
diferenças seriam pequenas! Era evidente que as diferenças seriam enormes, porque afetavam
a proporção do tamanho da reta para o tamanho da curva cheia de reentrâncias. Quase
brigamos, porque ela não conseguia entender o problema e queria me impor que eu é que não
entendia o que é uma escala.
Uma nova situação de estresse ocorreu quando comecei a cursar Física. Naquela época, um
dos experimentos no laboratório do Instituto de Física da USP era sobre Geometria Fractal.
Quando os professores descreveram o experimento, eu expliquei que haveria um resultado
múltiplo. Inicialmente discordaram, mas depois que todos os alunos entregaram os relatórios,
eles tiveram o cuidado de investigar o que eu havia dito, e tiveram a humildade de reconhecer
que eu estava certo. Porém não revisaram a apostila. Em vez disso, substituíram o
experimento nos anos seguintes. Anos depois, eu soube que aquele experimento havia sido
proposto originalmente na Universidade de Yale, e fiquei ainda mais chocado, ao saber que os
matemáticos de Yale não percebiam o erro no experimento que propunham. No final deste
artigo http://www.sigmasociety.com/Hurst_revisado_2013_09_23.pdf, discuto com um pouco
mais de detalhes este assunto. Um fato interessante é que professores da USP não
compreendiam algumas propriedades fundamentais dos fractais, e até mesmo professores de
Yale não as compreendiam. Eles certamente são capazes de operacionalizar equações que
representam estas propriedades, mas não entendem o que de fato acontece e não teriam
como fazer o uso correto destas ferramentas, nem compreenderiam as limitações de uso.
Os movimentos do Mercado são visualmente muito semelhantes a um processo de Wiener,
que é um fractal. Há diferenças importantes entre os movimentos reais do Mercado e um
processo de Wiener, mas para algumas finalidades, pode-se usar o processo de Wiener ou o
processo de Lévy para investigar o que acontece no Mercado. No final deste artigo
http://www.saturnov.com/contas/imagens/Sumario_parte1.pdf
há
alguns
gráficos
comparando um processo de Wiener com um pseudofractal, com propriedades levemente
diferentes.
A Geometria Fractal é a única geometria que possibilita representar determinadas
propriedades do Mercado, por isso não há como estudar o Mercado sem conhecer fractais.
Estou me referindo a entender o Mercado sob o ponto de vista de um analista quantitativo.
Para um Fundamentalista, as necessidades de conhecimento são outras.
Os livros sobre fractais se tornaram populares de uns 30 anos para cá, e não há dificuldade em
encontrar boas introduções ao tema. Na Internet, uma boa referência didática é o site da
universidade de Yale http://classes.yale.edu/fractals/.
O item 5 é bem pouco intuitivo. Processos estocásticos envolvem uma mistura eventos
determinísticos e eventos aleatórios, combinados em diferentes proporções. As órbitas
planetárias a curto prazo, por exemplo, são predominantemente determinísticas, porque
podem ser calculadas com altíssima precisão, usando uma solução analítica para o problema.
Mas depois de bilhões de anos acumulando perturbações gravitacionais, com perda de massa
do Sol, colisões com pequenos objetos etc., o acumulo de eventos aleatórios acaba
introduzindo perturbações sensíveis ou mesmo decisivas, que alteram dramaticamente as
órbitas, e os cálculos determinísticos se mostram incapazes de predizer as posições dos
planetas depois de alguns bilhões de anos, ou mesmo depois de algumas centenas de milhões
de anos.
Os fluidos que compõem a atmosfera ou os oceanos também são descritos por processos
estocásticos. As flutuações na temperatura, os movimentos das nuvens, os deslocamentos das
massas de ar quente ou frio, são bem representados por processos estocásticos, porém o nível
de aleatoriedade é muito maior do que no movimento planetário, o que torna as previsões
muito mais difíceis e com alcance muito mais curto.
O Mercado Financeiro também é estocástico, porém o nível de aleatoriedade é muito maior do
que nos fenômenos meteorológicos. Além disso, as leis que regem a parte determinística do
movimento nos preços são muito mais complexas, com parâmetros variáveis, e cuja
variabilidade é difícil de medir, porque os efeitos observados nas cotações já incluem todos os
agentes combinados, o que torna extremamente difícil decompor os movimentos e isolar os
efeitos de cada agente. Para agravar a situação, alguns agentes atuam ou deixam de atuar
sazonalmente, enquanto outros o fazem esporadicamente, o que torna a dificuldade nas
modelagens também muito maior. A modelagem do Mercado Financeiro está no limiar do que
a capacidade humana pode resolver. Para se ter uma ideia, as melhores versões do Saturno V
conseguem modelar propriedades que respondem, no máximo, por cerca de 3% dos
movimentos nos preços. Além disso, conseguem acertar cerca de 40% das situações nas quais
a modelagem é aplicável. Assim, o Saturno passa a maior parte do tempo sem operar, e nas
vezes que opera, cerca de 60% dos casos ele não consegue modelar adequadamente, errando
metade destes 60% e acertando outra metade. Portanto, nos 40% de situações que ele
consegue modelar ele acerta integralmente 40% das operações, e nos 60% de casos que não
consegue modelar, ele acerta metade, totalizando 30% + 40%, portanto perto de 70% de
acertos no total.
Alguns agentes apresentam propriedades inerciais, o que torna mais fácil predizer seu
comportamento, mas outros não. Decompor o movimento das cotações nos diversos
movimentos de cada agente que determina os preços é um dos caminhos para se modelar o
Mercado. Sob alguns aspectos, assemelha-se a identificação da voz de uma pessoa num filme
em que há vários canais de áudio misturados com trilha sonora, ruídos etc. Conseguindo
identificar o comportamento das ondas sonoras que representam a voz da pessoa, pode-se
subtrair a voz e fazer a dublagem. Porém no caso do filme é um processo incomparavelmente
mais simples e mais fácil. Recentemente, o amigo Rodrigo Gossman comentou que há algum
tempo James Simons estava contratando especialistas em reconhecimento de voz, porém não
creio que a finalidade fosse a mesma. Embora ambos tenham a ver com Acústica, acho mais
provável que a intenção de Simons fosse otimizar a relação sinal-ruído para melhorar a
qualidade das séries históricas.
A Geometria Fractal é necessária para que se possa compreender as propriedades estáticas do
Mercado, sua estrutura, parte de sua lei de formação. Enquanto o conhecimento sobre
processos estocásticos é necessário para se compreender os movimentos dos preços, evolução
na transformação dos cenários, a dinâmica do Mercado.
O item 6 é intuitivo em algumas situações, mas não em outras. Uma boa estratégia sem um
bom gerenciamento de risco não tem como sobreviver a longo prazo. A estratégia é mais
importante e muito mais difícil do que o gerenciamento de risco, porém o gerenciamento de
risco é um complemento indispensável para a sobrevivência da estratégia.
Embora o gerenciamento de risco possa ser feito usando apenas os conhecimentos sobre
Estatística, existem diversas ferramentas próprias desta área que acabam não constando em
sites, livros e cursos de Estatística em geral. Em 2006, por exemplo, o amigo Romolo Disconzi
me falou sobre o critério Kelly, que é usado em Teoria dos Jogos para definir o tamanho ótimo
de cada aposta, de modo a maximizar os lucros, sem que o risco exceda os limites que
levariam à ruína. Há outros métodos para se determinar o tamanho ótimo das apostas, como
optimal-F, há uma versão bayesiana do critério Kelly e outros. Porém aqui começamos a
chegar a um terreno perigoso, porque os conhecimentos proporcionados pela literatura
tradicional começam a se mostrar ineficientes na abordagem dos problemas para os quais
foram desenvolvidos.
O critério Kelly, por exemplo, não leva em consideração que o parâmetro “p” não é fixo para
um determinado jogo, mas sim uma variável que oscila ao longo do tempo, ficando algumas
vezes maior que a média de “p” e “q”, outras vezes menor. Isso tem impacto direto no
tamanho que deveriam ter as apostas. Dependendo da extensão do período que “q” se
mantém acima e abaixo da média, e da amplitude que atinge nestas variações, o uso do
critério Kelly pode conduzir à bancarrota. Quando o amigo Romolo Disconzi me falou do
critério Kelly, imediatamente pensei quase exatamente nesta objeção, e expus a ele o
problema. Porém ao descrever e calcular as consequências das variações de “q”, acabei não
focando no que poderia ocorrer em intervalos específicos, e acabei não sendo convincente.
Depois, ao retomar a análise do problema com mais calma, percebi que minha objeção inicial
estava quase correta, com o detalhe de que a ruína não seria provocada pelo aumento
cumulativo de “q” ao longo do tempo, mas sim pela probabilidade crescente de que em
intervalos de tempo cada vez mais extensos, a amplitude na oscilação no valor de “q”
alcançasse níveis cada vez maiores e se mantivesse nestes níveis por períodos cada mais
longos.
Há pelo menos três maneiras de se lidar com esta situação: a primeira é a mais simples: usar
1/3 a 1/5 do valor definido pelo critério Kelly. A outra é usar um critério adaptativo que regula
o valor de p conforme os resultados vão se produzindo. Esta segunda abordagem é muito mais
segura e eficiente, porém é também muito mais difícil de implementar. E a terceira solução é
não usar o critério Kelly, mas sim uma modelagem personalizada para o problema,
desenvolvida exclusivamente para funcionar em acordo com as propriedades observadas no
Mercado Financeiro. O critério Kelly é uma solução genérica para jogos em geral.
Outro exemplo é o Índice de Sharpe, proposto pelo ganhador do Nobel de Economia William
Sharpe, que permite avaliar quantitativamente a eficiência de um fundo, uma estratégia, um
gestor etc. Mas há vários erros na ideia de Sharpe, que tornam seu método impróprio em
determinadas circunstâncias. A correção destes erros ou a formulação de um método melhor é
uma das exigências mais básicas para se ter alguma chance de sucesso no Mercado financeiro.
Nestes dois artigos, discuto alguns dos problemas que decorrem do uso do Índice de Sharpe
para ranquear fundos, estratégias etc.:
http://www.saturnov.com/artigos/23-sharpe
http://www.saturnov.com/artigos/67-mais-problemas-com-indice-de-sharpe
Além dos problemas citados nestes artigos, há outros. Por exemplo: um fundo com Índice
Sharpe 1,5 e histórico de 1 ano, provavelmente não é melhor que um fundo com Índice Sharpe
1,1 e histórico de 10 anos, porque o fundo com histórico mais longo teve que experimentar
uma variedade muito maior de cenários hostis. O Índice de Traynor e o Calmar Ratio também
padecem de limitações similares e não cumprem bem a função de ranquear corretamente as
performances. Por isso desenvolvi meus próprios métodos para ranquear genótipos e
estratégias, bem como selecionar os que se mostram mais eficientes, conforme os critérios
que considero apropriados. Um aspirante a desenvolver um sistema com alguma chance de
sucesso também precisa desenvolver seus próprios métodos, e devem ser superiores aos
métodos existentes.
Um exemplo simples: a evolução de uma carteira ao longo do tempo se comporta muito
aproximadamente como um processo de Wiener levemente assimétrico, portanto uma das
propriedades esperadas é que o máximo drawdown histórico aumente na proporção direta da
raiz quadrada do tempo. Assim, se determinada estratégia apresenta máximo drawdown de
20% num histórico de 1 ano, enquanto outra estratégia tem histórico de 4 anos com máximo
drawdown 25%, ambas com mesma rentabilidade média anual, esta segunda estratégia é
melhor, embora tenha máximo drawdown maior, porque seria esperado que a primeira tivesse
o dobro do máximo drawdown, se tivesse sido testada em 4 anos, em vez de 1 ano.
Outro detalhe a ser enfatizando é que, em se tratando do cálculo de máximo drawdown, o
dobro de 20% não é 40%. Como o máximo drawdown é um valor compreendido entre 0 e 1
(não existe drawdown maior que 100%), o dobro de 90% é cerca de 94,737% (não 180%, que
ficaria fora do intervalo de 0 a 100%). Então o cálculo deve ser feito desta maneira: 2*MDD =
1-1/(2*MDD/(1-MDD)+1). Portanto o dobro de 20% é cerca de 33,3%. De qualquer modo, 33%
é maior que 25%, portanto a relação risco/recompensa ficaria melhor no segundo caso.
No índice de Sharpe há mais erros ainda. Ao calcular a volatilidade de um ativo nos últimos 365
dias (ou 252 dias úteis), e fazer o mesmo cálculo para as últimas 52 semanas, o resultado será
muito diferente nos dois casos, embora ambos sejam medidas da volatilidade para o mesmo
período. E a diferença observada não se deve a alguma imprecisão pelo fato de os 365 dias não
corresponderem exatamente ao mesmo intervalo de 52 semanas. Pode-se constatar que esta
não é a explicação para a diferença observada porque o mesmo efeito acontece se se calcular
a volatilidade exatamente nos mesmos períodos, como, por exemplo, entre 1/1/2012 e
1/1/2014 usando candles diários, ou candles de 15 minutos, ou candles de 1 minuto, cobrindo
exatamente o mesmo intervalo nos 3 casos, mesmo assim as medidas da volatilidade neste
período acabam sendo muito diferentes. Além disso, a magnitude da diferença mostra-se
muito grande para que pudesse ser explicada pela pequena imprecisão na delimitação dos
intervalos, podendo chegar a mais de 150% de diferença, enquanto o erro máximo na
delimitação dos intervalos não ultrapassa 2%. Neste artigo eu discuto brevemente este
assunto:
http://www.saturnov.com/artigos/22-conceitos
A maneira correta de se calcular a volatilidade deveria ser usando todos os ticks, mas nenhum
fundo faz isso, e cada fundo adota uma discretização diferente, o que torna a medida do índice
de Sharpe não-unificada. Então se um fundo tem índice de Sharpe 1,5 e outro fundo tem 2,5,
isso não quer dizer quase nada sobre qual dos fundos apresenta melhor relação
risco/recompensa, a menos que se saiba exatamente como o cálculo foi feito.
Não encontrei o texto integral do trabalho de William Sharpe que foi lauerado com o Nobel de
Economia, para que eu pudesse avaliar, mas, a julgar pelos resultados a que ele chegou, bem
como a julgar pelos trabalhos de Myron Scholes (da fórmula Black-Scholes), também
distinguido com o Nobel, a impressão que tenho é de que o aquilo que há de melhor em
Econometria tem qualidade muito baixa, e isso explica, parcialmente, porque tão poucas
pessoas no mundo conseguem ganhar no Mercado Financeiro de forma consistente. Não
existem ferramentas matemáticas de boa qualidade para se modelar o Mercado, não existe
uma teoria decente que se possa tomar como referência, não há teorias bem fundamentadas
nem acuradas, que pudessem ser capazes de representar com boa fidedignidade os
fenômenos que se processam no Mercado, não existe sequer um indicador apropriado para
medir os níveis de risco ou para precificar derivativos, os modelos adotados são
excessivamente simplificados e adotam deliberadamente uma enormidade de premissas
falsas, para facilitar a modelagem, e como consequência é natural que nada funcione.
O Método de Monte Carlo via cadeias de Markov, que é um procedimento genérico para
modelagem matemática, é superior ao método proposto por Black & Scholes, que foi
desenvolvido exclusivamente para precificar opções. É degradante que um método genérico
possa superar um método especializado. Essa carência de ferramentas matemáticas de boa
qualidade para trabalhar neste campo acaba tendo um aspecto positivo e um negativo. O
negativo é que a pessoa que decide estudar este assunto acaba sendo obrigada a fazer tudo
praticamente desde o zero: inventar a roda, descobrir como produzir fogo, modelar argila etc.
E o lado positivo é que estamos todos no mesmo deserto, por isso alguém que esteja
começando não leva desvantagem em conhecimento, se comparado a alguém que trabalha há
décadas nesta área, porque o conhecimento que os veteranos possuem geralmente é
imprestável, impregnado de erros, vieses e superstições. Assim, o que acaba prevalecendo é a
capacidade de aprender, de compreender e de criar.
Os Itens 7, 8, 9, 10, 11 e 12 também são intuitivos, e aqui termina a parte mais fácil, em que
basta ler e receber as soluções prontas sobre o que se deve fazer. A partir do item 7 se começa
a penetrar na selva. Nenhum livro trata das propriedades do Mercado que determinam o
movimento dos preços. Neste ponto, a pessoa precisa usar o que aprendeu nos itens
anteriores para investigar diretamente os dados brutos sobre o Mercado, de modo a
identificar suas propriedades, catalogar as propriedades que se mostram mais relevantes e
influentes sobre o movimento dos preços, agrupá-las conforme apresentarem características
mais ou menos semelhantes, compreender de que maneira as mudanças nestas propriedades
afetam as mudanças nos preços e criar fórmulas, com poucos parâmetros, que possam
representar a evolução de cada uma destas propriedades ao longo do tempo. Estas etapas
requerem estudos profundos, complexos e exaustivos de grande volume de dados sobre
diferentes instrumentos financeiros.
O reconhecimento dos padrões que se formam no histórico de cotações precisa ser
decomposto em seus componentes fundamentais, de modo que se consiga separar quais
destes componentes influem no movimento dos preços e quais são ruídos espúrios. Como os
próprios componentes variam junto com os preços, essa auto-interferência cria algumas
dificuldades adicionais, bem como a variação no nível de ruídos dificulta a separação destes
ruídos dos componentes modeláveis/equacionáveis. O fato de não haver uma receita pronta
para lidar com esse tipo de problema implica que se fique um tempo considerável tateando no
escuro, sem encontrar um ponto de partida para começar a investigar o problema, e os
primeiros milhares de resultados costumam não levar a nada.
Quando se consegue reconhecer o primeiro padrão que parece fazer algum sentido, por ser
definido pelos componentes modeláveis/equacionáveis dos preços, já se pode desenvolver
uma estratégia baseada neste padrão e partindo da premissa que: conhecendo as equações
que representam muito aproximadamente a evolução das propriedades que formam este
padrão, no momento que este padrão volta a se repetir, já se tem uma fórmula capaz de
indicar o comportamento dos componentes modeláveis/equacionáveis dos preços e, ainda
que estes representem apenas uma parte dos fatores que influem sobre os preços, pode-se ter
uma estimativa sobre a assimetria na probabilidade de o movimento seguir em determinada
direção. A maior parte dos movimentos é composta por ruídos, que não são
modeláveis/equacionáveis, embora a amplitude dos ruídos possa ser modelada. Isso
impossibilita que se acerte todas as operações, porque em cada movimento se tem uma
combinação de componentes modeláveis empurrando os preços numa direção, e ruídos
espúrios empurrando os preços aleatoriamente. Algumas vezes os ruídos vão empurrar na
mesma direção, outras vezes na direção oposta. Grosseiramente e simplificadamente, se o
tamanho dos ruídos for 4 vezes maior que o tamanho dos componentes modeláveis, então
espera-se ter cerca de 60% de acertos nas operações, pois 80% do movimento é definido pelos
ruídos e 20% pelos componentes equacionados. Nestas condições, os ruídos empurram 40%
numa direção e 40% na outra, aleatoriamente, enquanto os componentes conhecidos
empurram 20% na direção prevista, que somados aos 40% que os ruídos empurram na mesma
direção, totaliza 60%.
O reconhecimento de maior número de padrões, e de padrões que surgem com mais
frequência, possibilita maior número de operações. A adoção de critérios de entrada quando o
nível de ruído está mais baixo, aumenta a probabilidade de acertos, mas reduz o número de
operações. Entrar 10 operações por ano com 100% de acertos pode ser pior (menos lucrativo)
do que entrar 1000 operações por ano com 55% de acertos, porque no primeiro caso se
consegue um total de 5 acertos acima do que seria possível com “chutes aleatórios”, ao passo
que no segundo caso se consegue 50 acertos acima do que seria possível com “chutes
aleatórios”. Isso faz com que exista um ponto ótimo de porcentagem de acertos para
maximizar a relação lucro/risco. Isso supondo a situação simplificada de cada operação
lucrativa tendo mesmo volume e mesma longitude que cada operação com prejuízo. Se os
volumes e longitudes não forem iguais, as proporções de longitude são mantidas, e as de
volume se espera que também sejam, se a gestão de capital for eficiente.
A estratégia precisa ser definida por uma equação capaz de reconhecer a formação dos
padrões no meio de uma mistura de ruídos e componentes com movimento conhecido.
Quando digo “movimento conhecido”, na verdade me refiro a movimento
modelado/equacionado, porque não há como saber quanto a modelagem aderente, mas
desde que represente aproximadamente o componente que se deseja modelar, já é suficiente
para sinalizar uma assimetria. Também não há como saber se aquilo que se identifica como um
componente, se é de fato apenas um ou se são vários componentes combinados que se
comportam de maneira que só conseguimos reconhecer como um grupo de componentes
homogêneos. Sob o ponto de vista prático, isso não é tão importante, exceto em situações
como a crise da Grécia, em que alguns componentes degringolaram. Há soluções robustas que
continuam funcionando bem, mesmo em cenários como a crise na Grécia, a quebra da exURSS, a crise do sub-prime etc. Encontrar estas soluções geralmente requer vivenciar uma
destas crises, para sentir a pressão diária de produzir uma solução adequada. Quando se
observa um período ruim de 6 a 12 meses em back test, entre 1998 2 1999, por exemplo,
geralmente não se tem suficiente motivação para aprimorar a modelagem de maneira a evitar
aquele problema. Mas quando se tem o problema presente no dia-a-dia, como na crise de
2010, a motivação é muito maior.
Em vários casos, não se consegue modelar satisfatoriamente um ou mais dos componentes.
Quando isso acontece, convém avaliar quanto compensa continuar a dedicar tempo a este
problema específico, em vez de deixa-lo de lado para focar em outros problemas que
ofereçam menos resistência e cuja importância do resultado seja igualmente útil para o
resultado global.
A qualidade das séries históricas em que os estudos são realizados é muito importante.
Embora seja possível inferir algumas conclusões corretas usando bases de dados de baixa
qualidade, a precisão na modelagem acaba sendo prejudicada, reduzindo a performance.
As séries históricas da Olsen Data talvez sejam as melhores entre as que não receberam
nenhum tratamento. As séries da Disk Trading precisam passar por filtragens para reduzir o
nível de ruído antes de iniciar o estudo, tendo em mente que esta filtragem acaba também
distorcendo as propriedades de componentes modeláveis/equacionáveis. Para compreender
melhor como isso deve ser feito, é necessário que se estude o conceito de auto-similaridade,
em Geometria Fractal. Algumas propriedades observadas em larga escala podem conter
informações perdidas ao examinar o mercado em microescala. Isso possibilita não apenas
reconstituir aproximadamente algumas informações perdidas, como também refinar a
precisão no conhecimento de certos efeitos quase invisíveis em microescala, porque alguns
destes efeitos podem ser deduzidos a partir da observação de efeitos análogos em escalas
maiores. Também é fundamental ter em mente que os históricos de cotações não são
exatamente fractais. Um termo mais apropriado seria multi-pseudo-fractais. “Multi” porque
são determinados por várias leis de formação sobrepostas; “pseudo” porque não são fractais
genuínos, já que não possuem algumas das propriedades que seriam necessárias para que
pudessem ser classificados como fratctais.
As séries históricas da Oanda, Dukascopy e Gain Capital estão entre as melhores séries
gratuitas. Há também meios de produzir séries com ticks artificiais. Para que os ticks artificiais
preservem as propriedades relevantes dos ticks reais, é necessário que alguns cuidados sejam
tomados. Para conferir se os ticks artificiais ficaram suficientemente semelhantes aos reais,
basta rodar uma estratégia em ambos e comparar os resultados.
Os itens 13 em diante são intuitivos e também praticamente não há referências bibliográficas
de qualidade sobre estes temas. Se a pessoa quer aprender a fazer back tests confiáveis, ela
até pode encontrar algumas recomendações básicas em alguns sites, inclusive no nosso.
Porém a parte mais dura do trabalho ela terá que descobrir sozinha. Além disso, há muitos
sites com informações erradas sobre este assunto, inclusive de autores consagrados, como
Edward Thorp e Ed. Seykota, o que torna necessário filtrar muito bem as informações antes de
usá-las.
Se a pessoa conseguir desenvolver uma boa estratégia, mas não testá-la adequadamente, não
será possível avaliar se sua estratégia é de fato boa. Por isso os itens 13 em diante também são
muito importantes. A testagem em contas reais é muito onerosa e muito lenta. Para testar
uma estratégia durante 6 meses é necessário ficar os mesmos 6 meses testando, e os prejuízos
resultantes vão dilapidando o patrimônio. Por outro lado, a testagem por meio de back tests
possibilita testar 10 anos, 20 anos, 30 anos em apenas 1 ou 2 minutos. Além disso, ao verificar
que os resultados são negativos, não se perdeu um centavo com isso. Basta recomeçar o teste
com outra configuração.
Portanto é incomparavelmente melhor selecionar as estratégias primeiramente em back tests.
Somente depois de aprovadas em back tests é que começa a fazer algum sentido testá-las em
situação real. O fato de funcionarem em back tests não quer dizer que funcionarão também
em situação real, mas se elas não funcionarem nos back tests, pelo menos isso evita que se
perca dinheiro testando-as em contas reais, sendo que nem mesmo nos back tests foram
capazes de produzir algum lucro. A função dos back tests é fazer uma pré-seleção, para
eliminar as estratégias que são evidentemente ruins, bem como aprovar para testes reais
aquelas que derem sinais de que podem ter alguma chance de funcionar.
Mesmo utilizando séries históricas de fontes confiáveis, ainda assim é muito provável que os
resultados nos primeiros back tests sejam muito distorcidos em comparação ao que se vai
obter na situação real. Isso acontece por vários motivos. Como há numerosos artigos nos quais
discuto esta questão, não me aprofundarei aqui, mas darei uma recomendação básica: para
que se possa garantir um mínimo de qualidade, é necessário que as séries históricas sejam
tick-by-tick. Além disso, é necessário que as cotações não estejam impregnadas de ruídos. As
séries históricas tick-by-tick da DiskTrading, por exemplo, bem como de algumas outras
corretoras, apresentam um nível de ruídos acima do tolerável, e acabam produzindo
resultados inverossímeis nos back tests.
Para solucionar este problema, estas são algumas medidas que podem ser adotadas:
a)
b)
c)
d)
Eleger exclusivamente séries históricas de ótima qualidade.
Comparar resultados em séries históricas de várias fontes diferentes.
Mesclar séries históricas de diferentes fontes, para minimizar o nível de ruídos.
Editar e filtrar os ruídos com ferramentas matemáticas apropriadas.
e) Gerar ticks artificiais com mesma complexidade dos ticks reais, e medir se a complexidade
dos ticks de uma série histórica estão dentro dos níveis esperados. Caso não estejam,
aplicar filtros apropriados, sucessivas vezes, até que o nível de complexidade seja
representativo dos ticks reais.
Não importa qual ou quais as soluções adotadas, desde que se consiga que os resultados nos
back tests sejam semelhantes aos resultados em situação real. Quando se consegue isso, então
os resultados obtidos nos back tests passam a ser tão confiáveis quanto os resultados em
contas reais, e os históricos de vários anos de back tests passam a ter importância comparável
a um histórico real no mesmo período.
Quando se consegue séries históricas com este padrão de qualidade, praticamente já se tem
resolvido o problema de dispor dos recursos necessários para testar a estratégia, sem precisar
perder dinheiro com testes em contas reais. Pois quando a estratégia é aprovada nos back
tests com este padrão de qualidade, ela vai funcionar na situação real.
Os resultados não precisam ser idênticos, nem é possível que sejam, conforme comentado em
um artigo recente. Basta que haja um nível razoável de similaridade, algo do tipo: no back test
o sistema gera 10% ao ano durante 5 anos, com máximo drawdown 50%. Em conta real gera
8% ao ano com máximo drawdown 62%, no mesmo período de 5 anos. Embora esteja pior que
no back test, está bastante semelhante e ainda está claramente superior a outras alternativas
de investimento. Não se iluda esperando conseguir 20% ao ano nos seus primeiros 10 anos de
pesquisa e desenvolvimento. É provável que menos de 1% das pessoas que lerem este artigo e
seguirem com devoção a todas as recomendações, cheguem a no máximo 5% ao ano depois
de 10 anos de trabalho duro. Enquanto 99% das pessoas que lerem este artigo e seguirem as
recomendações, talvez nunca cheguem sequer a produzir algo que fique positivo de forma
consistente a longo prazo.
Se você conseguir resultados acima de 10% ao ano, logo nos primeiros meses ou primeiros
anos de testes, desconfie destes resultados. É provável que haja algum problema em suas
bases de dados, em seu método de testagem etc. Seja rigoroso e autocrítico ao extremo, se
quiser ter alguma chance de algum dia produzir um sistema capaz de bater o Mercado
consistentemente a longo prazo. Ganhar dinheiro no Mercado Financeiro é muito mais difícil
do que ganhar dinheiro com Boxe ou Fórmula I, porque não basta ser bom, não basta ser
ótimo, não basta ser excelente, não basta ser excepcional. Você precisará estar entre os
melhores do mundo para que obtenha alguma recompensa financeira depois de alguns anos
de muita dedicação.
Os resultados em back tests podem ser perigosamente enganosos por uma grande variedade
de motivos sutis, difíceis de compreender e de explicar. Por isso é necessário repetir
periodicamente experimentos de comparação entre contas reais e back tests no mesmo
período, para conferir se os resultados continuam semelhantes. Pode acontecer de uma
mesma série histórica produzir resultados muito semelhantes entre back tests e contas reais
para uma determinada estratégia, mas não ter boa similaridade para uma estratégia diferente.
Isso é comum se uma estratégia realiza operações longas, enquanto a outra realiza operações
curtas. As operações curtas são mais sensíveis a pequenas diferenças de cotação. Também é
comum que se observe altíssima similaridade entre back test e situação real em 2 ou 3 meses,
mas quando se compara períodos de alguns anos, a similaridade fica muito menor.
Estou com vários artigos inacabados, um deles baseado num e-mail enviado ao amigo Carlos
Felício. Como o tal artigo já está se tornando obsoleto, em vez de publicá-lo na íntegra, apenas
citarei fragmentos que são relevantes para ilustrar este tópico:
Na segunda metade de 2010, logo que as primeiras versões 6.x entraram em operação, em 3
meses de comparação entre situação real e back test no mesmo período, usando mesma
configuração do Saturno em ambas, com spread fixo 1.6 em ambas e todas as configurações do
cabeçalho FXT iguais em ambas, usando cotações da Alpari tanto na situação real quanto no
back test, verificamos uma similaridade muito grande, com correlação 0,99929 e com
proporção entre os balanços 0,942, conforme este artigo http://www.saturnov.com/artigos/175nova-comparacao-entre-back-test-e-situacao-real
Na maioria dos períodos de 2 meses, a similaridade entre back test e situação real foi altíssima,
conforme no artigo acima. Enquanto esta situação se mantém, pode ser que uma operação no
back teste feche a preço um pouco melhor, sendo que no back test uma operação gera 5,18% de
lucro, enquanto a mesma operação na conta real gera 5,15% de lucro. Mesmo somando a
diferença acumulada em várias dezenas de operações, a diferença total permanece pequena. Os
atrasos nas execuções, as diferenças de spread, as diferenças nas cotações produzem esse efeito
quase imperceptível na maior parte do tempo, porém em períodos mais longos, de 1 ano ou
mais, verificamos outro tipo de diferença, mais rara, porém muito maior. Em média, a cada 3
bimestres ocorre 1 operação com o seguinte problema: no back test a cotação alcança o
objetivo de lucro e fecha com lucro, mas na conta real, a operação correspondente fica
faltando 0,2 pip ou 0,3 pip para alcançar o objetivo de lucro, e o movimento inverte e acaba
sendo estopada. Em casos assim, o back test pode gerar algo como 5% de lucro, enquanto a
situação real gera 7% de prejuízo exatamente na mesma operação. Então uma operação a cada
semestre, na qual esta “anomalia” acontece, acaba produzindo uma diferença maior entre
back test e situação real do que a soma de todas as outras diferenças de centenas de operações
nas quais esta “anomalia” não ocorre. Este é o principal motivo das diferenças entre back tests
e situação real, porque minúsculas diferenças nas cotações, ou minúsculos atrasos, ou
minúsculas variações no spread, acabam resultando em grandes diferenças na performance.
Este problema eu comento num artigo de 2006, e explico os motivos pelos quais precisamos
usar bases de dados tick-by-tick, para maximizar a similaridade entre back test e situação real.
Nestes 30% de bimestres em que ocorrem estas anomalias, a correlação entre back test e
situação real fica entre 0,6 e 0,8, portanto a similaridade nestes bimestres fica muitíssimo
menor. Quando se considera a média ponderada de todos os períodos, inclusive os bimestres
com estas anomalias, a correlação que era 0,99925 cai para 0,92, e a proporção nos balanços
cai de 0,941 para 0,84. Também é importante ter em mente que o coeficiente de correlação
linear de Pearson (enfatizando “LINEAR”) é para comparar variáveis que se distribuem
normalmente e evoluem quase linearmente. No caso do histórico de uma carteira, a evolução
não é linear em períodos curtos, embora seja quase linear quando se considera os logaritmos
dos balanços num histórico longo. Por isso a correlação linear de Pearson não é totalmente
apropriada para medir similaridade em períodos curtos, mas é adequada para períodos longos.
Então a correlação 0,916 e a proporção entre os balanços 0,838 são uma boa representação, a
longo prazo, para a similaridade entre back test e situação real. Este tema foi analisado com
mais detalhes neste artigo http://www.sigmasociety.com/similaridade_backtests.pdf,
comparando não apenas o balanço, mas também o máximo drawdown, o profit factor, o
número de operações realizadas, a porcentagem de operações lucrativas, usando diferentes
versões em séries históricas de duas fontes diferentes (ForexTester e HistData). Depois do
artigo, este estudo foi ampliado substancialmente e parte dos resultados serão citados aqui.
O que se pode verificar é que a curva de dissimilaridade entre back test e situação real se
comporta da seguinte forma: de 1 a 60 dias a similaridade é maior que 0,999. De 60 a 300
dias, a similaridade diminui até cerca de 0,92, e estabiliza neste nível. De 1 ano até 14 anos, a
similaridade se mantém estável com correlação perto de 0,92 e a proporção de balanços perto
de 0,84.
A hipótese de que a diferença entre duas séries históricas diferentes, em back test, seja
equivalente à diferença entre back test e situação real é confirmada pelos estudos realizados na
FXPro e Alpari, de 2010 a 2013, comparando contas diferentes usando mesma versão e mesma
configuração, e depois comparando com back tests. A diferença observada entre duas contas
reais na mesma corretora, com mesmos spreads, mesmas cotações, mesmas swaps, tudo igual,
são equivalentes às diferenças observadas entre as contas reais e os back tests no mesmo
período e com mesma configuração.
Como não dispomos de históricos de contas reais com muito mais de 3 anos, é razoável estimar
a dissimilaridade esperada entre contas reais e back tests com base na dissimilaridade
observada entre back tests de fontes de dados diferentes, assim podemos comparar mais de 14
anos e ter uma ideia de como a dissimilaridade evolui com o tempo. Fiz um gráfico para
representar aproximadamente a evolução da correlação em função do tempo (em meses). Nos
primeiros 12 meses, a correlação cai rapidamente de um patamar acima de 0,999 para menos
de 0,93, porém nos 168 meses seguintes, cai de 0,93 para algo entre 0,91 e 0,92, tendendo a se
estabilizar numa assíntota perto de 0,916.
Este resultado também se ampara no fato de que a maior similaridade observada num período
de 2 ou 3 meses se deve à inexistência de eventos em que uma operação gera lucro no back test
e perda na situação real. Quando ocorre o primeiro evento desse tipo, há uma queda abrupta
na correlação, porque havia 0 bimestres anômalos e de repente há 1 em 4, por exemplo.
Quando ocorre o segundo evento, pode haver a segunda queda, dependendo de quando
ocorrer, passando de 1 em 3 para algo como 2 em 7, por exemplo. Mas logo se estabiliza,
porque a proporção de 1 em 3 ou 1 em 4 é mantida, então haverá 30 em 100, por exemplo, ou
300 em 1000, por isso a correlação cai rapidamente nos primeiros meses, e logo depois se
estabiliza.
O que isso mostra é que no artigo de 2010, a medida de correlação entre back test e situação
real baseada em 3 meses ficou superestimada, devido à inexistência de anomalias como a que
foi descrita acima. Depois de 1 ano, algumas destas anomalias se manifestaram e indicaram
que a correlação provável seria cerca de 0,942. Depois de 3 anos de comparação de contas
reais com back tests e 14 anos de comparação de back tests de fontes de diferentes, ficou claro
que a correlação é cerca de 0,916.
Mesmo quando comparamos duas contas reais em brokers diferentes, ou até mesmo duas
contas reais num mesmo broker, inclusive no mesmo pull de provedores de liquidez, podemos
observar diferenças num patamar semelhante. Então este é o limite prático de similaridade que
podemos alcançar. O nível de similaridade entre back test e situação real é bem conhecido e
medido com razoável acurácia. Quando comparamos contas reais numa mesma corretora,
mesmo provedor de liquidez, mesma versão e configuração do Saturno, também observamos
diferenças nos resultados, e estas estão no mesmo nível das diferenças observadas entre back
test e situação real. Geralmente a correlação entre contas reais diferentes é perto de 0,9 a 0,95
e a proporção entre os balanços é cerca de 0,85. Além disso, conhecemos alguns dos fatores
que podem contribuir para aumentar ainda mais a similaridade. Podemos ter controle sobre
alguns destes fatores, mas não sobre outros. Não podemos ter controle sobre atrasos nas
execuções decorrentes das diferentes etapas de roteamento de cada ordem, nos
posicionamentos de stops, nos stops atravessados sem serem executados, nas cotações
incorretas ou filtradas que chegam pelo broker, nas order fix etc. E os que podemos ter
controle são:
1) Spread variável: há mais de 2 anos estamos fazendo testes com spread variável, usando
Ask e Bid reais do Mercado, além de continuar testes com spreads fixos. O uso de
spreads reais não é o ideal. Em breve criaremos tabelas de spreads por faixa de
horário e parâmetros de distribuição por faixa de horário e de dia da semana, e
usaremos os spreads desta tabela, em vez de usar o spread real histórico. Porque em
1986, por exemplo, o spread era muito maior que o atual, e não é representativo da
situação atual e futura. Não temos interesse em usar os spreads reais de 1986.
Queremos apenas saber as cotações de 1986 em diante, porém usando spreads atuais,
com variações sazonais de horário e dia da semana desde 1986, porque isso nos dará
uma modelagem mais fidedigna do que podemos esperar nos meses e anos seguintes.
2) Simulação de penetração nos livros de ofertas. Já dispomos de informações
relativamente detalhadas sobre o volume de negócios em cada camada no livro de
ofertas em cada horário, e podemos calcular a penetração no offerbook. Brokers
diferentes fornecem informações diferentes sobre seus próprios livros de ofertas, mas é
relativamente fácil calcular os volumes equivalentes para o Deutsche Bank ou UBS,
por exemplo, com base nos dados de que dispomos.
3) Obter séries históricas do próprio broker que estamos operando, o que permite
aumentar sensivelmente a similaridade entre back test e situação real.
4) Gerar ticks artificiais que incorporem o máximo possível das propriedades relevantes
dos ticks reais. Nossos ticks artificiais atuais já são razoavelmente bons, conforme se
pode ver no artigo http://www.sigmasociety.com/similaridade_backtests.pdf, mas ainda
pode melhorar em alguns quesitos fundamentais, de modo a representar a diferente
quantidade típica de ticks em cada candle em função do horário, por exemplo. Com o
método atual, esbarramos em 2 dificuldades: se gerar 300 ticks por candle,
conseguimos similaridade muito alta, porém o back test fica muito lento e o arquivo
FXT fica muito grande (dezenas de Gb), além de impedir que eu faça mais de um back
test simultâneo, devido ao limite de 32 Gb de RAM. Se usar 5 ticks por candle, o back
test fica com uma velocidade boa, posso fazer 7 back tests simultâneos, mas a
similaridade não fica tão boa. A correlação 0,916 é quando se usa ticks reais ou muito
semelhantes aos reais. Se usar 5 ticks por candle, a correlação pode cair para algo
entre 0,8 e 0,9, dependendo do tamanho das operações e outros fatores secundários.
5) Estabelecer intervalos para configuração dos parâmetros que forcem operações mais
longas faz com que a importância relativa do tamanho dos spreads seja menor, bem
como os atrasos na execução, diferenças de cotação, penetração no livro de ofertas
etc., todos estes fatores que provocam dissimilaridade acabam ficando menos
relevantes quando as operações são mais longas. Então uma das maneiras de lidar com
o problema é esta, mas ela tem alguns efeitos colaterais: as configurações mais
promissoras, mais rentáveis, mais estáveis, são aquelas em que se faz grande
quantidade de operações curtas.
O processo de otimização também é fartamente discutido em vários artigos, bem como as
etapas de seleção e validação, por isso não serão descritos aqui. Farei apenas uma breve
análise de alguns gráficos de otimização, para indicar algumas falhas comuns que podem
ocorrer ao configurar os parâmetros que se deseja otimizar.
Uma otimização é uma série de centenas ou milhares de back tests, em que uma mesma
estratégia é testada com diferentes configurações para seus parâmetros. Quando a otimização
é feita com o auxílio de um algoritmo genético, cada configuração recebe o nome de
“genótipo” e cada parâmetro recebe o nome de “gene”. Num gráfico de back test, o eixo x
informa o número da operação (ou o tempo), enquanto o eixo y informa a evolução do
balanço após cada nova operação (ou ao longo do tempo), sempre usando a mesma estratégia
e a mesma configuração, do início até o fim do gráfico. Num gráfico de otimização, o eixo x
informa o ID do genótipo testado, enquanto o eixo y informa o balanço final alcançado por
aquele genótipo. Um gráfico de back test leva 1 minuto ou até menos. Um gráfico de
otimização pode levar 10.000 a 20.000 minutos, e cada ponto plotado no gráfico de otimização
resume o resultado de um gráfico inteiro (o balanço final) de cada um dos 10.000 back tests
realizados pelos 10.000 diferentes genótipos testados. Se o algoritmo genético for eficiente, se
a estratégia for otimizável, se os parâmetros a serem otimizados tiverem sido bem escolhidos,
se os intervalos de otimização dos parâmetros tiverem sido bem determinados, espera-se que
a cada centena de gerações, os genótipos campeões fiquem, em média, melhores que os
campeões da centena de gerações anteriores.
Não precisa ser necessariamente a cada centena de gerações, mas precisa haver correlação
positiva entre o número da geração e a performance do genótipo na variável que se quer
otimizar. Além disso, há muitas outras condições que precisam ser atendidas para que a
otimização possa ser considerada bem-sucedida. Quando o gráfico de otimização apresenta
determinados sintomas, deve-se tomar as providências necessárias para evitar que o problema
persista nas próximas otimizações.
A seguir, serão analisados alguns gráficos de otimizações, lembrando que no Metatrader 4
cada geração possui apenas 1 indivíduo, ou seja, um genótipo. Portanto o ID de cada genótipo
é igual ao número da geração.
Este primeiro gráfico é um exemplo de otimização bem feita. A dispersão no rating dos
genótipos vai aumentando gradualmente, a cada geração, e a média de rating vai também
subindo a cada geração. A ocorrência de genótipos com rating baixo em todas as gerações é
inevitável e reflete os esforços, por meio de mutações, para produzir genótipos com rating tão
alto quanto possível. Isso não é um sinal ruim, é uma característica presente em praticamente
qualquer processo de otimização.
No segundo gráfico, temos sintomas que denunciam dois problemas:
1) A configuração da amplitude do espectro dentro do qual os valores de alguns dos
principais parâmetros deveriam ser testados pode ter sido demasiado estreita,
impondo limites assintóticos que impediram a evolução acima de determinado
patamar desde as primeiras gerações. Se este gráfico tiver sido gerado ao testar uma
estratégia diferente da que gerou o primeiro gráfico, ou se este gráfico foi gerado num
período histórico muito mais curto que o período no qual foi gerado o primeiro
gráfico, ou se este gráfico foi gerado por uma otimização de refinamento de
parâmetros, então também pode não haver nenhum problema.
2) Há indícios de 2 ou mais parâmetros altamente redundantes, que estão produzindo
uma suave bifurcação entre os melhores genótipos, aproximadamente a partir da
5.000ª geração, gerando duas classes de campeões. Isso pode ser resolvido de várias
maneiras. A mais simples é eliminando um dos parâmetros. A mais recomendável é
fundindo ambos num só, de modo a preservar o máximo das propriedades
importantes presentes em cada um. E uma solução intermediária pode ser representar
um dos parâmetros como função do outro, ou seja, remover um deles como variável
externa e fazer com que ele evolua de acordo com as variações do outro. Também é
possível que não represente um problema, dependendo de alguns detalhes sobre a
variável otimizada. O gráfico gera um alerta, mas precisa ser feita uma investigação
mais detalhada para saber o que provocou o efeito observado.
Neste gráfico há um sintoma que pode também ser uma das possíveis explicações para o
efeito observado no item 2 do gráfico anterior: nas últimas gerações, pode-se observar a
formação de alguns estratos estreitos e alguns estratos largos. Os estratos largos são
semelhantes aos observados no item 2 do gráfico anterior e a explicação aqui também pode
ser válida naquele caso.
Quando um dos parâmetros atinge determinado valor, pode acontecer de que não importa
quanto ele aumente além daquele ponto, isso pouco afetará a performance. Por exemplo:
testar Stop Loss entre 10 pips e 1000 pips, acaba sendo praticamente inútil acima de certo
ponto (digamos, acima de 200 pips), porque os fechamentos acabarão sendo por outros
critérios antes de chegar a executar os stops. Isso faz com que quase todos os valores para
este parâmetro acima de 200 pips produzam praticamente mesmo resultado, ou variações
muito pequenas no resultado. Quando os demais parâmetros assumem determinados valores,
enquanto apenas o stop varia entre 200 e 1000, provavelmente os valores entre 200 e 1000
para o stop vão produzir genótipos iguais ou quase iguais, resultando nestes estratos estreitos
observados no gráfico.
Isso indica que possivelmente houve um erro ao colocar um intervalo tão largo para este
parâmetro. Teria sido melhor colocar o stop para ser otimizado entre 10 e 200, ou mesmo
entre 10 e 100, reduzindo o número total de configurações a serem testadas, ou transferindo a
outro parâmetro o benefício de ser testado com 10 vezes mais configurações, ou reduzindo a
escala de discretização neste parâmetro e em outros parâmetros, ou uma combinação destas
modificações, ou alargando o intervalo para parâmetros cujos resultados da otimização
tenham apresentado frequência incomum próxima ao teto do intervalo definido para eles,
porque essa aglomeração próxima ao teto pode sinalizar a necessidade de que o intervalo para
estes parâmetros fosse alargado na direção da concentração.
O motivo de as aglomerações estreitas de pontos ocorrerem perto do teto de performance, é
que presumivelmente os parâmetros restantes estão perto da melhor configuração possível,
logo as pequenas oscilações acabam sendo provocadas pelo parâmetro “problemático”. E o
mesmo efeito gera aglomerações mais largas nos níveis menos altos de performance, porque
como os parâmetros restantes ainda não estão perto da melhor configuração possível, eles
também contribuem para aumentar a dispersão. Então este efeito pode explicar também o
item 2 do gráfico anterior.
O fato de haver 3 estratos bem definidos, além de 2 ou mais estratos menos nítidos, pode ser
interpretado de diferentes maneiras. Uma delas é que cada estrato se forma devido ao
espaçamento ou à discretização muito grande na otimização de algum outro parâmetro. Por
exemplo: o Take Profi entre 40 e 100 variando de 30 em 30. Neste caso, seria fácil resolver o
problema, bastando reduzir o intervalo do Stop Loss de 10 a 1000 para de 10 a 100 e mudando
a discretização do Take Profi de 30 em 30 para de 3 em 3.
Este é um gráfico que pode não indicar nenhum problema no processo de otimização, no que
diz respeito á configuração dos parâmetros a serem otimizados, ou pode indicar um problema
semelhante ao do item 1 do segundo gráfico, porém num nível mais brando. No segundo
gráfico, os melhores genótipos chegam a performances de $ 200.000, enquanto neste chegam
a mais de $ 100.000.000. Por isso pode não ser adequado interpretá-lo da mesma maneira que
aquele. Por outro lado, se observa que desde as primeiras gerações já foram alcançadas
performances muito altas em comparação às últimas. Isso pode ser explicado se esta for um
otimização de refinamento, em que todos os parâmetros já foram otimizados numa etapa
anterior, e agora estão sendo otimizados dentro de intervalos mais estreitos, ou então alguns
parâmetros foram fixados em determinados valores, enquanto outra parte deles foi refinada.
Estas características observadas podem indicar ou não algum problema.
Este gráfico pode não indicar nenhum problema com a otimização, mas também pode
denunciar que a estratégia é muito limitada. Se comparar este gráfico com o primeiro,
podemos observar que o primeiro chegou a cerca de $ 400.000.000, enquanto este chegou a $
2.500.000. Além disso, o primeiro começou com lucros perto de $ 100.000 nas primeiras
gerações, enquanto este começou perto de $ 450.000. Então a proporção de crescimento foi
muito maior no primeiro. Se ambos são tentativas de otimizar a mesma estratégia, no mesmo
período histórico, este último está num caminho aparentemente estéril. O fato de este último
começar com ratings mais altos, sugere que houve uma otimização anterior e que alguns dos
parâmetros já foram fixados, ou que os intervalos de otimização foram estreitados em torno
de valores previamente considerados mais promissores.
Na hipótese de um estreitamento de intervalo em torno de valores previamente considerados
mais promissores, o gráfico mostra que na verdade estes valores não são os mais promissores.
E na hipótese de alguns parâmetros terem sido fixados, o gráfico mostra que a escolha dos
valores para fixação não foi adequada, ou a seleção dos parâmetros a permanecerem fixos não
foi adequada, ou os intervalos para otimização dos parâmetros restantes não foram
adequados.
A quantidade e variedade de problemas e erros que podem produzir padrões reconhecíveis
num gráfico de otimização é imensa, e não há como fazer uma análise exaustiva de todos eles.
Estes são apenas alguns dos exemplos mais frequentes.
Quando se otimiza um parâmetro isolado, também podem ocorrer sintomas de problemas
muito diferentes. Quando se otimiza apenas 2 parâmetros, os padrões que denunciam
problemas também são diferentes. Os gráficos acima são válidos para grandes números de
parâmetros e são mais complexos de se interpretar. Os casos com 1 ou poucos parâmetros são
bastante simples e não vejo necessidade de publicar uma análise a respeito.
Resumidamente, é isso que precisa ser feito. Agora ficou fácil. Aí estão todas as
recomendações, informações, indicações. O grande segredo é que basta um “pouco” de
trabalho e estudo.

Documentos relacionados