Estatística, astrologia e previsão científica do futuro

Transcrição

Estatística, astrologia e previsão científica do futuro
Estatística, astrologia e previsão científica do futuro
Por Hindemburg Melão Jr.
Por recomendação do amigo José Celso, comecei a escrever artigos mais didáticos e
destinados ao público sem formação em Exatas. Este será o primeiro artigo desta série. Se por
um lado o conteúdo será menos denso, por outro será mais fácil de digerir, mas isso exigirá
textos mais longos, com divagações mais extensas para explicar alguns conceitos.
Quando se fala em “prever o futuro”, muitas pessoas pensam em astrologia, videntes etc., e
isso faz com que alguns criem uma imediata aversão à ideia. Porém há basicamente duas
maneiras de se tentar prever o futuro: com o uso de Ciência e sem o uso de Ciência. A
astrologia é um exemplo fracassado sem o uso de Ciência, ao passo que a Astronomia é um
exemplo muito bem sucedido com o uso de Ciência.
O fracasso no uso da astrologia foi tamanho que, nas últimas décadas, os astrólogos mudaram
seu discurso e reformularam a própria finalidade milenar da astrologia. Agora não alegam mais
que podem prever o futuro com base na astrologia; dizem apenas que usam a astrologia para
dar conselhos com base na personalidade das pessoas, e que a personalidade é definida pela
posição que ocupavam os astros no momento que a pessoa nasceu. Não importa muito qual o
papel que tentam atribuir à astrologia, ela continua falhando dramaticamente, porque não
possui qualquer teor científico.
Tarô, quiromancia, grafismo, numerologia, astrologia etc. fazem parte de uma mesma classe
de métodos impróprios para se tentar prever o futuro, ou para qualquer outra finalidade que
se alegue que possam ter.
Previsões científicas se distinguem das não-científicas (ou pseudocientíficas) por uma série de
características, entre as quais a mais fundamental é que a Ciência possibilita submeter suas
previsões a testes estatísticos e, assim, verificar se os resultados estão dentro de certos limites
esperados. Na época Galileu e Francis Bacon e, inclusive mais tarde, com Hume, uma teoria era
considerada científica se pudesse ser verificada empiricamente. Porém este conceito foi
reformulado por Popper, de quem George Soros foi discípulo. Para Popper, uma teoria
científica precisa ser falseável, isto é, além de ser possível verificar se ela é uma boa
representação da realidade sensciente, é necessário que, no caso de ela ser falsa, seja possível
mostrar que ela é falsa por meio de testes lógicos e quantitativos.
Precisa ser possível testar a possibilidade de ela ser falsa e ela precisa sobreviver ao teste, para
que seja considerada “científica”. Sob este ponto de vista, teorias como a psicanálise ou o
marxismo, por exemplo, não são científicas. Uma teoria como a o Geocentrismo, por exemplo,
é científica e errada. Ela é científica porque pode ser testada e falseada, e é errada porque o
resultado do teste mostra que ela não pode ser uma boa representação da realidade
sensciente, pois não pode explicar as variações nos tamanhos aparentes e brilhos de Vênus e
Marte, não prevê e não explica a paralaxe estelar, não explica e não é compatível com o efeito
Coriolis, entre outros problemas que forçam a descartá-la. É diferente da psicanálise, por
exemplo, que não se pode classificar como “errada” ou “falsa” simplesmente porque ela não é
falseável, situando-a num nível abaixo do geocentrismo, praticamente no mesmo nível de
ficção literária, que não deixa de ter seus méritos como obra criativa, engenhosa etc., mas não
tem nenhum valor como tentativa de representação da “realidade”, de fenômenos ou de
processos do mundo sensciente.
No Mercado Financeiro, são muito raros os casos de previsões científicas. Para que um método
seja científico, ele precisa ser testável, reprodutível e falseável. Há diferentes maneiras de se
testar um método. De modo geral, métodos automáticos são muito mais fáceis de testar,
porque se pode assegurar que os critérios estão sempre sendo seguidos à risca ao longo de
toda a série histórica, enquanto métodos manuais estão sujeitos à disciplina e habilidade do
trader para que mantenha os mesmos critérios ao longo do teste inteiro. Isso, por si, já pode
invalidar completamente o método.
Antes de prosseguir, falaremos um pouco sobre processos determinísticos, estocásticos e
aleatórios, que são conceitos necessários para que se possa distinguir entre o problema de
modelar o Mercado Financeiro de outros mais simples como modelar o movimento planetário
ou a estrutura interna das estrelas e planetas.
Processos determinísticos são aqueles em que, conhecendo o estado de um sistema num
número finito de instantes, pode-se inferir uma regra geral por meio da qual se torna possível
prever seu estado em qualquer momento, futuro ou passado, com absoluta exatidão. No
mundo real, praticamente não existem processos inteiramente determinísticos. Pode-se
prever as posições dos planetas com 99% de acurácia, ou 99,99% ou até mesmo 99,9999999%
de acurácia, mas nunca com 100%. Em toda medida existe um erro inerente que impossibilita
conhecer uma grandeza com absoluta exatidão, e isso faz com que não seja possível eliminar
incertezas nas medidas feitas no mundo real. Só se pode ter medidas exatas em entidades
abstratas da Matemática, como, por exemplo, o comprimento de um círculo é exatamente pi
vezes maior que o diâmetro deste círculo, ou a diagonal de um quadrado é exatamente raiz de
2 vezes maior que o lado deste quadrado, ou o seno de 30 graus é exatamente 0,5. Em casos
hipotéticos, pode-se ter processos verdadeiramente determinísticos, como dois discos
concêntricos que giram em períodos de 2 horas e 3 horas. Isso significa que dois pontos
alinhados com o centro dos discos volte a estar exatamente alinhado com o centro a cada 6
horas. Não 5,999999999999999999999999 nem 6,000000000000000000000000000000001
mas sim exatamente 6 horas. Esta exatidão no cálculo é que faz com que um processo possa
ser classificado como fundamentalmente determinístico.
Processos aleatórios são aqueles em que, numa série de eventos, não existe encadeamento
entre um dado evento e o evento seguinte, impossibilitando que se possa usar o histórico de
eventos para prever o próximo evento. Em processos aleatórios, diz-se que os eventos são
independentes. No mundo real não existem eventos totalmente aleatórios em escala humana,
embora existam em escala quântica. Macroscopicamente existem apenas pseudoaleatórios,
como os lançamentos de dados ou jogos de azar em geral. Conhecendo o último resultado do
lançamento de um dado não-viciado, por exemplo, não é possível prever o resultado do
próximo lançamento. Se conhecer os últimos 1.000 lançamentos ou os últimos 1.000.000 de
lançamentos, não muda em nada sobre conseguir prever o resultado do próximo lançamento.
Processos estocásticos são aqueles que combinam aleatoriedade e determinismo, em
diferentes proporções. Praticamente todos os processos no mundo real são estocásticos. Há
pelo menos 2 outras situações em que o termo “estocástico” pode ser usado. Uma delas é
para se referir a processos caóticos, em que a aleatoriedade é especialmente acentuada. Outra
é para se referir a eventos aleatórios que, numa situação particular, apresentam propriedades
aparentemente determinísticas. No presente contexto, assim como em todos os artigos nos
quais utilizo esta expressão, o significado adotado é o primeiro.
O crescimento da população brasileira, por exemplo, pode ser descrito como um processo
estocástico. O número de pessoas que nascem e morrem a cada dia, cada mês, cada ano não é
constante, nem é conhecido com exatidão, mas também não é totalmente aleatório. Sabendo
que os últimos 10 lançamentos de um dado não viciado, homogêneo e homobárico,
resultaram em 1,5,4,2,1,3,5,6,2,4, não se pode prever qual será o resultado do próximo
lançamento com probabilidade de acerto maior que 1/6, mas sabendo que a população
brasileira cresceu à uma taxa média de 1,18% ao ano entre 2000 e 2010, podemos ter uma
ideia razoável de quanto ela crescerá no próximo ano. Não poderemos saber exatamente, mas
será uma previsão muito melhor do que um palpite aleatório.
Com base apenas na informação sobre a taxa de crescimento entre 2000 e 2010, nossa
primeira hipótese poderia ser que, como 2000 a 2010 é um período recente, então de 2014
para 2015 seria bastante razoável supor um ritmo semelhante de crescimento, algo entre 1% e
1,3%. Talvez seja um pouco menos que 1%, ou um pouco mais de 1,3%, mas podemos ter um
nível razoável de confiança que não será mais que 10% ou menos que -5%. Não podemos
excluir totalmente tais possibilidades, inclusive há exemplos históricos em que estes limites
foram ultrapassados. Na Europa, durante o auge da peste negra (por volta de 1350), a
população em alguns países diminuiu em mais de 30%. Também podem ocorrer surtos de
nascimentos que não sejam contrabalançados por mortes, resultando num crescimento
demográfico anormal. Isso impede que se tenha certeza, mas pode-se afirmar com, digamos,
mais de 80% de probabilidade, que a taxa de crescimento esperada para o Brasil entre 2014 e
2015 seja entre 0,5% e 2%. Este intervalo de 0,5% a 2% foi “chutado”, mas logo adiante
veremos como é possível calcular esse valor.
Considerando os censos desde 1872 até 2010, temos as seguintes taxas de crescimento:
Ano
1872
1890
1900
1920
1940
1950
1960
1970
1980
1991
2000
2010
População
9,930,478
14,333,915
17,438,434
30,635,605
41,236,315
51,944,397
70,992,343
94,508,583
121,150,573
146,917,459
169,590,693
190,755,799
Crescimento anual
2.0599%
1.9798%
2.8575%
1.4969%
2.3354%
3.1733%
2.9025%
2.5145%
1.7685%
1.6074%
1.1830%
Nesta tabela, a taxa indicada para 1890 corresponde à taxa anual média entre 1872 e 1890, a
taxa em 1970 representa o período de 1960 a 1970 e assim por diante.
Podemos observar que a taxa de crescimento anual média nos 138 anos considerados é 2,16%.
Esta nova informação nos permite fazer uma previsão melhor, não porque 2,16% seja mais
acurado do que 1,18%, mas sim porque podemos observar a evolução deste parâmetro ao
longo do tempo. Podemos observar que desde 1950 a taxa vem caindo quase linearmente,
conforme está representado no gráfico a seguir:
Os losangos azuis representam as taxas anuais de crescimento demográfico medidas em cada
período. A linha preta é a reta de regressão que melhor representa esta nuvem de pontos.
Podemos perceber que o ritmo de decrescimento na taxa de crescimento é muito bem
representado por uma reta, com coeficiente de correlação de Pearson 0,988 (a covariância é
0,9765). Então, em vez de supor que a taxa entre 2014 e 2015 será igual à taxa entre 2000 e
2010 (ou pior, que seja igual à taxa entre 1872 e 2010), podemos supor que o ritmo de
decrescimento na taxa de crescimento dos últimos 60 anos será aproximadamente mantido
nos próximos anos, então entre 2014 e 2015 é esperada uma taxa de 0,73% ao ano. Pode-se
fazer algumas outras previsões, como, por exemplo, de que entre 2030 e 2040 a taxa de
crescimento demográfico no Brasil será negativa, assim como já acontece no Japão, na
Alemanha, Hungria e Ucrânia.
Mas como podemos saber se esta estimativa é uma boa aproximação? Há vários caminhos por
meio dos quais se pode obter boas respostas a esta pergunta. Uma delas é pelo Chi quadrado,
que mede a aderência dos pontos à reta. Outros testes de aderência, como Andersson-Darling,
Kolmogorov-Smirnov, Shapiro-Wilk, Hosmer-Lemeshow etc. também fornecem medidas de
aderência com propriedades específicas. O Kolmogorov-Smirnov, por exemplo, é mais sensível
à forma. Andersson-Darling é mais adequado a distribuições placicúrticas. Para uma reta de
regressão, o Chi-quadrado de Pearson é um dos mais indicados. Com base nisso, podemos
constatar que os valores preditos com base na reta de regressão apresentam incerteza em
torno de 0,28%, ou seja, há 67% de probabilidade de que o valor correto seja entre 0,45% e
1,01%. Com um pouco de Estatística, além de obter uma estimativa sobre o valor mais
provável (0,73%), é possível também saber o intervalo de confiança em que esta estimativa é
válida e qual a probabilidade de o valor correto estar dentro deste intervalo de confiança.
A Ciência tem um poder extraordinário em comparação aos achismos e palpites, porque além
de possibilitar usar grandes volumes de dados para extrair informações que tirem proveito de
cada um dos dados disponíveis, encontrando valores acurados que sejam representativos da
grandeza que se deseja conhecer, ainda por cima permite estabelecer um intervalo de valores
dentro dos quais deve estar o valor correto e qual a probabilidade de que o valor correto
esteja no tal intervalo. Embora seja um conceito muito básico, é muito útil para investimentos,
porque além de indicar com acurácia e precisão os pontos de entrada e saída nas operações,
permite também definir onde devem ser posicionados os stops nos casos em que o Mercado
não se comportar conforme o esperado.
Mas como verificar se a previsão da taxa de crescimento demográfico para 2014,5 realmente
funciona? Um teste simples que pode ser aplicado a este caso é subtraindo os 10 anos finais de
nosso histórico e usando apenas os dados de 1950 a 2000 para construir o gráfico a seguir:
Com base nisso, podemos calcular qual deve ser a taxa de crescimento entre 2000 e 2010. O
resultado que encontramos é 1,09%, tendo 67% de probabilidade de ser entre 0,81% e 1,37%.
Isso equivale a estarmos vivendo no ano 2001 e projetando qual seria a taxa de crescimento
entre 2000 e 2010, com base exclusivamente em nosso histórico anterior a 2000. E o valor que
encontraríamos, se estivéssemos vivendo no ano 2001 e usando exclusivamente os dados
anteriores a 2000, seria 1,09%, que é muito semelhante ao valor correto de 1,18%, e dentro do
intervalo de confiança. Também podemos constatar que este método de extrapolação linear
forneceu um valor mais próximo do correto do que se tivesse simplesmente repetido o valor
do período anterior, de 1991 a 2000 (1,61%), para 2000 a 2010. Portanto esta aproximação por
extrapolação é melhor do que supor que o valor do período anterior vá se repetir, mas ainda
não é a melhor aproximação possível.
Sabemos que a nuvem de pontos não pode ser corretamente representada por uma reta em
toda sua extensão, pois não seria possível haver uma taxa menor que -100% (100% negativo),
logo a curva verdadeira que melhor representa esta nuvem de pontos não é uma reta, pois
precisa ter uma assíntota inferior em -100%. Na verdade, pela história de evolução da
população mundial, sabemos que o mais comum é que a taxa fique próxima a zero, tal como
foi aproximadamente entre 400 a.C. e 1200 d.C. Então pode ser mais apropriado estabelecer
uma assíntota em 0, em vez de -1. Pode-se também ponderar cada ponto do gráfico conforme
a incerteza em cada medida, entre outras possibilidades, dependendo do tempo que se
pretende dedicar ao aprimoramento do método e do nível de acurácia que se deseja alcançar.
Como cada vez mais o método requer muito tempo e muito trabalho para produzir um
incremento cada vez menor na acurácia, rapidamente se atinge um patamar satisfatório além
o qual não compensa refinar o método. Isso se tratando especificamente de determinar a taxa
futura de crescimento demográfico no Brasil. Ao resolver outros problemas, pode compensar
refinar indefinidamente, ou refinar até um nível de diferente, dependendo de quão
rapidamente o resultado converge e de qual trabalho e demorado é para cada novo
incremento na modelagem.
Um exemplo prático recente e bastante simples do uso de uma modelagem estatística para
“prever o futuro” foi no campeonato mundial de Xadrez, entre Carlsen e Anand. No artigo que
publiquei
em
12/11/2013,
no
site
do
amigo
Gerson
Peres
Batista
http://www.clubedexadrezonline.com.br/artigo.asp?doc=13485 , a previsão era de que
Carlsen tinha cerca de 88% de probabilidade de vencer. Além disso, a expectativa era de que
Carlsen fizesse 63,34% dos pontos. Ao final do match, Carlsen fez 65% dos pontos. Claro que
nem todas as previsões são tão certeiras em eventos nos quais a amostra seja tão pequena
(apenas 12 jogos) e a incerteza em cada jogo seja tão grande quanto no comportamento
humano. Mas este é um bom exemplo de como se pode prever o futuro usando ferramentas
estatísticas simples, e obter resultados muito melhores do que palpites subjetivos.
Com isso podemos perceber a clara diferença entre um processo aleatório, um processo
determinístico e um processo estocástico. As previsões sobre passagens periélicas de cometas,
eclipses lunares e solares, ocultações e trânsitos de sombra de satélites de Júpiter e Saturno
etc. são calculados com incertezas que variam de alguns segundos a alguns dias. No caso do
cometa de Halley, por exemplo, no momento da redescoberta em 1982, os primeiros cálculos
do momento de passagem pelo periélio estavam errados em cerca de 1 hora. Somente quando
se aproximou à data da passagem periélica, em fevereiro de 1986, é que se obteve precisão e
acurácia de segundos no cálculo. Outros cálculos sobre o futuro, como a evolução na
velocidade dos computadores caseiros ou resultados de loteria esportiva, apresentam um nível
bem diferente de precisão, pois o nível de aleatoriedade é maior e isso reduz a precisão.
Processos estocásticos como o movimento planetário, em que se consegue precisão e acurácia
muito elevados nas previsões, acima de 99,9999%, quase podem ser tratados como
determinísticos em períodos curtos, mas em períodos muito longos, as funções degringolam.
Por exemplo: em 1986, foi descoberto um “asteroide” que recebeu o nome “Cruithne”. Tratase de um objeto com período orbital de 364 dias, ou seja, quase exatamente 1 ano terrestre.
Tal objeto, por ter ressonância de quase exatamente 1:1 com o período orbital da Terra, acaba
tendo algumas propriedades peculiares. Por este motivo, passou a integrar (e inaugurou) uma
nova classe de objetos, conhecidos como “quasi-satellies”. Essa nomenclatura se deve ao seu
movimento em torno da Terra, que não é uma órbita Kepleriana, mas sim uma espécie de
“monstro” sob a perspectiva das 3 Leis de Kepler.
Enquanto todos os objetos no Universo descrevem órbitas com altíssima aderência á forma de
uma elipse, os quasi-satellies descrevem órbitas em forma de biscoito torto. Isso ocorre
porque são diferentes dos troianos, de Júpiter, que são asteroides que ocupam os pontos
langrangeanos L4 e L5 da órbita de Júpiter (estando Júpiter no ponto L2). Isso significa que os
troianos compartilham a mesma órbita de Júpiter, porém se movem 60 graus à frente ou 60
graus atrás de Júpiter. No caso de Cruithne, sua órbita não é coincidente com a da Terra, mas
apenas o período orbital é (quase) igual ao da Terra e o semi-eixo maior da órbita também é
(quase) igual, mas tem excentricidade diferente e sua órbita intersecta a órbita terrestre. Isso
faz com que Cruithne tenha um movimento em forma de biscoito em volta da Terra, para um
observador externo que tenha a Terra fixa em sua mira. Isso, na verdade, é resultado de seu
movimento elíptico em torno Sol sincronizado com o movimento elíptico da Terra em volta do
Sol. Esta animação mostra o que acontece: http://www.youtube.com/watch?v=lRaqYClJ154
Com uma órbita com estas propriedades, Cruithne sofre perturbações cumulativas muito
acentuadas, provocadas pela gravidade da Terra, fazendo com que num período relativamente
curto (em escala astronômica) tenda a ser expulso do Sistema Solar (isto é, sua órbita se
tornará hiperbólica) ou colidirá com algum outro astro. Este é um típico caso de anomalia que
não seria possível prever se as órbitas fossem tratadas como determinísticas. Este efeito
também está presente em todos os planetas, asteroides, cometas, sistemas binários e
múltiplos, porém o acumulo de anomalias até provocar uma instabilidade definitiva que mude
radicalmente a órbita de um planeta é muito mais lento. Se tentar prever a posição de
Mercúrio, por exemplo, usando nos cálculos só os elementos orbitais atuais, pode-se ter
excelentes resultados para os próximos 2 anos, 5 anos, 10 anos, mas não para 100 anos ou
1000 anos. Para 100 anos já se torna necessário aplicar as correções das variações seculares
nos elementos orbitais, e para 10.000 anos ou mais, seria necessário considerar também as
variações nas variações seculares.
Num cálculo de 5 anos, bastaria usar a Lei da Gravitação e tratar a órbita como elíptica, e o
resultado seria muito bom. Porém em 100 anos começa a ficar claro que o período sideral de
Mercúrio não coincide com o período anomalístico, ou seja, o tempo decorrido entre duas
passagens consecutivas pelo periélio não é igual ao tempo de uma volta completa em torno do
Sol. Isso gera um efeito de precessão anomalística e vai se acumulando com o passar do
tempo. Depois de milhões de anos, o efeito acumulado já se torna grande a ponto de não ser
possível fazer previsões precisas. Porém mesmo em 10.000 ou 100.000 anos, Mercúrio ainda
estará orbitando o Sol muito aproximadamente á mesma distância atual e com forma quase
elíptica, enquanto Cruithne já pode ter sido expulsa do Sistema Solar ou ter sofrido alguma
outra mudança radical na forma de sua órbita. Isso significa que o nível de determinismo nas
previsões futuras para Mercúrio é muito maior do que o nível de determinismo nas previsões
futuras para Cruithne.
Grosseiramente, pode-se dizer que para cálculos de curto prazo, uma fórmula determinística
simples permite prever as posições dos planetas com boa acurácia, mas depois de muitas
revoluções siderais, o acúmulo de perturbações gravitacionais exige um cálculo mais
elaborado, e fica evidente que, em última instância, o movimento planetário não é
determinístico. O mesmo acontece com todo tipo de previsão, variando apenas em quanto
tempo leva até que se torne evidente que uma modelagem que parta da premissa que o
processo é determinístico não possa ser aplicada. Em meteorologia, por exemplo, 2 semanas já
é tempo suficiente para evidenciar que uma abordagem determinística é imprópria.
Quando se trata do Mercado Financeiro, enfrentam-se dificuldades muito maiores.
Geralmente quem compara o Mercado Financeiro à Meteorologia é porque não conhece
praticamente nada sobre as propriedades do Mercado e muitas vezes nem sequer conhece o
básico sobre Meteorologia. As diferenças são muitas e cada uma delas é muito importante. Os
movimentos de massas de fluidos, por exemplo, ainda que envolvam turbulências, são
essencialmente inerciais, por isso não ocorrem situações em que uma nuvem esteja se
movendo numa direção e, de repente, faça uma curva de 90 graus, ou então inverta 180 graus
e passe a se mover no sentido contrário. Antes desta inversão, precisa ocorrer uma
desaceleração, o que torna muito mais fácil de equacionar os movimentos e prever as
inversões quando estão na iminência de acontecer. Mesmo quando se considera o movimento
Browniano de apenas um átomo ou uma molécula suspensa num fluido, em vez de se
considerar a massa inteira de partículas, este átomo ou esta molécula também tem inércia,
portanto também precisa primeiro desacelerar para depois inverter o sentido do movimento.
Mas no Mercado não é assim e as cotações podem inverter instantaneamente. Isso aumenta
muito o grau de imprevisibilidade e torna muito mais difícil modelar satisfatoriamente os
movimentos no Mercado.
A distribuição de anisotropia nos fluidos se dá por variações suaves, em gradiente, sendo
muito fácil interpolar e extrapolar qual o nível de anisotropia num determinado ponto com
base no conhecimento sobre a anisotropia em pontos próximos. Isso facilita muito a tarefa de
um meteorologista. Mas no Mercado Financeiro isso não se aplica, podendo ocorrer variações
abruptas na anisotropia, na heterogeneidade, na heteroscedasticidade, no ímpeto local, no
espectro da distribuição do ímpeto etc. Isso não torna apenas mais difícil de lidar com esse
problema, como também requer uma abordagem completamente diferente.
Em Física, Astronomia e Cosmologia, os fenômenos investigados geralmente podem ser
resolvidos com Geometria Euclidiana e métrica de Minkowski, eventualmente com Geometria
Riemanniana ou Lobachevskiana e métrica de Kerr-Newman, que são todas contínuas e
descritas por funções suaves. No Mercado Financeiro é necessário usar Geometria Fractal, em
que uma das diferenças fundamentais é a ocorrência de bifurcações, com inversões
repentinas, com descontinuidades e muitas vezes com uma lei de formação desconhecida e
que não pode ser determinada com todos os parâmetros. Apesar das dificuldades extremas, a
modelagem do Mercado Financeiro ainda está dentro dos limites do que se consegue modelar.
Porém frequentemente as modelagens são fortemente localizadas. Para se conseguir uma
modelagem abrangente, torna-se necessário utilizar alguns recursos de inteligência artificial,
para que o modelo se adapte à mudança de parâmetros do cenário conforme o cenário evolui.
Para dificultar ainda mais, a otimização dos valores dos parâmetros da estratégia precisa ser
feita por meio de algoritmos genéticos, já que o número de possibilidades a serem testadas
excede o nível dos quintilhões. Mais detalhes em nosso artigo sobre algoritmos genéticos e
nosso resumo do site:
http://www.sigmasociety.com/algo_gen.pdf
http://www.sigmasociety.com/Sumario.pdf
Para testar se a modelagem é capaz de fazer previsões corretas com um nível de acerto
superior a “chutes” aleatórios, o procedimento também é um pouco mais difícil do que para
testar a validade de algo como as Leis de Kepler ou a Lei dos Gases. Isso ocorre porque no caso
das Leis de Kepler, a amplitude do efeito produzido por perturbações que introduzem ruído é
muito menor do que nos movimentos do Mercado. Numa estimativa aproximada, para
períodos de menos de 10 anos, as Leis de Kepler seriam 99,999999% determinísticas e
0,000001% aleatórias, ao passo que uma boa modelagem do Mercado financeiro chega a ser
cerca de 10% determinística e 90% aleatória. Isso faz com que nos 90% de casos em que é
aleatória, se tenha 45% de acertos (metade dos 90%) e nos 10% determinísticos se tem
integralmente os 10% de acertos, totalizando 55% de ganhos contra 45% de perdas. Pode-se
ainda melhorar isso, não operando em todas as situações, mas apenas naquelas situações em
que se tenha bons motivos para supor que haja mais de 70% de probabilidade de que o
cenário faz parte dos 10% de casos que se conseguiu modelar. Assim, pode-se ter 30% de
casos em que se tem 50% de acertos e 70% de casos em que se tem 100% de acertos,
totalizando 85% de acertos. Isso está próximo ao limite prático que se pode chegar.
A essência dos testes de validação é a mesma: escolhe-se um período dos dados históricos
para fazer a modelagem e depois se verifica se aquela modelagem é capaz de funcionar para
prever o comportamento do Mercado no período restante dos dados históricos. Uma das
características que se espera de um bom método é que uma modelagem feita num intervalo
relativamente curto produza resultados que continuem válidos para intervalos muito mais
longos. Essa característica é importante para evitar overfitting.
Isso tudo é muito importante para fazer uma distinção entre previsões não científicas e
científicas. Quando se faz uma previsão sem o auxílio da Ciência, a probabilidade de acerto é
normalmente a mesma de um palpite aleatório. No caso do Mercado financeiro, cerca de
50%de probabilidade de acerto, e como se paga taxas e se perde um pouco no spread, ao
longo do tempo se vai acumulando perdas. Quando se usa Ciência para fazer previsões, e se
faz uso correto do método científico, da Estatística, da Lógica etc. consegue-se sempre um
nível de acertos maior do que se teria por palpites aleatórios. Isso, no Mercado Financeiro,
representa mais de 50% de probabilidade de acertos e em vez de acumular perdas, acumula-se
ganhos.
Também é importante desmistificar uma visão incorreta que muitas pessoas têm sobre
Ciências Exatas, que na verdade não são exatas, mas apenas aproximadas e acuradas. Nos
países anglófonos se usa o termo bem mais apropriado “Hard Sciences”. Devido ao termo
“Ciências Exatas” ou simplesmente “Ciência”, muitas pessoas criam a ilusão de que os
resultados obtidos por um método científico são 100% corretos e exatos em todos os casos.
Na verdade, nunca são exatos e apenas uma parte das vezes são corretos, dentro dos limites
de intervalo de confiança estabelecido (ou do limite fiduciário, como prefere Ronald Fisher). A
Ciência tenta ser o mais acurada que pode, mas o nível de acurácia que se pode alcançar
depende muito do nível de aleatoriedade e determinismo dos fenômenos a serem modelados.
Em meteorologia, sempre a precisão e a acurácia são baixas. Em Astronomia de posição,
geralmente a precisão e a acurácia são elevadas. Quando a aleatoriedade é muito alta, não
importa o quão sofisticados são os métodos utilizados, não é possível atingir níveis muito altos
de acurácia. Em loterias como “Loto” ou “Mega Sena”, por exemplo, não há como fazer
previsões que permitam ter probabilidades de sucesso maiores do palpites aleatórios, porque
os resultados são praticamente 100% aleatórios.
Se houvesse conhecimento sobre tamanho, massa, rugosidade superficial e outras
propriedades de cada bolinha usada nos sorteios, e fossem usadas sempre as mesmas
bolinhas, então seria possível aumentar um pouco as probabilidades de sucesso, mas como
apenas 30% da arrecadação é devolvida em prêmios e ainda é necessário pagar imposto para
receber o prêmio, não existe a menor possibilidade de conseguir ganhar de forma consistente
em loterias. Na época de Voltaire, ele chegou a lucrar algumas vezes comprando todos os
bilhetes em casos nos quais o prêmio havia acumulado várias vezes e o valor total devolvido
era maior do que a soma do valor de todos os bilhetes. Em tais casos era possível ganhar, mas
atualmente não porque em jogos como MegaSena e similares, se o prêmio está acumulado
costuma haver maior número de apostadores, e se houver mais de um acertador, os
ganhadores dividem o prêmio, então fazer uma aposta em todos os resultados possíveis não
resolveria.
É diferente de jogos como roleta, loteria esportiva ou corrida de cavalos. Nestes a Ciência pode
ajudar a ter ganhos consistentes porque os resultados não são aleatórios nem equiprováveis.
Os times de futebol não têm probabilidades iguais. Os times mais fortes têm chances maiores.
Nos casos de cavalos e jóqueis idem. Nestes casos o princípio em que se deve se basear não é
escolher o cavalo com maior probabilidade de vencer, mas sim aquele cuja proporção entre o
prêmio e a probabilidade de vencer seja maior que 1. Por exemplo:
Na primeira coluna estão os nomes dos cavalos; na
segunda está quanto pagam se o cavalo vencer; na
terceira coluna a probabilidade de o cavalo vencer e
na quarta coluna o produto entre quanto pagam e a
probabilidade de vencer. O cavalo que paga mais é
Huygens, que tem menos probabilidade de ganhar. O
que paga menos é o melhor, Aristóteles. Porém
nenhum destes dois é o que oferece melhores perspectivas de lucro. O que determina a
perspectiva de lucro é o produto entre quanto paga e a probabilidade de vencer.
Nome
Aristóteles
Buridano
Cardano
Descartes
Einstein
Fermat
Gauss
Huygens
Pg
3.7
4.9
5.6
6.4
7.1
9.7
10.2
10.3
P(v)
16.87%
14.68%
13.63%
13.08%
12.80%
11.93%
8.94%
8.07%
Pg x P(v)
0.63
0.71
0.77
0.83
0.91
1.16
0.91
0.83
Entre esta lista hipotética, o único cavalo no qual seria conveniente apostar é Fermat, que
paga 9,7:1 e tem 11,93% de probabilidade de vencer, portanto, a longo prazo, espera-se um
lucro de 16% apostando neste cavalo, ou fazendo apostas similares em outros cavalos e
seguindo o mesmo critério.
Isso pode parecer muito fácil, mas aqui está sendo fornecido pronto o valor da probabilidade
de cada cavalo vencer. Na prática é necessário calcular este valor e não se dispõe de
elementos suficientes para o cálculo preciso. Além disso, na grande maioria das corridas,
nenhum dos cavalos oferece retorno acima de 1.
Em jogos de roleta também há métodos simples para vencer sistematicamente. O amigo
Edmundo Felipe já ganhou dinheiro com isso, porém é um processo lento, sendo necessárias
muitas horas contínuas de jogo até ganhar uma pequena porcentagem, além da opressão
enfrentada por parte dos donos dos cassinos quando se descobre que a pessoa está ganhando
sistematicamente. A ideia é bastante simples: fica-se algumas semanas ou meses,
continuamente, anotando todos os resultados de uma roleta. Após reunir pelo menos algumas
dezenas de milhares de resultados, conta-se quantas vezes deu cada número. Se a roleta for
muito simétrica e uniforme, com cada espaço para cada número muito aproximadamente do
mesmo tamanho de todos os outros, mesmo ângulo de inclinação etc., então a diferença de
probabilidade entre o número mais frequente pode não ser suficiente para que ele tenha mais
que 1/35 de probabilidade de ocorrer. Nesse caso, não será possível ganhar nesta roleta e será
necessário repetir todo o processo em outra roleta, anotando dezenas de milhares de
resultados etc. Quando encontrar uma roleta na qual haja pelo menos 1 número cuja
frequência de ocorrências seja sensivelmente maior do que 2,86% (algo como, digamos, 3%),
então basta começar a apostar sempre neste número e ir acumulando lucros até ser expulso
do cassino. Não há nenhuma fraude nisso, assim como as pessoas com hipermnésia para
cartas, porém a regra nos cassinos é simples: se você está ganhando sistematicamente, não
importa como você esteja conseguindo, você é persona non grata.
Existem muitas outras formas de ganhar em diferentes situações usando Ciência, Lógica e
Estatística. O Mercado Financeiro é uma delas. Não é “apenas uma delas”, mas sim a mais
desafiadora, a provê maior volume de dados históricos já compilados e a que movimenta
maiores volumes, oferecendo liquidez muito maior do que qualquer outro campo.
Anexo I
Logo após a publicação do artigo http://www.sigmasociety.com/previsoes.pdf , poucas horas
depois já recebi uma mensagem do amigo João Paulo Vaz, com observações perspicazes e
interessantes, as quais reproduzo aqui, em preto e itálico, com meus comentários em verde.
Gostei do artigo, realmente é bom para ressaltar as vantagens de se contar com um sistema
automatizado de operações no mercado e a necessidade de pensar por si mesmo. Penso, no
entanto, que no mercado financeiro a informação é sempre ex-post, de modo que não é
possível determinar o próximo estado da variação de preços, diante de inúmeros estudos que
não confirmaram a hipótese de autorregressividade desta grandeza.
Em 2005 conheci um amigo da Doris Fontes que disse trabalhar nisso (tentativa de modelar o
Mercado) há 30 anos e, por não ter conseguido, bem como nenhum dos colegas dele ao longo
destes 30 anos, alegava não ser possível. No artigo sobre o coeficiente de Hurst
http://www.sigmasociety.com/hurst.pdf, discuto este ponto com mais detalhes e deixo
evidente que ele está errado, bem como a esmagadora maioria que defende a mesma opinião
que ele. Em essência, minha refutação à tese dele consiste em mostrar resultados de Buffett e
Soros, que durante mais de 50 e 40 anos, respectivamente, obtiveram ganhos consistentes.
Isso não seria possível se o mercado fosse “eficiente”. Neste contexto, o termo “eficiente”
significaria que não pode ser modelado. Ainda seria possível argumentar em defesa do ponto
de vista dele alegando que Buffett e Soros só conseguiram tais resultados graças ao acesso a
informações privilegiadas provenientes de insiders. Novamente isso é fácil de refutar com um
argumento quase oposto ao primeiro: então, como a quantidade de pessoas com acesso a
insiders é muito maior, seria esperado que houvesse muito mais pessoas com o mesmo nível
de sucesso que eles. Além disso, o perfil típico de pessoas com acesso a insiders seria
constituído por bilionários, não por gestores emergentes e pobres, como eles eram em 1956 e
1968, respectivamente. Seria também esperado que, como operar com informações
privilegiadas é uma prática ilegal, Buffett e Soros já teriam sido autuados há muito tempo, ou
no mínimo haveria fortes suspeitas e várias denúncias contra eles, e isso independeria da
riqueza dele no momento da descoberta da fraude, como aconteceu no caso de Madoff, pois
tal fraude estaria lesando muitas outras pessoas físicas e jurídicas bilionárias, que
pressionariam no sentido de que eles fossem penalizados, se realmente estivessem usando
informações privilegiadas ou mesmo se houvesse suspeitas nesse sentido. Se em algum
momento, ao longo dos 58 anos de carreira de Buffett e 46 de Soros, fosse levantada alguma
suspeita disso, já teriam sido investigados.
Na época que escrevi aquele artigo sobre o coeficiente de Hurst, ainda não havia escrito a
maioria dos artigos sobre a versão 6 do Saturno e posteriores. A partir de meados de 2010,
com os estudos realizados com a versão 6.1 e posteriores, surge um argumento adicional e de
caráter técnico para refutar a tese dos que defendem que o Mercado não pode ser modelado.
Usando um intervalo de 1 ano de dados históricos, de 1/1/1972 a 1/1/1973, e otimizando os
parâmetros da estratégia do Saturno 6.1 com base neste intervalo, encontra-se um genótipo
que continua a produzir resultados positivos nos subsequentes 41 anos. Mudando o ano no
qual a otimização é realizada, e depois testando o resultado nos 41 anos restantes, também se
continua obtendo resultados positivos nos 41 anos restantes. Isso se aplica a qualquer um dos
42 anos considerados. Se mudar o intervalo de otimização para qualquer período de 2 anos,
além de continuar positivo nos 40 anos restantes, a performance média aumenta um pouco,
pois em 2 anos se tem uma variedade um pouco maior de cenários e o sistema aprende a
prognosticar corretamente o comportamento de uma fração um pouco maior dos cenários
restantes. Aumentando o intervalo de otimização para 3 anos, observa-se novo incremento na
performance ao rodar nos 39 anos restantes, e assim sucessivamente.
Considerando que o sistema realiza, em média, cerca de 4.200 operações entre 1972 e 2013, e
se não otimizar os parâmetros da estratégia o sistema sempre leva à ruína em qualquer
período considerado, e com operações aleatórias (sem o uso de uma estratégia bem
fundamentada) o sistema também leva à ruína em qualquer período considerado, qual seria a
probabilidade de obter acidentalmente o resultado descrito no parágrafo acima? Uma
estimativa rápida mostra que a ordem de grandeza da probabilidade seria de no máximo 2^-42
ou cerca de 1 em 1 trilhão. Equivalente a ganhar 80.000 vezes consecutivas na MegaSena com
apenas 1 bilhete em cada sorteio. Esta não é a probabilidade de o resultado acima ser casual, é
apenas o limite superior estimado rapidamente, supondo que com operações aleatórias haja
50% de probabilidade de ficar positivo e 50% de probabilidade de ficar negativo. Então haveria
0,5^42 de que todas as 42 otimizações em anos diferentes sempre resultassem em genótipos
que continuam positivos nos anos restantes. Mas um cálculo mais elaborado teria que
considerar que as probabilidades de ficar negativo com operações aleatórias não são de 50%,
mas sim muito abaixo de 50%, porque existe spread, existem corretagens, emolumentos,
custódia e liquidação, e subtraindo estas taxas e o spread, com 4.200 operações e pagando
estas taxas em cada operação, a probabilidade de ficar negativo é muito maior do que a de
ficar positivo se as operações fossem aleatórias ou se gerassem resultados equivalentes a
operações aleatórias. Então a probabilidade de o resultado obtido ser casual é muito menor do
que 0,5^42. Quão menor dependeria do broker e do instrumento financeiro, pois seria
necessário conhecer as variáveis citadas (spread, commission, swap etc. em caso de Forex ou
as citadas acima no caso de bolsas). Mas esta ainda seria uma subestimativa, porque
determina apenas a probabilidade de ficar positivo. Mas os resultados alcançados não são
apenas positivos, e sim muito acima de 0.
Levando em conta este fato adicional, o cálculo correto deve primeiramente medir a
variabilidade anual de resultados positivos e negativos alcançados com operações aleatórias,
para que se tenha uma ideia da dispersão anual, e então verificar quantos desvios-padrão
acima da média estão os resultados efetivamente alcançados. Neste artigo
http://www.saturnov.com/contas/imagens/Probab_sucesso.pdf foi feito este cálculo e
chegamos a cerca de 1,68 x 10^-141. A probabilidade de a estratégia utilizada ser uma
modelagem apropriada para fazer prognósticos do Mercado é maior do que a probabilidade de
a Teoria da Gravitação indicar corretamente o sentido do movimento de um corpo em queda
livre nas imediações do equador da Terra, dentro de um cone de incerteza menor que 0,1
grau. Isso com base nos resultados da versão 6.1 do Saturno. Atualmente estamos na 8.07d,
que na verdade não evoluiu muito mais que a 6 na essência, mas está muito mais refinada e
em vez de ser otimizada em 1 ano, pode ser otimizada em qualquer trimestre de 1987 a 2013,
e o genótipo campeão em qualquer trimestre continua gerando resultados positivos, portanto
passamos de 42 períodos para 104 períodos, aumentando em muitas ordens de grandeza a
probabilidade de que os resultados não podem ser mera casualidade.
Acho que a vantagem do sistema está mais no gerenciamento do resultado financeiro das
posições e é extremamente dependente do nível de rapidez de resposta das ordens e sua
execução pelo broker, que são contingências importantíssimas considerando a variação de
preços em nível de "tick".
Há duas interpretações para o que você disse. Uma delas é que você pode estar se referindo
ao que fazem os bancos. Bancos utilizam sistemas automáticos para arbitragem, que consiste
em encontrar cotações inconsistentes em diferentes bolsas. Por exemplo: se a libra esterlina
estiver valendo 2 dólares, e, por alguns segundos, o ouro na bolsa de Londres estiver cotado a
400 libras, enquanto, no mesmo instante, estiver cotado na bolsa de Nova Iorque a 801
dólares, então os sistemas automáticos usados em bancos penetram no livro de ofertas
comprando em Londres e vendendo simultaneamente em Nova Iorque até que as cotações
em ambas as bolsas fiquem iguais. Isso depende da velocidade de execução e é um sistema
automático muito elementar, fornecido pela própria NFA e pela FSA, aliás, não é fornecido, é
uma compra compulsória que os bancos precisam fazer, e para os bancos compensa porque
eles acabam lucrando com estas operações. Não é isso que faz o Saturno. O Saturno identifica
sinais que sugerem assimetria entre a probabilidade de as cotações subirem ou caírem até
determinado ponto a partir do ponto atual. Quando essa diferença de assimetria cobre spread
e taxas, e a incerteza na probabilidade de estar certo justifica que opere em determinada
direção, ele entra. Quando está certo, prossegue até atingir o objetivo de lucro e então
reposiciona o stop, para garantir determinado patamar de lucro, e segue atualizando a posição
do stop até o momento que a operação é fechada. Quando o sistema está errado, ou fecha ao
atingir o ponto de stop loss, ou fecha quando sinalizar que a probabilidade de estar certo não
justifica manter aquela posição, tendo em conta o novo pagamento de taxas ao fechar a
posição etc.
A outra interpretação é que você pode estar sugerindo que seria mais fácil ganhar com
operações aleatórias e gerenciando apenas o momento de sair. Isso não existe e serve apenas
para melhorar a relação entre lucro e volatilidade, mas não para ter lucros. A única forma de
ganhar no Mercado com métodos quantitativos é acertando os pontos de entrada. Não há
como entrar aleatoriamente e depois tentar acertar o ponto de saída, se no momento da
entrada havia aproximadamente 50% de probabilidade de o movimento seguir na direção
escolhida. Os métodos para redução de volatilidade atendem a um público específico que não
se sente confortável com grandes flutuações, e pagam a um gestor para ter um lucro menor do
que se praticassem pura e simplesmente buy & hold. É incrível a quantidade de produtos
absurdos que existem no Mercado Financeiro e que prosperam baseados na ignorância dos
investidores. Títulos de capitalização estão entre os mais ridículos, porém alguns são mais
sofisticados, embora não menos absurdos.
Costumo simplificar essas coisas: se não posso prever o que pode acontecer em T(n)-T(n+1),
posso ao menos prever o que farei numa árvore de resultados R(....), excluindo a dimensão
temporal e agindo, obviamente, em um intervalo de tempo suficientemente pequeno.
Isso é basicamente o que fizeram Black e Scholes para precificar opções. É extremamente
elementar e só funcionaria se eles fossem os únicos no mundo a usar isso, obtendo leve
vantagem em comparação aos que estimassem subjetivamente os preços justos. Não é o caso,
porque com todos fazendo isso, ou muitos grandes traders (que respondem por algo como
80% do volume negociado) fazendo isso, ninguém consegue ganhar.
O ponto central é que é possível, sim, prever a probabilidade de cada um dos próximos ticks
seguirem num determinado sentido até um determinado horizonte de tempo. E mais ainda
prever a probabilidade de centenas ou milhares de ticks dos próximos minutos ou horas
seguirem num sentido ou no outro.
Sobre a astrologia, venho mudando meu conceito. Tenho consultado diariamente vários tipos
de previsões, e imaginei: suponhamos que saia, em um site, algo do tipo "hoje você deve ter
cuidado com comentários negativos de pessoas próximas". Se imaginarmos que o número de
leitores diários é de 600.000 por dia (numa amostragem bem restritiva), é bem possível que
uma boa parte delas tenha pessoas "próximas", e que uma partes destas faça algum
"comentário negativo". Como ambos os conceitos, genéricos, subjetivos, serão completados
pela psiquê de quem lê, a profecia acaba sendo autorrealizável.
Isso aconteceria se houvesse uniformidade no que dizem todos os horóscopos de todos os
jornais e todas as fontes. A diversidade de recomendações diárias é suficientemente grande
para que fontes diferentes geralmente se anulem mutuamente em suas recomendações e o
efeito global acaba sendo aproximadamente nulo, a longo prazo. O que pode acontecer é a
personalidade das pessoas ser influenciada pelo perfil descrito para cada signo, porque estes
perfis costumam ser padronizados, com pouca divergência se comparados às divergências
observadas em horóscopos diários.
Psicanálise, por exemplo, leva a maioria das pessoas que recebem tratamento a declarar que
melhoraram, talvez porque de fato se sintam melhores. Isso não significa que psicanálise seja
melhor que um placebo, ou que ela própria não seja um placebo. A ausência de validade lógica
ou de teor científico da astrologia nada tem a ver com o fato de ela influenciar pessoas e
produzir ilusões coletivas. Além disso, existem diferenças sazonais ao longo do ano que
poderiam fundamentar parcialmente a astrologia no que diz respeito à classificação de perfis
personalógicos, desde que o argumento da astrologia se baseasse nisso. No entanto o
argumento da astrologia tenta relacionar a personalidade das pessoas com o perfil do
personagem mitológico com mesmo nome do planeta que estava em determinada posição no
momento que a pessoa nasceu, ou com a constelação em que estava o Sol no momento que a
pessoa nasceu. Não tentam relacionar o perfil com variações climáticas ou com comemorações
periódicas como carnaval e natal, que fariam com que uma pessoa cuja mãe foi fecundada no
carnaval teria maior probabilidade de apresentar determinado perfil do que outra cuja mãe
tivesse sido fecundada numa época diferente.
Se acrescentarmos à previsão a informação de que "as previsões podem ocorrer com certo
atraso", o nível de "previsão" da profecia pode ser próximo a 100%.
Dependendo de quão vaga seja a previsão, as mesmas centúrias de Nostradamos podem se
referir a milhões de fatos diferentes, ou até a todos os fatos que se seguiram a ele,
dependendo de como se interprete cada uma. Este é um dos motivos pelos quais não têm
nenhum valor preditivo.
Anexo II
Mantendo o padrão anterior, com comentários do amigo Vaz (preto e itállico) recebidos alguns
minutos depois de publicar o Anexo I, e os meus em verde.
Vou completar mais algumas observações. Primeiramente, sobre a representatividade de
amostras de performance como a de Warren Buffet e Goerge Soros. Um argumento que se
contrapõe é que eles são manifestações de probabilidades de baxíssimo nível num espaço
amostral de alguma de amplitude no mínimo idêntica à realidade, ou seja, o conjunto de
operadores de mercado “possíveis”.
Quando você divide a carreira deles em 2 partes, anos pares e anos ímpares, por exemplo, e
calcula o Kuder-Richardson com correção de Spearman-Brown, ou aplica um teste de
homogeneidade no histórico inteiro, pode verificar um alfa de Cronbach muito acima do que
seria esperado se se tratassem de resultados fortuitos. Se ajustar as performances a uma curva
que represente a evolução do nível cognitivo em função da idade, para compensar as menores
performances recentes de Buffett por ele estar com mais de 80 anos, o alfa de Cronbach
corrigido fica ainda maior.
Nos casos de traders que ganham por sorte, como um dos turttles traders que administra
fundos há cerca de 25 anos, encontrará uma elevada concentração de resultados positivos
num curto intervalo de tempo, logo no início da carreira, e nos 20 anos seguintes nunca mais
obteve resultados comparáveis àqueles. Isto é um sintoma de ganho casual que não se
observa nos históricos de Buffett ou Soros.
Posso estar cometendo um equívoco de interpretação, mas matematicamente a probabilidade
de ocorrência de um deles é não-zero e talvez discreta .
Sim, mas a probabilidade de eles terem 25 anos de resultados muito semelhantes aos outros
25 anos, qualquer que seja o critério para dividir o histórico ao meio, praticamente anula a
probabilidade de estes resultados terem sido fruto do acaso. Um experimento feito com um
macaco colocado para gerir um fundo que esteve entre os primeiros dos EUA durante algum
tempo, por exemplo, tinha nitidamente esta característica, com uma única operação de sorte
reunindo mais de 90% do lucro total e no resto dos resultados se observava oscilações com
média perto de 0 ou pouco abaixo de zero, devido às taxas.
Acredito que posso estar equivocado se o número de "supertraders" aumentou com o tempo,
em taxa exponencialmente superior ao do crescimento do tamanho da amostra.
Não creio que seja este o problema, mas sim a homogeneidade dos resultados ser muito
elevada para que possa ser explicada se fossem fruto da sorte.
Em segundo lugar, a evidência apontada em relação à capacidade de modelagem do mercado ,
comentada sobre o Saturno 6 (excluída a possibilidade de que o próprio sistema seja, ele, uma
amostra probabilística da realidade dos sistema de operações automáticas, que vem de modo
Darwiniano, sobrevivendo ao tempo), há então uma resultante do vetor do sentido de preços,
considerando-se vetores virtuais de força de compra e de venda; um componente inercial, que,
como subsiste às operações seguintes, guarda informação residual do sistema.
Em competições de 3 meses, como o automated trading championship, com centenas ou
milhares de competidores, é comum que um sistema vencedor seja fruto da sorte de que
naquele cenário específico sua estratégia era adequada (ou de alta volatilidade ou de mercado
lateral com amplitude quase constante). Entre os muitos sistemas concorrentes, ainda que
todos operassem aleatoriamente (e não é muito diferente disso), haveria uma distribuição de
performances fazendo com que alguns ficassem bastante acima da média e outros bastante
abaixo, com média perto de 0 (ou pouco abaixo de 0, devido às taxas). Não indicaria que o
campeão é melhor, mas apenas fruto do acaso. Mas quando se cobre períodos de algumas
décadas, a variedade de cenários e o número de operações realizadas praticamente descartam
a possibilidade de que o resultado seja casual. Nestas competições anuais que duram 3 meses
cada, nunca aconteceu de um mesmo sistema ser campeão mais de um ano, evidenciando o
que acabei de descrever. Aliás, já costuma ser raro que um sistema fique positivo 2 anos
seguidos.
No caso do Saturno é totalmente diferente, conforme já expliquei. Consiste basicamente em
selecionar o genótipo campeão num período de 3 meses e este mesmo genótipo continua
sendo positivo nos 309 meses seguintes. Como você explica esta situação sob a luz do
argumento que você usou? No seu entendimento, qual é a probabilidade de que isso aconteça
como fruto da sorte e como você realiza o cálculo para chegar ao seu resultado?
Com relação a guardar informação residual, não sei se interpretei corretamente, mas se você
se refere à possibilidade de o sistema ter sido desenvolvido usando o histórico inteiro, depois
ter sido otimizado num período antigo, e devido a isso poderia ser, de algum modo,
privilegiado com as informações mais recentes ao analisar as mais antigas, isso dependeria de
como a estratégia é estruturada. Além disso, é algo que seria detectado nos resultados. Se
houvesse tal viés, ficaria muito evidente ao começar a operar em contas reais, porque os
resultados seriam totalmente diferentes das expectativas. Desde 2010 o Saturno está
operando em contas reais e com resultados muito semelhantes aos previstos. As diferenças de
performance observadas são geralmente atribuíveis a atrasos nas execuções, ao fato de os
back tests usarem spread fixo enquanto no Mercado o spread é variável, e outros detalhes
como estes.
Outro ponto importante é um experimento que não fiz, mas tenho quase certeza de qual será
o resultado: se inverter a ordem cronológica das cotações e colocar o sistema para operar,
muito provavelmente o resultado será quase igual ao obtido operando com a ordem direta. A
simetria com que o sistema funciona comprando e vendendo (simetria vertical),
provavelmente também se aplica se inverter o sentido do tempo (simetria horizontal). Então
mesmo que houvesse algum arquivamento de informação residual dos dados recentes que
pudessem ter alguma utilidade para obter mais acertos nos dados antigos, isso implicaria que
o conhecimento de dados antigos também ajudaria a prognosticar com mais acertos nos dados
recentes, portanto os dados atuais e antigos serviriam para prognosticar dados futuros. Logo,
o argumento que você citou não contribui para defender a tese de que o Mercado não pode
ser modelado. Em vez disso, ajuda a defender o ponto de vista antagônico.
Anexo III
Comentários do amigo Vaz (preto e itállico) e os meus em verde.
Muito obrigado pelas explicações. Sem dúvida enriquecedor. Obrigado !
Eu que agradeço pela preciosa participação com dúvidas que provavelmente poucos teriam
elaborado dessa forma e com este alto nível, e que ajudam a esclarecer pontos fundamentais
sobre a validação da estratégia.