Introdução de redes neurais em modelos de médias móveis na

Transcrição

Introdução de redes neurais em modelos de médias móveis na
artigo técnico
ARTIGO TÉCNICO
Introdução de redes neurais
em modelos de médias
móveis na previsão de preços
Marcelo França Corrêa
Gerson Lachtermacher
Maria Augusta Soares Machado
Os modelos baseados em médias móveis são bastante objetivos e eficientes para sinalizar
tendências de mercado. Entretanto, apresentam grave problema: devido a sua construção matemática, tendem a permanecer sempre “atrás” do preço analisado. Em mercados voláteis, com
preços subindo e descendo rapidamente, esse atraso pode resultar em perdas. A finalidade deste
trabalho é demonstrar como as técnicas de redes neurais podem eliminar deficiências e melhorar
a performance das tradicionais médias móveis, utilizadas na análise técnica de investimentos.
Foi construída uma rede neural para realizar a previsão da média móvel futura de três dias da
ação Telemar PN. Em seguida, as previsões foram combinadas com médias passadas na criação
de um novo modelo. Os resultados mostraram que o modelo alternativo conseguiu superar o
desempenho dos tradicionais, baseados apenas em médias passadas.
89
ARTIGO TÉCNICO
Introdução
O mercado financeiro é afetado por grande número de fatores, de ordem econômica, política, psicológica
etc. que interagem de diferentes maneiras. Devido a esse fato, na maioria das vezes, seus movimentos são de
difícil previsibilidade. Mesmo assim, ao longo do último século, esse tema vem despertando interesse cada vez
maior entre pesquisadores, cientistas e analistas financeiros. O estudo do comportamento do mercado ou de
determinado ativo por meio de indicadores e gráficos, com o objetivo de projetar futuras tendências dos preços
em função de comportamentos passados, é conhecido como análise técnica. Os analistas acreditam que os preços
são impulsionados tanto pela psicologia de quem investe, quanto por qualquer outra variável financeira adjacente.
Todas as informações disponíveis fornecem indicação da psicologia do investidor e da determinação de preços
futuros. Aqui, as pressuposições são de que os preços se alteram em padrões previsíveis, que não há investidores
marginais aproveitando-se desses padrões para eliminá-los, e que o investidor mediano é impulsionado mais
pela emoção do que pela análise racional (Damodaran, 1999).
A análise técnica teve seu início com Charles H. Dow (1851–1902), fundador e editor do Wall Street Journal, cuja primeira edição foi publicada em 8 de julho de 1889. Entre 1900 e 1902, Dow escreveu uma série de
editoriais sobre métodos de especulação com ativos negociados na bolsa de Nova Iorque, que foram a base da
teoria que leva o seu nome e fonte de estudo para vários analistas que viriam a seguir. Seu maior objetivo era
determinar alterações nos movimentos de longo prazo do mercado.
Diversos pesquisadores, a partir da teoria de Dow, fizeram trabalhos que mereceram destaque, por exemplo,
Willian Peter Hamilton, que publicou no Wall Street Journal, em 25 de outubro de 1929, às vésperas do crash,
o editorial The Turn of the Tide (A Mudança da Maré), que previa corretamente o fim da longa tendência de alta
dos anos de 1920.
Com o passar do tempo, várias teorias surgiram e foram ganhando força no mundo científico. Conceitos
como suporte e resistência, tendências e retas de tendência e comportamentos padronizados do mercado se popularizaram entre os investidores. Em 1978, J. Welles Wilder Jr. publicou o livro New Concepts in Technical Trading
Sistems, marcando o início da era dos indicadores, com o Índice de Força Relativa (IFR), o Índice de Movimento
Direcional (DMI) e o Parabólico, dentre outros.
No Brasil, a análise técnica começou a se difundir a partir de 1983, permitindo que muitos investidores
obtivessem altos lucros com a longa tendência de alta na Bolsa de Valores de São Paulo (Bovespa), que começou
12 anos depois do grande topo de 1971, e culminou com o Plano Cruzado, em março de 1986, tendo tido seu
ápice no dia 28 de abril de 1986.
Apesar das constantes evoluções e dos progressos científicos no mundo todo, a análise técnica ainda
enfrenta um antigo adversário na tentativa de identificar tendências em determinadas séries de preços: o ruído
das informações, que consiste em movimento errático do preço e, por definição, é imprevisível. Pode ser considerado como o produto dos participantes, que são motivados por propósitos distintos, comprando e vendendo
em momentos diferentes (Kaufman, 1998).
Médias móveis
Dentre os métodos mais eficientes de previsão de séries contendo ruídos estão as médias móveis. Estas são
bastante objetivas e eficazes na sinalização de tendências do mercado, antecipando parte da direção futura dos
preços. Podem ser calculadas por meio de fórmulas matemáticas simples, contrastando com modelos subjetivos
baseados na visualização de gráficos. A estratégia tradicional de negociação baseada nesse modelo consiste no
cálculo de duas médias de diferentes tamanhos. Quando a média mais curta cruza a longa para cima, é sinalizada
tendência de alta. Caso contrário, o movimento é de baixa. O crossover das médias móveis filtra os ruídos nos
dados eliminando as flutuações e oscilações de curto prazo na direção do preço.
90
ARTIGO TÉCNICO
Figura 1 – Preço e médias móveis de 3 e 20 dias do Dow
Jones 20 de fevereiro a 7 de maio de 2001
Como mencionado, as médias móveis possuem grave deficiência: o atraso. A construção matemática das
médias móveis faz com que os sinais sejam gerados sempre “atrás” do preço analisado. Em mercados que se
movem em alta velocidade, com os preços subindo e descendo rapidamente, esse atraso geralmente significa
grandes perdas (Mendelsohn, 2000).
Visando minimizar esse problema alguns modelos utilizam médias ponderadas – reduzindo o atraso na
sinalização das tendências por meio da atribuição de pesos maiores aos valores mais recentes da série, o que
permite que as médias respondam de maneira mais rápida às reações do mercado – ou exponenciais, em cujo
modelo, os preços mais próximos à data atual são elevados a valores maiores, em vez de pesos. Essas duas
alternativas minimizam o problema do atraso desses indicadores. Mas nenhuma elimina a deficiência dos
modelos.
Recentemente, modelos baseados em redes neurais vêm sendo utilizados com sucesso na previsão de séries
financeiras e na precificação de ativos (Amilon, 2003; Azoff, 1994; Cheh e Weinberg, 1999; Hutchinson et al.,
1994; Kutsurelis, 1998; Refenes et al., 1994; Yao e Tan, 2000 e Freitas e Souza, 2002). O uso desses modelos
pode ser justificado pela capacidade que a rede neural tem de funcionar como “aproximador universal” de
funções contínuas (Cybenko, 1989).
Para suprir as deficiências das médias móveis e fazer com que sejam capazes de antecipar tendências,
Mendelsohn (2000) propõe o uso de médias móveis por meio de técnicas de redes neurais, inicialmente, na
previsão de médias futuras. Depois, as médias previstas são utilizadas no lugar das curtas e combinadas com
as passadas mais longas para compor o modelo final. Obtendo-se uma boa aproximação da média futura, as
sinalizações geradas pelas médias móveis deixam de estar sempre “atrasadas” e passam a ser “antecipadoras
de tendências”.
Baseando-se na idéia de Mendelsohn (2000), este artigo tem como objetivo mostrar como a combinação
das médias móveis com as redes neurais pode ser feita por meio de um estudo de caso. Foi construída uma rede
neural para realizar a previsão da média futura de três dias de uma ação negociada na Bovespa – a Telemar
PN, que representa as ações preferenciais dessa companhia, devido a sua alta volatilidade.
Os valores previstos foram posteriormente combinados com médias móveis para compor o modelo alternativo. O desempenho alcançado foi comparado com a performance de modelos tradicionais de médias móveis,
baseados apenas no cruzamento de médias passadas de diferentes tamanhos.
91
ARTIGO TÉCNICO
Redes neurais
Definição
As redes neurais, baseadas na estrutura e no funcionamento do sistema nervoso humano, ao contrário de
modelos tradicionais, em que uma ação precisa ser tomada para decidir sobre determinado caso, aprendem a
resolver problemas por meio da interação com o ambiente (Braga et al., 2000). Essa habilidade fez com que
suas aplicações fossem difundidas em diversos campos como modelagem de dados, reconhecimento de padrões
e análise de séries temporais.
Para alcançar bom desempenho, as redes empregam a interligação maciça dos “neurônios”. Uma de suas
características é a propensão natural para armazenar conhecimento experimental e torná-lo disponível para o
uso. Sua semelhança com o cérebro pode ser verificada em dois aspectos: o conhecimento é adquirido a partir
do ambiente por intermédio de um processo de aprendizagem, e as forças de conexão entre os neurônios (pesos)
são usadas para armazenar esse conhecimento (Haykin, 2001).
O neurônio é uma unidade de processamento da rede e é composto de quatro elementos básicos: um conjunto de conexões com pesos próprios; um somador dos sinais de entrada ponderados pelos pesos do neurônio;
uma função de ativação, que tem como objetivo principal limitar a amplitude do sinal de saída; e um bias ou
viés. O bias aumenta ou diminui a entrada da função de ativação, dependendo se é positivo ou negativo (Haykin,
2001). A Figura 1 mostra o modelo de um neurônio na camada j, onde x1, x2, ..., xn são os valores de entrada;
w0j, w1j, ..., wnj são os pesos do neurônio; b é o bias; e f é a função de ativação.
Figura 2 – Modelo de um neurônio artificial na camada j
Fonte: Han; Kamber, 2001.
Em geral, os neurônios organizam-se em camadas. A primeira é a de entrada, na qual são recebidas as
informações, e a última é a de saída. Dentre estas, podem ou não haver camadas intermediárias ou ocultas, que
tornam a rede capaz de extrair estatísticas de ordem elevada. A arquitetura de uma rede consiste na sua organização estrutural: número de camadas e de neurônios em cada uma destas, tipo de conexão entre os neurônios
e a topologia (Braga et al., 2000).
Treinamento e aprendizagem
A aprendizagem a partir do ambiente é uma função de importância fundamental, visto que é por meio desta
que a rede se torna capaz de solucionar problemas. Consiste no processo pelo qual os parâmetros da rede são
ajustados a partir de estímulos do ambiente.
92
ARTIGO TÉCNICO
Apesar da existência de diversos métodos de aprendizagem, estes podem ser divididos em dois grandes
grupos: os métodos supervisionados e os não-supervisionados. O primeiro é o mais comum no treinamento das
redes neurais. É chamado de supervisionado porque as entradas e saídas desejadas são fornecidas por supervisor
externo ou “professor”. Nos métodos não-supervisionados, apenas os parâmetros de entrada são fornecidos,
não existindo a figura do supervisor. A partir do momento em que a rede verifica regularidades estatísticas nos
padrões de entrada, esta desenvolve a habilidade de formar representações para codificar características de
entrada e criar classes automaticamente (Braga et al., 2000 e Haykin, 2001).
O processo de aprendizagem é interativo e consiste na aplicação de ajustes aos pesos e aos níveis de
bias. A cada apresentação de novo sinal de entrada ou iteração, a rede se torna mais instruída. O algoritmo de
treinamento define o procedimento usado para o ajuste dos valores, que levam as redes neurais a realizar as
funções desejadas. Outro componente importante é a taxa de aprendizagem, que controla a intensidade das
variações dos pesos. Quanto maior for o valor desse parâmetro, mais rápido será o treinamento. Porém, valores
excessivamente altos podem tornar a rede instável (Haykin, 2001).
Escolha do modelo
Neste trabalho, será utilizada uma rede do tipo Multilayer Perceptron (MLP), pois suas camadas intermediárias
possibilitam a aproximação de funções contínuas e não-lineares das entradas. A existência de apenas uma camada
permitiria somente a solução de problemas linearmente separáveis, ou seja, quando os padrões se encontram em
lados separados de um hiperplano (Haykin, 2001). O algoritmo de treinamento será o backpropagation, o mais
popular aplicado às redes MLP. Esse método consiste em um aprendizado supervisionado, em que são fornecidos os
valores de entrada e de saída. É realizado em duas etapas: a forward e a backward. Na primeira, a rede calcula os
valores de saída a partir dos dados de entrada. Na segunda, são atualizados os pesos associados a cada conexão
de acordo com as diferenças entre as saídas obtidas e as desejadas. Braga et al. (2000), Han e Kamber (2001) e
Haykin (2001) descrevem com detalhes o funcionamento do algoritmo de retro-propagação.
Figura 3 – Modelo de uma rede totalmente conectada e com
“alimentação adiante”
Com o objetivo de evitar o problema do overfitting – especialização da rede nos dados de treinamento
e perda da capacidade de generalização – será utilizado o mecanismo do early stopping. Os dados devem ser
divididos em três grupos: treinamento, validação e teste. O primeiro serve para que a rede seja treinada. Na
época do treinamento, é verificado se a precisão alcançada na previsão dos dados de validação também continua
93
ARTIGO TÉCNICO
melhorando. Quando isso não mais ocorre, é encontrado o ponto “ótimo” de treinamento e este é interrompido
ao verificar se a rede criada é capaz de solucionar os problemas da base de teste.
Escolha das variáveis e construção da rede
O modelo foi construído a partir de indicadores utilizados na análise técnica de investimentos e preços históricos do próprio ativo. As variáveis derivadas da análise técnica foram as médias móveis de três, dez e 20 dias,
o Índice de Força Relativo (IFR) e o Estocástico. Além destes, outras nove variáveis foram incluídas na pesquisa.
A Tabela 1 traz a lista completa.
Tabela 1 – Lista das variáveis utilizadas na construção do
modelo
Último preço de fechamento
Último preço de abertura
Último preço mínimo
Último preço máximo
Volume negociado
Média móvel de 20 dias
Média móvel de 10 dias
Média móvel de 3 dias
Tendência linear (6,5)
Tendência linear (11,10)
Tendência linear (7,5)
Tendência linear (12,10)
IFR
Estocástico
A variável “tendência linear” (x, n) é uma função que retorna x-ésimo valor ao longo de uma reta linear, traçada
por meio da aplicação do método dos mínimos quadrados sobre valores conhecidos. Em Kutsurelis (1998), esse
tipo de variável foi utilizado e os resultados finais foram satisfatórios. A saída da rede foi a média futura de três
dias do ativo, calculada por meio da média aritmética dos preços de fechamento da data atual, D + 1 e D + 2.
A construção da rede para a previsão da média futura foi feita por intermédio da Neural Network Toolbox,
do software Matlab. Os dados foram ordenados de forma randômica e divididos em três bases: treinamento,
validação e teste, com 70%, 10% e 20%, respectivamente. Para acelerar o treinamento, foram normalizados para
que ficassem sempre compreendidos entre 0 e 1.
A primeira rede foi construída com as 13 variáveis apresentadas na seção anterior. Após a exclusão de cada
variável de entrada, novas redes foram sendo construídas sucessivamente, com o objetivo de se obter um modelo
apenas com as entradas que colaborassem com uma melhor precisão da rede. Sendo assim, permaneceram no
modelo final somente aquelas que contribuíram para melhor precisão.
Optou-se por utilizar uma arquitetura com 32 neurônios na primeira camada oculta e 16 na segunda, mesmas
características usadas por Refenes et al. (1994). A função de ativação usada em todas as camadas intermediárias
foi a tangente hiperbólica. Na camada de saída, empregou-se a função logística sigmoidal. A taxa de aprendizado
usada nos treinamentos foi 0,07. Foi empregada a função de treinamento traingdm do software Matlab, que
implementa uma versão do algoritmo backpropagation com a inclusão do termo momentum. A comparação das
redes foi feita com base no Erro Quadrático Médio (EQM) de cada uma, obtido pela média dos quadrados das
diferenças entre a saída real e a saída prevista pela rede, conforme mostra a fórmula a seguir:
1 N
2
EQM =  ∑ (Cmi − Ct i ) 
 n i =1

Os treinamentos foram interrompidos em três situações: após 1.500 épocas, ao atingir um EQM igual a
10 ou em caso de ocorrência de early stopping. Após os testes de sensibilidade das variáveis, o modelo final foi
definido. Foram utilizadas apenas sete variáveis: o último preço de fechamento, as médias móveis dos últimos
dez e três dias e as quatro tendências lineares.
–5
94
ARTIGO TÉCNICO
Resultados
A precisão da rede pode ser verificada na Tabela 2.
Tabela 2 – Comparativo dos EQMs das bases utilizadas na
construção, validação e testes da rede
Base
Treinamento
Validação
Teste
Quantidade
de registros
Base (%)
EQM
721
103
70
10
1,0252
1,0447
208
20
0,3703
Também foram feitas comparações entre os modelos de médias móveis tradicionais, que funcionam com
base no cruzamento de médias passadas de diferentes tamanhos, e o modelo proposto no trabalho, que utiliza
o cruzamento de uma média passada e a média futura prevista pela rede. A determinação das operações de
compra e venda foram realizadas de acordo com as regras abaixo:
se média curta > média longa, compra
se média curta < média longa, venda
Por intermédio dessas regras, obteve-se o resultado apresentado na Tabela 3.
Tabela 3 – Comparativo de rentabilidade e quantidade de
negócios (quantas vezes houve o cruzamento das médias)
gerados pelos modelos construídos
Média longa
Média curta
Rentabilidade (%)
Quantidade de trades
50 dias
50 dias
20 dias
20 dias
10 dias
10 dias
3 dias
3 dias fut. (RN)
3 dias
3 dias fut. (RN)
3 dias
3 dias fut. (RN)
124,59
143,82
68,66
91,92
30,23
35,77
45
47
68
91
130
133
Não foram considerados os custos de transação, nem vendas a descoberto (as operações de venda só foram
realizadas quando havia ações na carteira). A rentabilidade do ativo foi de 99,63%.
A maior rentabilidade alcançada pelo modelo alternativo pode ser mais bem entendida na Figura 4.
95
ARTIGO TÉCNICO
Figura 4 – Modelo alternativo: antecipação ao modelo
tradicional de médias móveis na detecção de tendências de
preços
A Figura 4 mostra como o modelo alternativo consegue antecipar tendências que seriam detectadas
posteriormente pelo modelo convencional, composto apenas de médias passadas. No período selecionado, o
primeiro “ponto de antecipação” ocorre em 7 de dezembro de 2000. A média prevista cruza a média longa
para cima e detecta nova tendência de alta dois dias antes que a média dos últimos três dias. Isso gera ganho
de 4,62%, referente às altas de 3,76% em 7 de dezembro de 2000 e 0,83% em 8 de dezembro de 2000,
sobre o modelo tradicional. A segunda antecipação ocorre em 20 de dezembro de 2000. Dessa vez, a média
futura cruza a média de 50 dias para baixo e antecipa tendência de baixa, evitando perda de 1,29%, que
ocorreria caso o modelo tradicional tivesse sido utilizado. Nem todos os cruzamentos das médias foram claros
e nítidos como as do período destacado. Alguns erros na previsão da média futura geraram cruzamentos, que
dispararam sinais indevidos de compra e venda, sendo alguns deles rentáveis, outros não.
Conclusões
Este trabalho teve como objetivo aplicar a proposta de Mendelsohn (2000) para introduzir previsões
feitas por redes neurais em modelos baseados em médias móveis. Os resultados encontrados mostraram
que as redes neurais podem melhorar o desempenho desse tradicional modelo, utilizado com freqüência na
análise técnica de investimentos.
Tentativas para melhorar a precisão da rede podem ser realizadas com a inclusão de outras variáveis no
modelo, por exemplo, cotações do dólar, CDI (taxa livre de risco), Ibovespa e índices de outras bolsas de ações.
Outras tentativas válidas no sentido de minimizar, tanto o erro das previsões, como o tempo do treinamento,
podem ser feitas com a utilização de algoritmos voltados para criação de redes construtivas, em que a estrutura
é definida de forma dinâmica ao longo do treinamento (Braga et al., 2000).
96
ARTIGO TÉCNICO
Mendelsohn (2000) sugere também a criação de trading systems, que tomam decisões com base nas
saídas de várias redes neurais integradas. Dentre as previsões das redes que podem ser usadas no apoio à
decisão, estão os preços mínimos e máximos do dia seguinte, além das médias futuras.
Bibliografia
AMILON, Henrik. A Neural Network Versus Black and Scholes: A Comparison of Pricing and Hedging Performances. Journal of Forecasting, vol. 22, pp. 317–335, 2003.
AZOFF, E. M. Neural Network Time Series Forecasting of Financial Markets. Chicester, John Wiley & Sons Ltd.,
Baffins Lane, 1994.
BRAGA, A.; CARVALHO, A.; LUDERMIR, T. Redes Neurais Artificiais: Teoria e Aplicações. Livros técnicos e
científicos, Rio de Janeiro, 2000.
CHEH, John J.; WEINBERG, Randy S. An Application of an Artificial Neural Network Investment System to
Predict Takeover Targets. Journal of Applied Business Research, vol. 15 Issue 4, p.33, 1999.
CYBENKO, G. Aproximation by Superpositions of a Sigmoidal Function. Math. Control Signal Systems, pp.
304–314, 1989.
DAMODARAN, Aswath. Avaliação de Investimentos: Ferramentas e Técnicas para a Determinação de Qualquer
Ativo. Rio de Janeiro: Qualitymark, 1999.
FERRACINI, Márcio. Stop! Estratégia de Proteção para Mercados de Risco. Monografia, Faculdade de Administração da IBMEC, Rio de Janeiro, 1999.
FREITAS, Sander Oliveira de; SOUZA, Artur Antônio de. Utilização de um Modelo Baseado em Redes Neurais
para a Precificação de Opções. ENANPAD, 2002.
HAN, Jiawei; KAMBER, Micheline. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2001.
HAYKIN, Simon. Redes Neurais – Princípios e Práticas. Porto Alegre: Bookman, 2001.
HUTCHINSON, J.; LO, A.; POGGIO, T. A Nonparametric Approach to Pricing and Hedging Derivative Securities
Via Learning Networks. Journal of Finance, 49, pp. 851–889, 1994.
KAUFMAN, Perry J. Trading Systems and Methods. John Wiley & Sons, 1998.
KUTSURELIS, Jason E. Forecasting Financial Markets Using Neural Networks: an Analysis of Methods and
Accuracy. Thesis–Master of Science in Management, Naval Postgraduate School, 1998.
MENDELSOHN, Louis B. Trend Forecasting with Technical Analysis. Marketplace Books, 2000.
REFENES, A.N.; ZAPRANIS, A.; Francis, G. Stock Performance Modeling Using Neural Networks: a Comparative
Study with Regression Models, vol. 7, nº 2, pp. 375–388, 1994.
YAO, J.; TAN, C. L. Option Price Forecasting Using Neural Networks. Omega, vol. 28, pp. 455–466, 2000.
Marcelo França Corrêa
é doutorando em Engenharia Elétrica pela PUC–RJ. E-mails: [email protected].
Gerson Lachtermacher
é Ph.D. pela University of Waterloo, Ontario, Canadá. E-mail: [email protected].
Maria Augusta Soares Machado
é pós-doutora em Inteligência Computacional Aplicada pela PUC–RJ. E-mail: [email protected].
97