Estudo sobre sensatez na escolha do erro máximo que se pode

Transcrição

Estudo sobre sensatez na escolha do erro máximo que se pode
ESTUDO SOBRE ESCOLHA DO ERRO MÁXIMO ADMITIDO
NAS PREVISÕES PARA 5 ANOS DA CARGA DO SISTEMA
ELÉTRICO NACIONAL.
*IVAIR RAMOS SILVA1, **SIMY LASSEN DOS REIS
*ALUNO DO CURSO DE ESTATÍSTICA DA UNIVERSIDADE FEDERAL DE
MINAS GERAIS, ESTAGIÁRIO DA COMPANHIA ENERGÉTICA DE MINAS GERAIS;
**ALUNA DO CURSO DE ESTATÍSTICA DA UNIVERSIDADE FEDERAL DE
MINAS GERAIS, ESTAGIÁRIA DA COMPANHIA ENERGÉTICA DE MINAS GERAIS.
1- RESUMO
Segundo a lei provisória n° 144 - 10 Dez-2003, as concessionárias de
energia elétrica brasileiras serão penalizadas caso a totalização de suas projeções
para 5 anos da carga de energia elétrica gerem erros fora do intervalo de 0% a 3%. A
preocupação em estudar a adequação desse limite de erro à variabilidade da taxa de
crescimento da carga, motivou o desenvolvimento desse estudo, que busca
desenvolver uma metodologia probabilística que diga se 3% é um bom limite, uma
vez que, por melhor que seja um modelo de projeção, deve-se aceitar um erro
intrínseco à natureza aleatória da série de carga.
Para isso usou-se um método de reamostragem, conceitos de teoria das
probabilidades e inferência Bayesiana. Após acessar a distribuição de probabilidades
do erro de previsão de carga do Sistema Elétrico Nacional, no horizonte de 5 anos,
verificou-se que o erro médio mensal é de 5,5%, e que a probabilidade da média do
erro ultrapassar 5% é de aproximadamente de 0,85.
Também foi possível mostrar que certos tamanhos de erro serão cometidos
inevitavelmente, por melhor que sejam os métodos de previsão.
2- ABSTRACT
According to the provisory law number 144 – Dec-2003, the Brazilians electric
energy concessionaires will be penalized if the projections for the next 5 years of
electric charge deviate over 3%. The purpose of this study is to test if this 3%
deviation is adequate according to the variability structure of the electric charge’s
growth rate since an intrinsic error must be accepted. This occurs because of the
random nature of the charge variable.
The methods used were the resampling, concepts of the probability theory
and Bayesian inference. The result of this study was an average monthly error of
5.5% with the probability of 0.85 of this deviation exceed 5%.
It was also shown that, inevitably, some amount of errors will be made even if
the methods used are the best.
1
O conteúdo deste artigo expressa somente a opinião do autor
3- INTRODUÇÃO
Em dezembro de 2003, o Ministério de Minas e Energia (MME) lançou o
“modelo Institucional do Setor Elétrico”, e um de seus mecanismos usados para
garantir a segurança do suprimento de energia elétrica é penalizar as
concessionárias, caso o resultante com suas projeções para carga do Sistema
Elétrico Nacional, no horizonte de 5 anos, gerem desvios fora do intervalo de 0% a
3%.
A dúvida então que surge é: Será que 3% é um número coerente com o que
se pode exigir de erro no contexto de projeção?
Percebe-se que no fundo o problema é estipular uma cota máxima de erro
que se pode cometer nas previsões de carga de energia elétrica, e para isso, é
indispensável considerar quanto desse erro é conseqüência puramente da natureza
aleatória da série, independente da qualidade do recurso utilizado para gerar as
previsões, caso contrário não saberemos se a penalidade poderá ser evitada se
estivermos de posse de modelos razoavelmente eficientes.
A quantidade com que se erra na previsão do resultado de uma variável
aleatória qualquer seja ela uma série temporal ou não, dependerá do quão grande é
sua variabilidade. Mesmo que toda informação de dependência dessa variável seja
retirada, e sua média real passe então a ser conhecida, o resultado futuro para o
valor que essa variável assumirá, terá desvio em relação à sua média, com
determinada magnitude que acompanha sua variância.
4- DEFINIÇÕES E FERRAMENTAS USADAS NO ESTUDO.
Visando tornar mais clara a leitura, de modo a facilitar o entendimento do
texto, foram colocados aqui alguns detalhes sobre os cálculos feitos e conceitos
adotados.
¾ ESTIMADOR BOOTSTRAP
Suponha que tenhamos y1 , y 2 ,..., y n , iid (independentes e identicamente
distribuídos) e seja θ um parâmetro associado a distribuição dos y i ' s que são
utilizados para o cálculo de θˆ , onde θˆ é um estimador de θ .
Suponha que selecionamos uma a.a. (amostra aleatória) de tamanho n, com
reposição, do conjunto ( y1 , y 2 ,..., y n ). Esta amostra é denotada por
(y
)
, y 21 ,..., y n = y Bi .
Suponha que façamos isto B vezes de forma independente. No final, teremos
*
B amostras y Bi que chamaremos de amostras Bootstrap.
Seja , onde θˆ * é o estimador θˆ calculado com a amostra bootstrap i, isto é,
*
*
*
11
(
*
y Bi = y , y ,..., y
*
*
1i
*
2i
*
ni
*
).
i
Então, θ é chamado de estimador bootstrap de θ .
¾
INFERÊNCIA BAYESIANA.
Considere que um conjunto de dados observados y , possua distribuição
dependente do parâmetro θ ( e possivelmente de covariáveis tais como:
X 1 , X 2 ,..., X K ; que serão tratadas como constantes conhecidas ).
•
Notação utilizada: f ( y | θ )
Deve-se saber que o parâmetro θ é constante desconhecida. Coloca-se
então, distribuição de probabilidade sobre os possíveis valores de θ .
Se θ ∈ Θ ( Θ = Espaço Paramétrico), temos p(θ ) = Distribuição a Priori.
O Método Bayesiano, usa o Teorema de Bays para calcular a Distribuição da
Posteriori de θ condicionada aos valores observados de y . Toda inferência feita
sobre θ será baseada nesta distribuição a Posteriori.
•
Cálculo da Posteriori:
O cálculo da Posteriori usa o Teorema de Bayes em termos de densidades
(ou funções de probabilidade caso y seja uma variável aleatória discreta).
f (θ | y ) =
f ( y | θ ) f (θ )
f (y)
; onde f ( y ) é a densidade marginal de y .Isto é;
f ( y ) = ∫ f ( y,θ ) dθ = ∫ f ( y | θ ) f (θ ) dθ
Θ
θ
Assim f ( y ) não depende de θ , é função apenas de y , por isto, podemos
escrever que f (θ | y ) ∝ f ( y | θ ) f (θ )
A distribuição a Posteriori é proporcional à verossimilhança f ( y | θ ) f (θ ) . Na
prática, apenas em problemas extremamente simples, o cálculo exato da posteriori
pode ser feito. Na maioria dos casos é necessário usar MCMC (Winbugs) para obter
a posteriori (na verdade, uma amostra da posteriori).
¾ METODOLOGIA PARA CÁLCULO DO ERRO DE PREVISÃO.
Neste artigo chamou-se de erro a diferença entre o valor verificado de toda
carga do Sistema Elétrico Brasileiro, Dados dos Planos de Operação de 1991 a
1996, e o valor obtido pela soma das projeções de carga elétrica produzidas por
todas as concessionárias brasileiras, nesta ordem.
Para o cálculo dos erros, foram utilizadas as projeções de mercado para os
Planos Decenais de Expansão, elaborados anualmente pelo antigo GCPS (Grupo
Coordenador do Planejamento do Sistema Elétrico), analisando os ciclos de
planejamento de 1991 a 1996.
Para facilitar a fluência do texto e visando não torná-lo pedante, estará
subentendido que todas as vezes que se falar em erro de previsão estaremos
tratando do erro de previsão, para 5 anos, da carga de energia elétrica Brasileira.
¾ Conceito de carga.
Quando for usada a palavra carga, estará subtendido que se trata de Carga
do Sistema Elétrico Nacional, consumo total mais perdas.
Os dados utilizados para estudo referem-se à série de carga verificada pelo
Sistema Elétrico Nacional, no período Jan/91-Abr/2001.
Obs: O interesse do estudo é voltado ao comportamento da variabilidade da
taxa de crescimento da carga anual, mas utilizou-se os dados mensais. A justificativa
para isso é que os dados mensais oferecem uma série maior. Então, a partir da
estimativa de variância para a taxa mensal pode-se inferir sobre a variabilidade da
taxa anual da seguinte forma:
Quando estamos de posse de uma seqüência de variáveis aleatórias,
independentes, sabe-se que a variância da média aritmética dessas variáveis é igual
à soma das variâncias, dividida pelo quadrado do número de variáveis envolvidas.
¾ Taxa de crescimento da carga.
Foi definido como taxa de crescimento mensal a razão entre o valor da carga
do Sistema Elétrico Brasileiro de um mês e a do mesmo mês no ano anterior.
5- MODELO DE PROBABILIDADE PARA A MÉDIA DO ERRO DE PREVISÃO.
Caso alguém se interesse em estabelecer critérios para escolha sensata do
erro máximo a ser admitido nas previsões de carga de 5 anos, uma forma coerente é
estudar sua distribuição de probabilidades. Assim pode-se ter uma idéia sobre a
freqüência com que determinados erros podem ocorrer em certo número de
previsões, e estipular seu valor esperado. Apesar de interessante, esse tipo de
estudo não devolve informações conclusivas, pois a forma com que os desvios de
projeção aconteceram, ou seja, sua distribuição de probabilidades, não tem uma
“cara” definida, e é bem irregular.
A figura 1 mostra a freqüência relativa com que cada faixa de erro ocorreu,
veja como a distribuição das ocorrências é assimétrica.
10
0
5
Density
15
Histogram of erro
0.00
0.02
0.04
0.06
erro
0.08
0.10
0.12
Figura 1- Distribuição de freqüência relativa para o erro de previsão de carga
Uma maneira de contornar esse problema é, ao invés de trabalhar com a
distribuição do erro e a partir dela estimar seu valor esperado, pode-se tentar estimar
a distribuição de probabilidades desse valor esperado, quantificando a confiança a
cerca desse valor, estabelecendo para ele uma faixa de variação, intervalo de
confiança, este por sua vez construído seguindo uma exigência de certeza. Aqui foi
usada uma confiança de 95%.
Com o método Bootstrap, GIBBONS (1985), pode-se acessar a distribuição
de probabilidade da média do erro percentual de previsão, usando os erros
cometidos pelas previsões de carga feitas nos períodos 1991-1996, para os meses
Jan/1996-Abril/2001.
Usou-se um número consideravelmente grande de reamostragens, visando
obter uma estimativa consistente.
O quadro 1 mostra as estimativas para média e desvio padrão do erro médio.
É importante lembrar que a variável modelada é a média do erro, e não o erro.
Tabela 1- Estatísticas resumo para a distribuição da média de erro da carga
Mínimo 1° Quartil Mediana Média 3° Quartil
0.03521 0.05189 0.05542 0.05523 0.05870
Máximo Desvio pdrão
0.07099
0.00502
I.C à 95%
[0,04529 ; 0,06493]
Veja que o valor mínimo estimado para a média do erro é aproximadamente
de 3.5%, enquanto que a média e a mediana estimadas são praticamente
coincidentes, próximas de 5.5%.
A extensão deste resultado para os dias atuais, ou para os próximos anos,
deve ser feita com cuidado, uma vez que isso só fará sentido se a comparação dos
agentes geradores do erro, como por exemplo, as metodologias de projeção das
concessionárias, e sua eficiência, forem razoáveis. De qualquer forma esses
números nos dão uma boa idéia sobre a magnitude do erro e seu comportamento.
A vantagem de inferir na distribuição da média é que podemos aferir sobre a
chance de um determinado erro. Isto pode ser feito pelo método dos percentis,
GIBBONS (1985). A figura 2 ilustra a densidade do parâmetro média.
Histograma para Erro médio
80
60
De
nsi 40
ty
20
0
0.04
0.05
0.06
0.07
Erromédio
Figura 2- Densidade para o erro médio nas previsões de carga do Sistema Elétrico Nacional.
Pode-se ver que a densidade da variável “média” oferece massa
concentrada em torno de 0,055. A curva cai rapidamente, quase que de maneira
simétrica, atribuindo pouca massa aos valores extremos. A tabela 2 mostra as
probabilidades estimadas para determinados erros.
Tabela 2- Estimativas de probabilidade para a média de erro na previsão de carga.
MÉDIA DO ERRO PROBABILIDADE
0,9999
≥1%
0,9999
≥2%
0,9999
≥3%
0,999
≥4%
0,8539
≥5%
0,1775
≥6%
0,0004
≥7%
0
≥8%
0
≥9%
0
≥10%
De fato as probabilidades vão rapidamente para os limites, 1 ou 0, à medida
com que se afasta do valor médio estimado da distribuição da média do erro.
6- ESCOLHA DO ERRO DE PROJEÇÃO ADMISSÍVEL
Depois de ter sido estimada a distribuição de probabilidades para a média
dos erros, pode-se querer verificar quanto desse erro é causado pela característica
de variabilidade da série de carga. Ou melhor, dado que se cometeu determinado
erro, separar a probabilidade desse ter sido causado apenas pela natureza aleatória.
Como fora comentado antes, a escolha do erro máximo a ser admitido nas
projeções de carga deve considerar a estrutura de variação desta, pois não é apenas
intuitivo, mas também probabilisticamente provado que o tamanho dos desvios em
torno da média de qualquer variável aleatória acompanha sua variância.
,14
,13
,12
,11
Erro percentual
,10
,09
,08
,07
,06
,05
,04
,03
,02
,01
0, 00
1996
1997
1998
1999
2000
2001
ANO
Figura 3- Erro de projeção 5 anos, período 1991-1996
Tabela 2- Variância da taxa de crescimento da carga Brasil
ANO
VARIÂNCIA
1996
0,0002985
1997
0,0001094
1998
0,0005337
1999
0,000141
2000
0,0002391
2001
0,0001017
Analisando conjuntamente a figura 3 e a tabela 3 vemos que os maiores
erros cometidos tendem a acontecer nos períodos de maior variabilidade na taxa de
crescimento da carga.
Para entender isso intuitivamente basta seguir o seguinte raciocínio:
Suponha que o sucesso de um modelo de projeção, para uma variável
aleatória qualquer, só será admitido caso produza projeções com erros exatamente
iguais a zero. O sucesso neste caso é um evento praticamente impossível de
ocorrer, ou seja, de probabilidade aproximadamente nula, pois o grau de acerto que
se exige é incompatível com a própria natureza da variável aleatória modelada, e
isso é muito intuitivo.
Se a imposição mudar, e tal sucesso for considerado aceitando-se
determinado erro, maiores serão as chances de que ocorra sucesso a partir do
“chute” que o modelo proporcionará. Então as probabilidades de sucesso serão cada
vez maiores, a medida com que se aceita maiores erros.
Esta idéia pode ser expressa segundo teoria em probabilidades através da
desigualdade de Tchebychev, BARRY(2002), expressão 1, que estabelece uma cota
superior para a probabilidade de uma determinada diferença entre o valor esperado
de uma variável aleatória e o resultado de um experimento pontual. Para fazer isto
usando a desigualdade é necessário apenas especificar esse desvio(erro) e a
variância da variável aleatória, sem que seja necessário estar de posse da
distribuição de probabilidade da variável.
Portanto, a probabilidade máxima do fracasso de um modelo (definindo
fracasso como: Desvio maior que o aceitável) é dominada pela variância da variável
aleatória, pois, os modelos de previsão procuram acertar os valores esperados da
variável aleatória.
(1) P(|x-E (x)| ≥ ε) ≤ σ²/ε²
Onde:
x = Variável aleatória em estudo;
σ²= Variância da variável aleatória de interesse;
E(X) = Valor Esperado ou Média real da variável aleatória.
Com esse raciocínio pode-se elaborar uma metodologia para escolha do erro
máximo que se deve admitir às projeções. Consiste basicamente em estudar o limite
para a magnitude do erro, de modo a ser considerada conseqüência da natureza
aleatória dos dados de Carga. Para que este limite seja estipulado, é necessário
decidir o que seria uma probabilidade pequena de que esse erro seja proveniente da
característica estocástica, e então aceitar que o desvio é gerado em maior parte pelo
modelo, e não pela estrutura de variabilidade da série.
Para iniciar a investigação por que erro escolher, é necessário que se tenha
em “mãos” uma boa estimativa da média e da variância da taxa de crescimento da
Carga. O interesse do estudo é voltado para os erro do ano, portanto, a variância da
taxa de crescimento anual da carga será obtida a partir da estimativa para
variabilidade mensal.
Usou-se inferência Bayesiana para fazer as estimativas de média e
variância., pois o objetivo é estimar valores que não sejam baseados apenas nos
dados empíricos, que podem não refletir fielmente a informação para o futuro da
variável, mas também levar em conta a experiência e tato dos profissionais que
trabalham e estudam sobre o assunto. Optou-se por entrevistar profissionais ligados
ao setor de projeção da CEMIG, e a partir daí escolheu-se a priori a ser usada para a
média, igual a 4%.
A distribuição à posteriori obtida retornou um valor de taxa média de
crescimento igual a 4,5%, e variância 0,2%. Sendo assim a variância anual é de
aproximadamente 0,0166%. Para tentar agir intuitivamente sobre o porque da
variância anual ser menor que a mensal, basta perceber que os desvios cometidos
durante os meses se compensam durante o ano, e assim o desvio em torno da
média é reduzido.
Aplicando a desigualdade de Tchebychev pode-se calcular as probabilidades
de determinado desvio de previsão ser gerado unicamente pela variabilidade da
série.
A tabela 4 mostra possíveis erros de previsão, e as respectivas cotas
superiores para as probabilidades desses erros terem vindo puramente da estrutura
de variabilidade da série.
Tabela 4- Cota superior para a probabilidade de erro devido obra do acaso
COTA PARA A PROBABILIDADE ERRO ASSOCIADO
0,05
5,25%
0,1
3,91%
0,15
3,19%
0,2
2,76%
0,25
2,47%
0,3
2,26%
Veja que um erro de 3% tem uma chance considerável de ocorrer,
aproximadamente 0.15, mesmo que o método de projeção seja impecável. Ou seja,
usando a informação do tópico 4, sabe-se que aproximadamente 85% dos erros vão
ultrapassar a 5%, e usando a informação da tabela 4, sabe-se que 15% desses 85%
serão inevitáveis, independentemente da qualidade do método de previsão.
6- CONCLUSÕES
Com o uso do método Bootstrap pôde-se estimar a distribuição de
probabilidades associada à média do desvio de projeção de carga do Sistema
Elétrico Nacional. Verificou-se que a média do desvio tende a ser de
aproximadamente 5.5%, sendo que com 95% de chance ela pode oscilar entre
4.53% e 6.5%. Além disso, checou-se que 85% das vezes a média estará acima de
5% e 99% acima de 3%, e destas, espera-se que 15% aconteçam devido à
característica estocástica da carga. Portanto, conclui-se que um erro acima de 3%
para as previsões de carga de 5 anos acontecerá um grande número de vezes, e
destas 15% serão causadas puramente pelo fator estocástico, ou seja, espera-se
que 3 erros a cada 20 projeções, ultrapassem 3%, independentemente da eficiência
dos métodos de previsão para carga.
7. REFERÊNCIAS BIBLIOGRÁFICAS BÁSICAS:
GIBBONS, J. D. Nonparametric methods for quantitative analysis. 2ª ed. Columbus: Am. Sci.
P., Inc, 1985.
JAMES, Barry R. Probabilidade: Um Curso em Nível Intermediário. 2ª ed. Associação
Instituto Nacional de Matemática Pura e Aplicada: Rio de Janeiro, 2002.
GAMERMAN, D. e Migon, H.S. (1993). Inferência estatística: uma abordagem integrada.
Textos de Métodos Matemáticos do Instituto de Matemática, UFRJ.
O’HAGAN, A. (1994). Bayesian inference. Volume 2B da série Kendall’s
Advanced Theory of Statistics. Cambridge: Edward Arnold.

Documentos relacionados

Apostila para os cursos de Estatística (Versão 1)

Apostila para os cursos de Estatística (Versão 1) 1.1.2 Tabela de frequências para uma variável qualitativa nominal 1.2 Gráficos associados a uma variável qualitativa nominal . . . . . . . 1.2.1 Gráfico de barras . . . . . . . . . . . . . . . . . ...

Leia mais