Estudo sobre sensatez na escolha do erro máximo que se pode
Transcrição
Estudo sobre sensatez na escolha do erro máximo que se pode
ESTUDO SOBRE ESCOLHA DO ERRO MÁXIMO ADMITIDO NAS PREVISÕES PARA 5 ANOS DA CARGA DO SISTEMA ELÉTRICO NACIONAL. *IVAIR RAMOS SILVA1, **SIMY LASSEN DOS REIS *ALUNO DO CURSO DE ESTATÍSTICA DA UNIVERSIDADE FEDERAL DE MINAS GERAIS, ESTAGIÁRIO DA COMPANHIA ENERGÉTICA DE MINAS GERAIS; **ALUNA DO CURSO DE ESTATÍSTICA DA UNIVERSIDADE FEDERAL DE MINAS GERAIS, ESTAGIÁRIA DA COMPANHIA ENERGÉTICA DE MINAS GERAIS. 1- RESUMO Segundo a lei provisória n° 144 - 10 Dez-2003, as concessionárias de energia elétrica brasileiras serão penalizadas caso a totalização de suas projeções para 5 anos da carga de energia elétrica gerem erros fora do intervalo de 0% a 3%. A preocupação em estudar a adequação desse limite de erro à variabilidade da taxa de crescimento da carga, motivou o desenvolvimento desse estudo, que busca desenvolver uma metodologia probabilística que diga se 3% é um bom limite, uma vez que, por melhor que seja um modelo de projeção, deve-se aceitar um erro intrínseco à natureza aleatória da série de carga. Para isso usou-se um método de reamostragem, conceitos de teoria das probabilidades e inferência Bayesiana. Após acessar a distribuição de probabilidades do erro de previsão de carga do Sistema Elétrico Nacional, no horizonte de 5 anos, verificou-se que o erro médio mensal é de 5,5%, e que a probabilidade da média do erro ultrapassar 5% é de aproximadamente de 0,85. Também foi possível mostrar que certos tamanhos de erro serão cometidos inevitavelmente, por melhor que sejam os métodos de previsão. 2- ABSTRACT According to the provisory law number 144 – Dec-2003, the Brazilians electric energy concessionaires will be penalized if the projections for the next 5 years of electric charge deviate over 3%. The purpose of this study is to test if this 3% deviation is adequate according to the variability structure of the electric charge’s growth rate since an intrinsic error must be accepted. This occurs because of the random nature of the charge variable. The methods used were the resampling, concepts of the probability theory and Bayesian inference. The result of this study was an average monthly error of 5.5% with the probability of 0.85 of this deviation exceed 5%. It was also shown that, inevitably, some amount of errors will be made even if the methods used are the best. 1 O conteúdo deste artigo expressa somente a opinião do autor 3- INTRODUÇÃO Em dezembro de 2003, o Ministério de Minas e Energia (MME) lançou o “modelo Institucional do Setor Elétrico”, e um de seus mecanismos usados para garantir a segurança do suprimento de energia elétrica é penalizar as concessionárias, caso o resultante com suas projeções para carga do Sistema Elétrico Nacional, no horizonte de 5 anos, gerem desvios fora do intervalo de 0% a 3%. A dúvida então que surge é: Será que 3% é um número coerente com o que se pode exigir de erro no contexto de projeção? Percebe-se que no fundo o problema é estipular uma cota máxima de erro que se pode cometer nas previsões de carga de energia elétrica, e para isso, é indispensável considerar quanto desse erro é conseqüência puramente da natureza aleatória da série, independente da qualidade do recurso utilizado para gerar as previsões, caso contrário não saberemos se a penalidade poderá ser evitada se estivermos de posse de modelos razoavelmente eficientes. A quantidade com que se erra na previsão do resultado de uma variável aleatória qualquer seja ela uma série temporal ou não, dependerá do quão grande é sua variabilidade. Mesmo que toda informação de dependência dessa variável seja retirada, e sua média real passe então a ser conhecida, o resultado futuro para o valor que essa variável assumirá, terá desvio em relação à sua média, com determinada magnitude que acompanha sua variância. 4- DEFINIÇÕES E FERRAMENTAS USADAS NO ESTUDO. Visando tornar mais clara a leitura, de modo a facilitar o entendimento do texto, foram colocados aqui alguns detalhes sobre os cálculos feitos e conceitos adotados. ¾ ESTIMADOR BOOTSTRAP Suponha que tenhamos y1 , y 2 ,..., y n , iid (independentes e identicamente distribuídos) e seja θ um parâmetro associado a distribuição dos y i ' s que são utilizados para o cálculo de θˆ , onde θˆ é um estimador de θ . Suponha que selecionamos uma a.a. (amostra aleatória) de tamanho n, com reposição, do conjunto ( y1 , y 2 ,..., y n ). Esta amostra é denotada por (y ) , y 21 ,..., y n = y Bi . Suponha que façamos isto B vezes de forma independente. No final, teremos * B amostras y Bi que chamaremos de amostras Bootstrap. Seja , onde θˆ * é o estimador θˆ calculado com a amostra bootstrap i, isto é, * * * 11 ( * y Bi = y , y ,..., y * * 1i * 2i * ni * ). i Então, θ é chamado de estimador bootstrap de θ . ¾ INFERÊNCIA BAYESIANA. Considere que um conjunto de dados observados y , possua distribuição dependente do parâmetro θ ( e possivelmente de covariáveis tais como: X 1 , X 2 ,..., X K ; que serão tratadas como constantes conhecidas ). • Notação utilizada: f ( y | θ ) Deve-se saber que o parâmetro θ é constante desconhecida. Coloca-se então, distribuição de probabilidade sobre os possíveis valores de θ . Se θ ∈ Θ ( Θ = Espaço Paramétrico), temos p(θ ) = Distribuição a Priori. O Método Bayesiano, usa o Teorema de Bays para calcular a Distribuição da Posteriori de θ condicionada aos valores observados de y . Toda inferência feita sobre θ será baseada nesta distribuição a Posteriori. • Cálculo da Posteriori: O cálculo da Posteriori usa o Teorema de Bayes em termos de densidades (ou funções de probabilidade caso y seja uma variável aleatória discreta). f (θ | y ) = f ( y | θ ) f (θ ) f (y) ; onde f ( y ) é a densidade marginal de y .Isto é; f ( y ) = ∫ f ( y,θ ) dθ = ∫ f ( y | θ ) f (θ ) dθ Θ θ Assim f ( y ) não depende de θ , é função apenas de y , por isto, podemos escrever que f (θ | y ) ∝ f ( y | θ ) f (θ ) A distribuição a Posteriori é proporcional à verossimilhança f ( y | θ ) f (θ ) . Na prática, apenas em problemas extremamente simples, o cálculo exato da posteriori pode ser feito. Na maioria dos casos é necessário usar MCMC (Winbugs) para obter a posteriori (na verdade, uma amostra da posteriori). ¾ METODOLOGIA PARA CÁLCULO DO ERRO DE PREVISÃO. Neste artigo chamou-se de erro a diferença entre o valor verificado de toda carga do Sistema Elétrico Brasileiro, Dados dos Planos de Operação de 1991 a 1996, e o valor obtido pela soma das projeções de carga elétrica produzidas por todas as concessionárias brasileiras, nesta ordem. Para o cálculo dos erros, foram utilizadas as projeções de mercado para os Planos Decenais de Expansão, elaborados anualmente pelo antigo GCPS (Grupo Coordenador do Planejamento do Sistema Elétrico), analisando os ciclos de planejamento de 1991 a 1996. Para facilitar a fluência do texto e visando não torná-lo pedante, estará subentendido que todas as vezes que se falar em erro de previsão estaremos tratando do erro de previsão, para 5 anos, da carga de energia elétrica Brasileira. ¾ Conceito de carga. Quando for usada a palavra carga, estará subtendido que se trata de Carga do Sistema Elétrico Nacional, consumo total mais perdas. Os dados utilizados para estudo referem-se à série de carga verificada pelo Sistema Elétrico Nacional, no período Jan/91-Abr/2001. Obs: O interesse do estudo é voltado ao comportamento da variabilidade da taxa de crescimento da carga anual, mas utilizou-se os dados mensais. A justificativa para isso é que os dados mensais oferecem uma série maior. Então, a partir da estimativa de variância para a taxa mensal pode-se inferir sobre a variabilidade da taxa anual da seguinte forma: Quando estamos de posse de uma seqüência de variáveis aleatórias, independentes, sabe-se que a variância da média aritmética dessas variáveis é igual à soma das variâncias, dividida pelo quadrado do número de variáveis envolvidas. ¾ Taxa de crescimento da carga. Foi definido como taxa de crescimento mensal a razão entre o valor da carga do Sistema Elétrico Brasileiro de um mês e a do mesmo mês no ano anterior. 5- MODELO DE PROBABILIDADE PARA A MÉDIA DO ERRO DE PREVISÃO. Caso alguém se interesse em estabelecer critérios para escolha sensata do erro máximo a ser admitido nas previsões de carga de 5 anos, uma forma coerente é estudar sua distribuição de probabilidades. Assim pode-se ter uma idéia sobre a freqüência com que determinados erros podem ocorrer em certo número de previsões, e estipular seu valor esperado. Apesar de interessante, esse tipo de estudo não devolve informações conclusivas, pois a forma com que os desvios de projeção aconteceram, ou seja, sua distribuição de probabilidades, não tem uma “cara” definida, e é bem irregular. A figura 1 mostra a freqüência relativa com que cada faixa de erro ocorreu, veja como a distribuição das ocorrências é assimétrica. 10 0 5 Density 15 Histogram of erro 0.00 0.02 0.04 0.06 erro 0.08 0.10 0.12 Figura 1- Distribuição de freqüência relativa para o erro de previsão de carga Uma maneira de contornar esse problema é, ao invés de trabalhar com a distribuição do erro e a partir dela estimar seu valor esperado, pode-se tentar estimar a distribuição de probabilidades desse valor esperado, quantificando a confiança a cerca desse valor, estabelecendo para ele uma faixa de variação, intervalo de confiança, este por sua vez construído seguindo uma exigência de certeza. Aqui foi usada uma confiança de 95%. Com o método Bootstrap, GIBBONS (1985), pode-se acessar a distribuição de probabilidade da média do erro percentual de previsão, usando os erros cometidos pelas previsões de carga feitas nos períodos 1991-1996, para os meses Jan/1996-Abril/2001. Usou-se um número consideravelmente grande de reamostragens, visando obter uma estimativa consistente. O quadro 1 mostra as estimativas para média e desvio padrão do erro médio. É importante lembrar que a variável modelada é a média do erro, e não o erro. Tabela 1- Estatísticas resumo para a distribuição da média de erro da carga Mínimo 1° Quartil Mediana Média 3° Quartil 0.03521 0.05189 0.05542 0.05523 0.05870 Máximo Desvio pdrão 0.07099 0.00502 I.C à 95% [0,04529 ; 0,06493] Veja que o valor mínimo estimado para a média do erro é aproximadamente de 3.5%, enquanto que a média e a mediana estimadas são praticamente coincidentes, próximas de 5.5%. A extensão deste resultado para os dias atuais, ou para os próximos anos, deve ser feita com cuidado, uma vez que isso só fará sentido se a comparação dos agentes geradores do erro, como por exemplo, as metodologias de projeção das concessionárias, e sua eficiência, forem razoáveis. De qualquer forma esses números nos dão uma boa idéia sobre a magnitude do erro e seu comportamento. A vantagem de inferir na distribuição da média é que podemos aferir sobre a chance de um determinado erro. Isto pode ser feito pelo método dos percentis, GIBBONS (1985). A figura 2 ilustra a densidade do parâmetro média. Histograma para Erro médio 80 60 De nsi 40 ty 20 0 0.04 0.05 0.06 0.07 Erromédio Figura 2- Densidade para o erro médio nas previsões de carga do Sistema Elétrico Nacional. Pode-se ver que a densidade da variável “média” oferece massa concentrada em torno de 0,055. A curva cai rapidamente, quase que de maneira simétrica, atribuindo pouca massa aos valores extremos. A tabela 2 mostra as probabilidades estimadas para determinados erros. Tabela 2- Estimativas de probabilidade para a média de erro na previsão de carga. MÉDIA DO ERRO PROBABILIDADE 0,9999 ≥1% 0,9999 ≥2% 0,9999 ≥3% 0,999 ≥4% 0,8539 ≥5% 0,1775 ≥6% 0,0004 ≥7% 0 ≥8% 0 ≥9% 0 ≥10% De fato as probabilidades vão rapidamente para os limites, 1 ou 0, à medida com que se afasta do valor médio estimado da distribuição da média do erro. 6- ESCOLHA DO ERRO DE PROJEÇÃO ADMISSÍVEL Depois de ter sido estimada a distribuição de probabilidades para a média dos erros, pode-se querer verificar quanto desse erro é causado pela característica de variabilidade da série de carga. Ou melhor, dado que se cometeu determinado erro, separar a probabilidade desse ter sido causado apenas pela natureza aleatória. Como fora comentado antes, a escolha do erro máximo a ser admitido nas projeções de carga deve considerar a estrutura de variação desta, pois não é apenas intuitivo, mas também probabilisticamente provado que o tamanho dos desvios em torno da média de qualquer variável aleatória acompanha sua variância. ,14 ,13 ,12 ,11 Erro percentual ,10 ,09 ,08 ,07 ,06 ,05 ,04 ,03 ,02 ,01 0, 00 1996 1997 1998 1999 2000 2001 ANO Figura 3- Erro de projeção 5 anos, período 1991-1996 Tabela 2- Variância da taxa de crescimento da carga Brasil ANO VARIÂNCIA 1996 0,0002985 1997 0,0001094 1998 0,0005337 1999 0,000141 2000 0,0002391 2001 0,0001017 Analisando conjuntamente a figura 3 e a tabela 3 vemos que os maiores erros cometidos tendem a acontecer nos períodos de maior variabilidade na taxa de crescimento da carga. Para entender isso intuitivamente basta seguir o seguinte raciocínio: Suponha que o sucesso de um modelo de projeção, para uma variável aleatória qualquer, só será admitido caso produza projeções com erros exatamente iguais a zero. O sucesso neste caso é um evento praticamente impossível de ocorrer, ou seja, de probabilidade aproximadamente nula, pois o grau de acerto que se exige é incompatível com a própria natureza da variável aleatória modelada, e isso é muito intuitivo. Se a imposição mudar, e tal sucesso for considerado aceitando-se determinado erro, maiores serão as chances de que ocorra sucesso a partir do “chute” que o modelo proporcionará. Então as probabilidades de sucesso serão cada vez maiores, a medida com que se aceita maiores erros. Esta idéia pode ser expressa segundo teoria em probabilidades através da desigualdade de Tchebychev, BARRY(2002), expressão 1, que estabelece uma cota superior para a probabilidade de uma determinada diferença entre o valor esperado de uma variável aleatória e o resultado de um experimento pontual. Para fazer isto usando a desigualdade é necessário apenas especificar esse desvio(erro) e a variância da variável aleatória, sem que seja necessário estar de posse da distribuição de probabilidade da variável. Portanto, a probabilidade máxima do fracasso de um modelo (definindo fracasso como: Desvio maior que o aceitável) é dominada pela variância da variável aleatória, pois, os modelos de previsão procuram acertar os valores esperados da variável aleatória. (1) P(|x-E (x)| ≥ ε) ≤ σ²/ε² Onde: x = Variável aleatória em estudo; σ²= Variância da variável aleatória de interesse; E(X) = Valor Esperado ou Média real da variável aleatória. Com esse raciocínio pode-se elaborar uma metodologia para escolha do erro máximo que se deve admitir às projeções. Consiste basicamente em estudar o limite para a magnitude do erro, de modo a ser considerada conseqüência da natureza aleatória dos dados de Carga. Para que este limite seja estipulado, é necessário decidir o que seria uma probabilidade pequena de que esse erro seja proveniente da característica estocástica, e então aceitar que o desvio é gerado em maior parte pelo modelo, e não pela estrutura de variabilidade da série. Para iniciar a investigação por que erro escolher, é necessário que se tenha em “mãos” uma boa estimativa da média e da variância da taxa de crescimento da Carga. O interesse do estudo é voltado para os erro do ano, portanto, a variância da taxa de crescimento anual da carga será obtida a partir da estimativa para variabilidade mensal. Usou-se inferência Bayesiana para fazer as estimativas de média e variância., pois o objetivo é estimar valores que não sejam baseados apenas nos dados empíricos, que podem não refletir fielmente a informação para o futuro da variável, mas também levar em conta a experiência e tato dos profissionais que trabalham e estudam sobre o assunto. Optou-se por entrevistar profissionais ligados ao setor de projeção da CEMIG, e a partir daí escolheu-se a priori a ser usada para a média, igual a 4%. A distribuição à posteriori obtida retornou um valor de taxa média de crescimento igual a 4,5%, e variância 0,2%. Sendo assim a variância anual é de aproximadamente 0,0166%. Para tentar agir intuitivamente sobre o porque da variância anual ser menor que a mensal, basta perceber que os desvios cometidos durante os meses se compensam durante o ano, e assim o desvio em torno da média é reduzido. Aplicando a desigualdade de Tchebychev pode-se calcular as probabilidades de determinado desvio de previsão ser gerado unicamente pela variabilidade da série. A tabela 4 mostra possíveis erros de previsão, e as respectivas cotas superiores para as probabilidades desses erros terem vindo puramente da estrutura de variabilidade da série. Tabela 4- Cota superior para a probabilidade de erro devido obra do acaso COTA PARA A PROBABILIDADE ERRO ASSOCIADO 0,05 5,25% 0,1 3,91% 0,15 3,19% 0,2 2,76% 0,25 2,47% 0,3 2,26% Veja que um erro de 3% tem uma chance considerável de ocorrer, aproximadamente 0.15, mesmo que o método de projeção seja impecável. Ou seja, usando a informação do tópico 4, sabe-se que aproximadamente 85% dos erros vão ultrapassar a 5%, e usando a informação da tabela 4, sabe-se que 15% desses 85% serão inevitáveis, independentemente da qualidade do método de previsão. 6- CONCLUSÕES Com o uso do método Bootstrap pôde-se estimar a distribuição de probabilidades associada à média do desvio de projeção de carga do Sistema Elétrico Nacional. Verificou-se que a média do desvio tende a ser de aproximadamente 5.5%, sendo que com 95% de chance ela pode oscilar entre 4.53% e 6.5%. Além disso, checou-se que 85% das vezes a média estará acima de 5% e 99% acima de 3%, e destas, espera-se que 15% aconteçam devido à característica estocástica da carga. Portanto, conclui-se que um erro acima de 3% para as previsões de carga de 5 anos acontecerá um grande número de vezes, e destas 15% serão causadas puramente pelo fator estocástico, ou seja, espera-se que 3 erros a cada 20 projeções, ultrapassem 3%, independentemente da eficiência dos métodos de previsão para carga. 7. REFERÊNCIAS BIBLIOGRÁFICAS BÁSICAS: GIBBONS, J. D. Nonparametric methods for quantitative analysis. 2ª ed. Columbus: Am. Sci. P., Inc, 1985. JAMES, Barry R. Probabilidade: Um Curso em Nível Intermediário. 2ª ed. Associação Instituto Nacional de Matemática Pura e Aplicada: Rio de Janeiro, 2002. GAMERMAN, D. e Migon, H.S. (1993). Inferência estatística: uma abordagem integrada. Textos de Métodos Matemáticos do Instituto de Matemática, UFRJ. O’HAGAN, A. (1994). Bayesian inference. Volume 2B da série Kendall’s Advanced Theory of Statistics. Cambridge: Edward Arnold.
Documentos relacionados
Apostila para os cursos de Estatística (Versão 1)
1.1.2 Tabela de frequências para uma variável qualitativa nominal 1.2 Gráficos associados a uma variável qualitativa nominal . . . . . . . 1.2.1 Gráfico de barras . . . . . . . . . . . . . . . . . ...
Leia mais