SCAMTEC: SISTEMA DE AVALIAÇÃO DE
Transcrição
SCAMTEC: SISTEMA DE AVALIAÇÃO DE
SCAMTEC: SISTEMA DE AVALIAÇÃO DE MODELOS NUMÉRICOS DE PREVISÃO DE TEMPO E CLIMA João G. Z. de Mattos1, Luiz F. Sapucci1, Ariane F. dos Santos de Mattos2, Carlos Bastraz1, Derek V. S. Schubert1, Gustavo G. de Gonçalves1. 1-Grupo de Desenvolvimento em Assimilação de Dados – GDAD 2- Grupo de Previsão Climática Sazonal – GPC Centro de Previsão de Tempo e Estudos Climáticos – CPTEC - Instituto Nacional de Pesquisas Espaciais – INPE - Rodovia Presidente Dutra, KM 40 - Cachoeira Paulista – SP e-mail: [email protected]; [email protected] RESUMO A constante evolução dos computadores acarretou num progressivo aperfeiçoamento dos modelos de Previsão Numérica de Tempo e Clima (PNTC). Consequentemente, um enorme volume de informações sobre o estado atual e futuro da atmosfera é produzido nos diversos centros operacionais de PNTC. Uma avaliação estatística prévia é necessária para que o grau de acurácia de cada modelo disponível seja conhecido, o que permite a utilização eficaz das informações produzidas. Várias métricas de avaliação são utilizadas atualmente, as mais frequentes são o RMSE, viés e correlação de anomalia. No entanto, dada a demanda crescente por previsões de melhor qualidade, é imprescindível uma avaliação mais robusta da habilidade dos modelos em produzir informações úteis, o que envolve um volume extremamente grande de informação. Para isso, torna-se necessário a criação de um framework capaz de agregar os mais diversos modelos e sistemas de observações, além de permitir a implementação das mais diversas métricas estatísticas. Visando contribuir com o tema, esse trabalho apresenta um sistema de avaliação denominado pelo acrônimo SCAMTEC, cujo significado é Sistema de Avaliação de Modelos de Previsão de Tempo e Clima, o qual se encontra em implementação no Grupo de Desenvolvimento em Assimilação de Dados (GDAD) do CPTEC/INPE. O objetivo é evidenciar as potencialidades de aplicação e as facilidades fornecidas com a futura disponibilidade dessa ferramenta para a comunidade meteorológica brasileira. PALAVRAS-CHAVE: Avaliação de modelos, Métricas estatística, Previsão Numérica de Tempo e Clima. 1. INTRODUÇÃO Os Modelos de Previsão Numérica de Tempo e Clima (PNTC) são baseados nas leis de conservação de massa, momentum e energia. Para descrever os movimentos atmosféricos, são utilizadas as equações da continuidade de massa para o ar seco e vapor d’água, a primeira lei da termodinâmica e as equações do movimento. Tais equações não apresentam soluções analíticas, sendo necessária a aplicação de métodos numéricos para suas respectivas soluções, nos quais geralmente utilizam aproximações que acabam por introduzir incertezas nos resultados dos modelos. Entretanto, essas incertezas não derivam somente dos métodos numéricos, mas também da inerente imprevisibilidade do estado da atmosfera (Lorenz 1963) e dos processos físicos que não são adequadamente tratados nos modelos de PNTC. Tendo em vista a alta complexidade de um modelo de PNTC, é difícil, se não impossível, separar as incertezas provenientes das parametrizações físicas das incertezas oriundas das outras componentes dos modelos (Grell, 1993). Devido à isso, há grandes dificuldades em realizar avaliações padronizadas entre diferentes modelos. Uma maneira coerente de compará-los é utilizando nessa avaliação uma base de observações meteorológicas como referência, e assim mostrar qual modelo apresenta melhores resultados com relação à essas medidas de referência. A avaliação de modelos de PNTC é freqüentemente baseada em índices estatísticos, como o viés, o Erro Quadrático Médio (RMSE – do inglês Root Mean Square Error) e o Coeficiente de Correlação de Anomalias (CCA), que fornecem uma visão geral da habilidade do modelo (Wilks, 1995). Essas métricas são utilizadas tanto para a avaliação de variáveis contínuas (tais como componentes do vento, pressão, temperatura, umidade, etc.), como para variáveis discretas (i.e. precipitação). Diferentemente das variáveis contínuas, na avaliação de variáveis discretas, torna-se necessário o uso de técnicas diferenciadas, como testes de sensibilidade, tabelas de contingência, etc. A avaliação dos produtos de PNTC auxilia no conhecimento das diversas fontes de incerteza envolvidas nesse processo, tanto nas condições iniciais utilizadas, quanto nas limitações das teorias utilizadas para representar a variabilidade interna da atmosfera. Conhecer as características dessas incertezas em função do tempo e do domínio do modelo subsidia a melhoria dos mesmos por parte dos desenvolvedores. Esse conhecimento pode também ser utilizado como informação adicional para os usuários dos produtos de PNTC, os quais podem aperfeiçoar suas interpretações levando em consideração as limitações de tais produtos. Com a grande variedade de métricas desenvolvidas para a avaliação de modelos, bem como a não padronização do uso destas, a escolha de métricas inapropriadas pode gerar sérios problemas tanto para os desenvolvedores como para os usuários. Com o aumento da eficiência no processamento de dados e do poder computacional dos centros de pesquisa e operação, bem como da melhoria do conhecimento dos processos físicos da atmosfera, tem-se assistido uma evolução crescente dos modelos de PNTC. Consequentemente, a demanda por melhores condições iniciais tem também crescido buscando melhorias em qualidade e previsibilidade. Muitos investimentos têm sido canalizados visando o desenvolvimento dos sistemas de assimilação de dados e o uso eficiente de novos sistemas de observações. No entanto, exige-se uma metodologia específica para a adequada avaliação dos resultados obtidos com relação à qualidade das condições iniciais, bem como para a avaliação do impacto da utilização de novos sistemas de observações. Nesse aspecto, o uso de dados observados na avaliação de modelos é algo que merece atenção, pois se trata de combinar uma grade regular de informações de modelos com uma grade irregular de dados observados. Nesse processo estão envolvidas interpolações espaço-temporais, e consequentemente a propagação de incertezas que diminuem a eficiência do processo quando as mesmas não são devidamente consideradas. Atualmente, a comunidade meteorológica brasileira não dispõe de uma ferramenta que reúna e forneça métricas adequadas e unificadas para a avaliação sistemática de modelos de PNTC. É muito frequente encontrar diversos trabalhos que fazem uso de produtos de previsão numérica em meteorologia que, embora se utilizem dos mesmos modelos, usam diferentes métricas em suas avaliações. Este cenário não é interessante, uma vez que uma possível comparação de resultados pode ser inviabilizada ou induzir a uma conclusão errada. Diversas publicações abordam métricas variadas para avaliar a habilidade dos modelos de PNTC (Willmott, 1981; Willmott et al., 1985; Daley and Chervin, 1985; Anthes et. al, 1989; Stein e Alpert, 1993; entre outros). É possível encontrar receitas prontas em diversas linguagens (Press et al. 2002), mas nenhuma delas organiza e oferece aos usuários uma ferramenta completa, integrada, otimizada e consistente para a avaliação de modelos de PNTC, a qual possa ser utilizada livremente por iniciantes, pesquisadores e profissionais da área de PNTC. Visando contribuir com a melhoria da padronização das métricas estatísticas, encontra- se em fase de desenvolvendo no Grupo de Desenvolvimento em Assimilação de Dados (GDAD) do CPTEC/INPE um sistema de avaliação baseado em softwares livres, denominado por SCAMTEC, acrônimo de Sistema para Avaliação de Modelos numéricos de Previsão de Tempo e Clima. Essa versão inicial contempla métricas estatísticas básicas, como o RMSE, o viés e o CCA, bem como diversas outras métricas em fase de implementação, visando o estudo de novas metodologias que caracterizam de forma mais adequada os resultados apresentados pelos modelos. O objetivo desse trabalho é divulgar à comunidade meteorológica essa iniciativa, e o que se espera com o desenvolvimento e disponibilidade dessa ferramenta. Nas pesquisas associadas ao tema pretende-se investigar métricas mais robustas para a adequada avaliação dos modelos de PNTC, as quais atendam a todos os quesitos esperados nesta tarefa, tanto do ponto de vista dos desenvolvedores, como dos usuários dos produtos. Mais especificamente, pretende-se: • Investigar métricas adequadas para a avaliação das variáveis atmosféricas dos modelos de PNTC, em especial para a avaliação das previsões de precipitação, utilizandose observações (em superfície e por satélites) e campos climatológicos; • Investigar métricas e metodologias mais adequadas para a avaliação da qualidade das condições iniciais geradas em processos de assimilação de dados e o impacto de novos sistemas de observações na melhoria da qualidade da PNT. Na próxima seção é apresentada uma estrutura básica da versão inicial do SCAMTEC, na qual as principais funcionalidades são descritas, tais como: tipos de leitura de dados de entrada, métricas estatísticas em implementação e interface gráfica de gerenciamento. Na seção 3 são apresentadas as potencialidades dessa ferramenta, e por fim na seção 4 são tecidas algumas considerações finais sobre o tema aqui abordado. 2. ESTRUTURA BÁSICA O SCAMTEC é baseado em ferramentas livres, tais como Fortran 90, Shell script, GTK, podendo ser executado em diversas plataformas (como UNIX, Linux, Windows, MacOS). A estrutura do sistema de avaliação é modular, o que facilita a implementação de novas funcionalidades. Composto por um kernel (um Core central), que corresponde a um conjunto de programas escritos em linguagem Fortran 90, o SCAMTEC é capaz de receber dados de diversos modelos, devolvendo ao usuário resultados estatísticos em formatos préselecionados. Existe um módulo de estatística básica, independente do core do sistema, sendo possível a implementação adicional de novas e modernas métricas de forma simples sem modificações no Core. O programa principal gerencia as opções escolhidas pelo usuário mediante uma interface gráfica de fácil entendimento e manuseio. A figura 1 apresenta um esquema ilustrativo da estrutura básica do SCAMTEC. Através de bibliotecas auxiliares o Core monta um banco de dados de discrepâncias e aplica as métricas selecionadas pelo usuário através de uma interface gráfica. Erro! Indicador não definido. Figura 1. Esquema ilustrativo da estrutura básica do SCAMTEC. 2.1. Leitura de arquivos de dados e escrita de resultados O módulo para a leitura e escrita dos dados foi desenvolvido de forma a acomodar um grande número de formatos normalmente usados nessa função, sendo permitida a inclusão de novos tipos posteriormente. Atualmente, a versão em desenvolvimento comporta a leitura dos seguintes formatos: I) binário ieee: arquivo de dados puro, sem espaços ou identificadores de tempo. Lê dados binários, sequenciais ou do tipo stream, nos formatos little endian ou big endian; II) GRIB 1: o GRIdded Binary (GRIB) é um formato padronizado pela OMM e amplamente utilizado para o armazenamento de dados meteorológicos. Atualmente, há três versões do formato GRIB, porém, na atual versão do SCAMTEC, somente a primeira versão é utilizada. Outras rotinas de leitura e escrita, tais como HDF4 e NetCDF, estão em desenvolvimento e serão implementadas futuramente no SCAMTEC. O SCAMTEC produz um arquivo de saída no formato American Standard Code for Information Interchange (ASCII), que contém os resultados estatísticos médios sobre a área selecionada de estudo, além de um arquivo no formato GRIB 1 com os resultados estatísticos para cada ponto de grade da área considerada. A saída gráfica dos resultados é outro ponto importante do SCAMTEC na qual é usada a biblioteca gráfica denominada Magics++, proveniente da versão mais recente do software de plotagem do European Centre for MediumRange Weather Forecasts (ECMWF) (ECMWF, 2010). Com a utilização dessa biblioteca gráfica, o usuário poderá gerar gráficos em vários formatos, tais como PS, EPS, PDF, GIF, PNG, SVG and KML. Visando exemplificar, a Figura 2 apresenta saídas gráficas dos campos de erro da altura geopotencial do modelo regional Eta em diferentes tempos de integração, bem como gráficos de linha dos valores médios do viés e do CCA sobre uma determinada área de estudo. (a) (b) (c) Figura 2: Saídas gráficas geradas pelo SCAMTEC na avaliação da altura geopotencial em 850 hPa sobre a América do Sul, onde: (a) distribuição espacial do RMSE para diferentes tempos de integração do modelo, (b) viés médio e (c) CCA médio. 2.2. Métricas Estatísticas Atualmente o sistema conta com as seguintes métricas estatísticas: Erro Médio (viés), RMSE, Erro Absoluto Médio (MAE) e Coeficiente de Correlação de Anomalia (CCA). Algumas outras métricas estão em fase de desenvolvimento, tendo como principal enfoque a avaliação de precipitação, a saber: Rank Correlation e Kendall rank correlation (métricas de associação); Relative Operating Characteristic (ROC) e Reliability Diagram (RD) (índices de acerto e confiabilidade), Empirical Orthogonal Function (EOF) e Singular Value Decomposition (SVD) (tratamento do erro de posição). Mais detalhes a respeito das métricas citadas pode ser encontrado em Anthes et al. (1989) e Wilks (1995). 2.3. Interface e funcionalidades gráficas O sistema SCAMTEC possui uma interface gráfica cujo objetivo é facilitar seu manuseio tanto na configuração como na utilização. Devido à sua estrutura modulada, a função da interface gráfica é carregar em um arquivo de configuração todas as decisões feitas pelo usuário com relação às opções disponíveis no sistema de avaliação e posteriormente disparar o processo. A Figura 3 apresenta a interface gráfica da versão atual do SCAMTEC em desenvolvimento. Esta interface é escrita em linguagem GTK-fortran (https://github.com/jerryd/gtk-fortran/wiki) e permite ao usuário ajustar a maioria das opções possíveis para executar o SCAMTEC, bem como acompanhar todo o processo de execução do programa via terminal ou barra de progresso. É possível ainda carregar outros arquivos de configuração previamente utilizados e fazer modificações via interface ou manualmente. 3. POTENCIALIDADES DO SCAMTEC Com a implementação do SCAMTEC e sua disponibilidade espera-se contribuir diretamente a comunidade meteorológica brasileira nas seguintes atividades: • Acadêmicas: Esse sistema poderá auxiliar significativamente no ensino de disciplinas relacionadas à modelagem de tempo e clima nos cursos de Meteorologia e áreas afins nas universidades brasileiras, mostrando de forma fácil e prática como é feita a avaliação dos modelos disponíveis, bem como o desempenho dos mesmos. Alem disso pesquisadores e estudantes de pós graduação que trabalham ou investigam melhorias na PNTC também se beneficiarão ao utilizar o SCAMTEC no processo de avaliação dos resultados obtidos em suas pesquisas; a) b) Figura 3: Exemplo da interface gráfica do SCAMTEC, onde (a) são mostradas as opções principais disponíveis (datas, variáveis, níveis etc.) e (b) as opções de edição manual do arquivo de configurações. • PNTC operacionais: o SCAMTEC pode contribuir na simplificação da implementação de novas métricas na avaliação dos produtos operacionais disponibilizados por centros de previsão. Há uma recomendação da OMM que trata da padronização das métricas de avaliação de produtos operacionais (disponível para acesso em www.wmo.int), as quais deverão em breve estar implementadas no SCAMTEC, o que permitirá sua aplicação nessa atividade. Essa aplicação permitirá intercomparações entre modelos, operacionais ou não, alem de simular avaliações em modo pré operacional, antecipando resultados e corrigindo possíveis erros; • Previsão de precipitação atmosférica: Dentre as variáveis atmosférica a precipitação é a de maior interesse para os usuários comuns da PNT e essa atividade se beneficiará do SCAMTEC, pois considerável esforços dos desenvolvedores desse sistema está sendo canalizado para a avaliação dessa variável. Diferentes aspectos das previsões dessa variável estão sendo considerados na elaboração das métricas, tais como: erro na ocorrência, intensidade, posição no tempo e no espaço; • Parametrizações físicas: o SCAMTEC facilitará a avaliação dos resultados obtidos ao utilizar diferentes parametrizações físicas ou mesmo pequenas melhorias nesse processo. Nesse aspecto sistemas de observações apropriados podem ser utilizados nessa avaliação. As redes de receptores GNSS (Global Navigation Satellite System) em ampla densificação no Brasil (Monico 2006; Vitorello 2008) poderá ser empregada nesse processo, pois permite a quantificação do Integrated Water Vapor com alta resolução temporal e qualidade compatível com as radiossondas. Além disso, permitira a avaliação de experimentos que combine o uso de diferentes parametrizações com outras modificações, tais como: resolução espacial, diferentes sistemas de assimilação, ou mesmo com diferentes bases de dados, a fim de se obter combinações melhores para específicos eventos, períodos do ano ou regiões. • PNTC estocásticas: com o desenvolvimento dos computadores a técnica de previsão probabilística tem se tornado uma realidade no Brasil, a qual gera uma série de problemas com o aumento significativo dos dados envolvidos na avaliação dos ensembles de previsões ou de modelos. O SCAMTEC contribuirá significativamente nesse processo, pois em seu desenvolvimento já está sendo contemplado a avaliação de ensemble, tanto no desempenho computacional como nas métricas estatísticas apropriadas para esse fim como: campos de incertezas na previsão e espalhamento dos membros; • Assimilação de dados: Com a implementação operacional do Local Ensemble Transform Kalman Filter (LETKF), que é o novo sistema de assimilação do CPTEC/INPE, no qual envolve previsão por ensemble e processos operacionais, o SCAMTEC poderá contribuir na real avaliação da qualidade das análises geradas ao utilizar dados observacionais e aplicar métricas especificas para a avaliação do processo de assimilação e o impacto de diferentes configurações dos dados disponíveis, ou de sistemas adicionais de observação; • Desenvolvimento de novos sistemas de observações: Ao desenvolver novos sistemas de observações, como exemplo um novo sensor em satélite, deseja-se saber qual é o impacto das observações geradas na previsão de tempo para diferentes modelos de PNTC. O SCAMTEC pode contribuir nessa tarefa ao diagnosticar esse impacto e dar informações do potencial em substituir outros sistemas de observação através da avaliação de diferentes cenários simulados; • Produtivas que envolvem PNTC: As atividades humanas que requerem de planejamento, e estão associadas com eventos climáticos, nas quais são empregadas frequentemente produtos de PNTC, podem se beneficiar do SCAMTEC, pois com a uma avaliação mais adequada de tais produtos, é possível melhor dimensionar os riscos futuros decorrentes das decisões neles baseadas. Exemplos dessas atividades são: agro negócio, companhias de produção e distribuição de energia, entre outras. 4. CONSIDERAÇÕES FINAIS Depois de disponibilizada a primeira versão, pretende-se colocar o SCAMTEC em um ambiente de desenvolvimento comunitário, no qual haverá a possibilidade de que as contribuições dos desenvolvedores e/ou usuários sejam compartilhadas com toda a comunidade envolvida, de forma que os esforços para o seu desenvolvimento sejam minimizados e os benefícios gerados pela sua implementação sejam maximizados. As versões futuras disponibilizadas nesse processo, por ser fruto da participação de toda a comunidade, deverão contemplar diversas funcionalidades, facilidades de uso, extensa aplicabilidade, em diferentes modelos e ambiente computacional, bem como apropriadas documentações. A organização dos futuros desenvolvimento do SCAMTEC, a qual é proposta aqui, possibilitará uma unificação da avaliação dos produtos de PNTC com grande potencial de que melhorias significativas possam ser obtidas nesse processo, inicialmente na avaliação e, posteriormente, tanto na modelagem com na assimilação de dados. Atualmente, a versão 1.0a (alpha) do SCAMTEC encontra-se em desenvolvimento no GDAD-CPTEC-INPE, bem como um portal na web, pelo qual toda a comunidade usuária e desenvolvedora estará integrada. Com o desenvolvimento desta ferramenta não se tem a intenção de apenas substituir fórmulas e equações, mas sim unificar as avaliações de PNTC afim de que possam viabilizar as comparações entre diversos modelos disponíveis, e que as mesmas sejam mais justas e adequadas, ao levar em consideração suas respectivas resoluções, deficiências e limitações. 5. AGRADECIMENTOS Os autores agradecem ao CNPq (Processo N. 481379/2010-0) e a Fapesp (Processos N. 2006/04008-2 e N. 2010/15974-2) pelo apoio financeiro a essa pesquisa. 6. REFERÊNCIAS BIBLIOGRÁFICAS ANTHES, R. A.; KUO, Y. H.; HSIE, E. H.; LOW-NAN, S.; BETTGE, T. W. Estimation of skill and uncertainty in regional numerical models. Quarterly Journal of the Royal Meteorological Society, v. 115, n. 488A, p. 763–806, July 1989. DALEY, R. AND CHERVIN, R. M.; Statistical Significance Testing in Numerical Weather Prediction. Monthly Weather Review, v. 113, 1985 ECMWF, Magics++; ("http://www.ecmwf.int/products/data/software/magics++.html"). Acessado em 10/10/2010. GRELL, G. Pregnostic evaluation of assumptions used by cumulus parameterization. Mon. Wea. Rev., v. 121, p. 764-789, 1993 LORENZ E. N., 1963. Deterministic nonperiodic flow. J. Atmos. Sci., 42:433–471. MONICO. J. F. G. GNSS: investigações e aplicações no posicionamento geodésico, em estudos relacionados com a atmosfera e na agricultura de precisão. Projeto FAPESP na modalidade temático. Universidade Estadual Paulista. Presidente Prudente, SP. 2006. PRESS, W. H.; TEUKOLSKY, S. A.; VETTERLING, W. T.; FLANNERY, B. P.; Numerical Recipes in Fortran 90: The Art of Parallel Scientific Computing. Secong Edition. Press Syndicate of the University of Cambridge, USA. ISBN 0 521 57439 0. 2002. STEIN, U. E ALPERT, P. Factor Separation in Numerical Simulations. J. Atmo. Sci., v. 50, n. 14, p. 2107-2115, 1993. VITORELLO, I. Sistema Integrado de Posicionamento GNSS para Estudos Geodinâmicos. Projeto aprovado e em andamento com recursos da PETROBRAS. Instituto Nacional de Pesquisas Espaciais - INPE/MCT. São José dos Campos. 2008. WILKS, D. S. Statistical methods in the atmospheric sciences: an introduction. First edition. San Diego: Academic Press, 1995. 465 p. (International Geophysics Series, v. 59). WILLMOTT, C. J. ; On the Validation of models. Physical Geography, London, v. 2, n. 1., p. 184-194, 1981 WILLMOTT, C. J.; ACKLESON, S. G.; DAVIS, R. E.; FEDDEMA, J. J.; KLINK, K. M.; LEGATE, D. R.; O’DONNELL, J. AND ROWE, C. M. ; Statistics of the Evaluation and Comparison of Models. Journal of Geophysical Research, v. 90, n. C5, p. 8995-9005, 1985