SCAMTEC: SISTEMA DE AVALIAÇÃO DE

Transcrição

SCAMTEC: SISTEMA DE AVALIAÇÃO DE
SCAMTEC: SISTEMA DE AVALIAÇÃO DE MODELOS NUMÉRICOS DE
PREVISÃO DE TEMPO E CLIMA
João G. Z. de Mattos1, Luiz F. Sapucci1, Ariane F. dos Santos de Mattos2, Carlos Bastraz1,
Derek V. S. Schubert1, Gustavo G. de Gonçalves1.
1-Grupo de Desenvolvimento em Assimilação de Dados – GDAD
2- Grupo de Previsão Climática Sazonal – GPC
Centro de Previsão de Tempo e Estudos Climáticos – CPTEC - Instituto Nacional de
Pesquisas Espaciais – INPE - Rodovia Presidente Dutra, KM 40 - Cachoeira Paulista – SP
e-mail: [email protected]; [email protected]
RESUMO
A constante evolução dos computadores acarretou num progressivo aperfeiçoamento dos
modelos de Previsão Numérica de Tempo e Clima (PNTC). Consequentemente, um enorme
volume de informações sobre o estado atual e futuro da atmosfera é produzido nos diversos
centros operacionais de PNTC. Uma avaliação estatística prévia é necessária para que o grau
de acurácia de cada modelo disponível seja conhecido, o que permite a utilização eficaz das
informações produzidas. Várias métricas de avaliação são utilizadas atualmente, as mais
frequentes são o RMSE, viés e correlação de anomalia. No entanto, dada a demanda crescente
por previsões de melhor qualidade, é imprescindível uma avaliação mais robusta da
habilidade dos modelos em produzir informações úteis, o que envolve um volume
extremamente grande de informação. Para isso, torna-se necessário a criação de um
framework capaz de agregar os mais diversos modelos e sistemas de observações, além de
permitir a implementação das mais diversas métricas estatísticas. Visando contribuir com o
tema, esse trabalho apresenta um sistema de avaliação denominado pelo acrônimo
SCAMTEC, cujo significado é Sistema de Avaliação de Modelos de Previsão de Tempo e
Clima, o qual se encontra em implementação no Grupo de Desenvolvimento em Assimilação
de Dados (GDAD) do CPTEC/INPE. O objetivo é evidenciar as potencialidades de aplicação
e as facilidades fornecidas com a futura disponibilidade dessa ferramenta para a comunidade
meteorológica brasileira.
PALAVRAS-CHAVE: Avaliação de modelos, Métricas estatística, Previsão Numérica de
Tempo e Clima.
1. INTRODUÇÃO
Os Modelos de Previsão Numérica de Tempo e Clima (PNTC) são baseados nas leis
de conservação de massa, momentum e energia. Para descrever os movimentos atmosféricos,
são utilizadas as equações da continuidade de massa para o ar seco e vapor d’água, a primeira
lei da termodinâmica e as equações do movimento. Tais equações não apresentam soluções
analíticas, sendo necessária a aplicação de métodos numéricos para suas respectivas soluções,
nos quais geralmente utilizam aproximações que acabam por introduzir incertezas nos
resultados dos modelos. Entretanto, essas incertezas não derivam somente dos métodos
numéricos, mas também da inerente imprevisibilidade do estado da atmosfera (Lorenz 1963)
e dos processos físicos que não são adequadamente tratados nos modelos de PNTC.
Tendo em vista a alta complexidade de um modelo de PNTC, é difícil, se não
impossível, separar as incertezas provenientes das parametrizações físicas das incertezas
oriundas das outras componentes dos modelos (Grell, 1993). Devido à isso, há grandes
dificuldades em realizar avaliações padronizadas entre diferentes modelos. Uma maneira
coerente de compará-los é utilizando nessa avaliação uma base de observações
meteorológicas como referência, e assim mostrar qual modelo apresenta melhores resultados
com relação à essas medidas de referência.
A avaliação de modelos de PNTC é freqüentemente baseada em índices estatísticos,
como o viés, o Erro Quadrático Médio (RMSE – do inglês Root Mean Square Error) e o
Coeficiente de Correlação de Anomalias (CCA), que fornecem uma visão geral da habilidade
do modelo (Wilks, 1995). Essas métricas são utilizadas tanto para a avaliação de variáveis
contínuas (tais como componentes do vento, pressão, temperatura, umidade, etc.), como para
variáveis discretas (i.e. precipitação). Diferentemente das variáveis contínuas, na avaliação de
variáveis discretas, torna-se necessário o uso de técnicas diferenciadas, como testes de
sensibilidade, tabelas de contingência, etc. A avaliação dos produtos de PNTC auxilia no
conhecimento das diversas fontes de incerteza envolvidas nesse processo, tanto nas condições
iniciais utilizadas, quanto nas limitações das teorias utilizadas para representar a variabilidade
interna da atmosfera. Conhecer as características dessas incertezas em função do tempo e do
domínio do modelo subsidia a melhoria dos mesmos por parte dos desenvolvedores. Esse
conhecimento pode também ser utilizado como informação adicional para os usuários dos
produtos de PNTC, os quais podem aperfeiçoar suas interpretações levando em consideração
as limitações de tais produtos. Com a grande variedade de métricas desenvolvidas para a
avaliação de modelos, bem como a não padronização do uso destas, a escolha de métricas
inapropriadas pode gerar sérios problemas tanto para os desenvolvedores como para os
usuários.
Com o aumento da eficiência no processamento de dados e do poder computacional
dos centros de pesquisa e operação, bem como da melhoria do conhecimento dos processos
físicos da atmosfera, tem-se assistido uma evolução crescente dos modelos de PNTC.
Consequentemente, a demanda por melhores condições iniciais tem também crescido
buscando melhorias em qualidade e previsibilidade. Muitos investimentos têm sido
canalizados visando o desenvolvimento dos sistemas de assimilação de dados e o uso
eficiente de novos sistemas de observações. No entanto, exige-se uma metodologia específica
para a adequada avaliação dos resultados obtidos com relação à qualidade das condições
iniciais, bem como para a avaliação do impacto da utilização de novos sistemas de
observações. Nesse aspecto, o uso de dados observados na avaliação de modelos é algo que
merece atenção, pois se trata de combinar uma grade regular de informações de modelos com
uma grade irregular de dados observados. Nesse processo estão envolvidas interpolações
espaço-temporais, e consequentemente a propagação de incertezas que diminuem a eficiência
do processo quando as mesmas não são devidamente consideradas.
Atualmente, a comunidade meteorológica brasileira não dispõe de uma ferramenta que
reúna e forneça métricas adequadas e unificadas para a avaliação sistemática de modelos de
PNTC. É muito frequente encontrar diversos trabalhos que fazem uso de produtos de previsão
numérica em meteorologia que, embora se utilizem dos mesmos modelos, usam diferentes
métricas em suas avaliações. Este cenário não é interessante, uma vez que uma possível
comparação de resultados pode ser inviabilizada ou induzir a uma conclusão errada. Diversas
publicações abordam métricas variadas para avaliar a habilidade dos modelos de PNTC
(Willmott, 1981; Willmott et al., 1985; Daley and Chervin, 1985; Anthes et. al, 1989; Stein e
Alpert, 1993; entre outros). É possível encontrar receitas prontas em diversas linguagens
(Press et al. 2002), mas nenhuma delas organiza e oferece aos usuários uma ferramenta
completa, integrada, otimizada e consistente para a avaliação de modelos de PNTC, a qual
possa ser utilizada livremente por iniciantes, pesquisadores e profissionais da área de PNTC.
Visando contribuir com a melhoria da padronização das métricas estatísticas, encontra-
se em fase de desenvolvendo no Grupo de Desenvolvimento em Assimilação de Dados
(GDAD) do CPTEC/INPE um sistema de avaliação baseado em softwares livres, denominado
por SCAMTEC, acrônimo de Sistema para Avaliação de Modelos numéricos de Previsão de
Tempo e Clima. Essa versão inicial contempla métricas estatísticas básicas, como o RMSE, o
viés e o CCA, bem como diversas outras métricas em fase de implementação, visando o
estudo de novas metodologias que caracterizam de forma mais adequada os resultados
apresentados pelos modelos. O objetivo desse trabalho é divulgar à comunidade
meteorológica essa iniciativa, e o que se espera com o desenvolvimento e disponibilidade
dessa ferramenta. Nas pesquisas associadas ao tema pretende-se investigar métricas mais
robustas para a adequada avaliação dos modelos de PNTC, as quais atendam a todos os
quesitos esperados nesta tarefa, tanto do ponto de vista dos desenvolvedores, como dos
usuários dos produtos. Mais especificamente, pretende-se:
• Investigar métricas adequadas para a avaliação das variáveis atmosféricas dos
modelos de PNTC, em especial para a avaliação das previsões de precipitação, utilizandose observações (em superfície e por satélites) e campos climatológicos;
• Investigar métricas e metodologias mais adequadas para a avaliação da
qualidade das condições iniciais geradas em processos de assimilação de dados e o
impacto de novos sistemas de observações na melhoria da qualidade da PNT.
Na próxima seção é apresentada uma estrutura básica da versão inicial do SCAMTEC,
na qual as principais funcionalidades são descritas, tais como: tipos de leitura de dados de
entrada, métricas estatísticas em implementação e interface gráfica de gerenciamento. Na
seção 3 são apresentadas as potencialidades dessa ferramenta, e por fim na seção 4 são tecidas
algumas considerações finais sobre o tema aqui abordado.
2. ESTRUTURA BÁSICA
O SCAMTEC é baseado em ferramentas livres, tais como Fortran 90, Shell script,
GTK, podendo ser executado em diversas plataformas (como UNIX, Linux, Windows,
MacOS). A estrutura do sistema de avaliação é modular, o que facilita a implementação de
novas funcionalidades. Composto por um kernel (um Core central), que corresponde a um
conjunto de programas escritos em linguagem Fortran 90, o SCAMTEC é capaz de receber
dados de diversos modelos, devolvendo ao usuário resultados estatísticos em formatos préselecionados. Existe um módulo de estatística básica, independente do core do sistema, sendo
possível a implementação adicional de novas e modernas métricas de forma simples sem
modificações no Core. O programa principal gerencia as opções escolhidas pelo usuário
mediante uma interface gráfica de fácil entendimento e manuseio. A figura 1 apresenta um
esquema ilustrativo da estrutura básica do SCAMTEC. Através de bibliotecas auxiliares o
Core monta um banco de dados de discrepâncias e aplica as métricas selecionadas pelo
usuário através de uma interface gráfica.
Erro! Indicador não definido.
Figura 1. Esquema ilustrativo da estrutura básica do SCAMTEC.
2.1. Leitura de arquivos de dados e escrita de resultados
O módulo para a leitura e escrita dos dados foi desenvolvido de forma a acomodar um
grande número de formatos normalmente usados nessa função, sendo permitida a inclusão de
novos tipos posteriormente. Atualmente, a versão em desenvolvimento comporta a leitura dos
seguintes formatos: I) binário ieee: arquivo de dados puro, sem espaços ou identificadores de
tempo. Lê dados binários, sequenciais ou do tipo stream, nos formatos little endian ou big
endian; II) GRIB 1: o GRIdded Binary (GRIB) é um formato padronizado pela OMM e
amplamente utilizado para o armazenamento de dados meteorológicos. Atualmente, há três
versões do formato GRIB, porém, na atual versão do SCAMTEC, somente a primeira versão
é utilizada. Outras rotinas de leitura e escrita, tais como HDF4 e NetCDF, estão em
desenvolvimento e serão implementadas futuramente no SCAMTEC.
O SCAMTEC produz um arquivo de saída no formato American Standard Code for
Information Interchange (ASCII), que contém os resultados estatísticos médios sobre a área
selecionada de estudo, além de um arquivo no formato GRIB 1 com os resultados estatísticos
para cada ponto de grade da área considerada. A saída gráfica dos resultados é outro ponto
importante do SCAMTEC na qual é usada a biblioteca gráfica denominada Magics++,
proveniente da versão mais recente do software de plotagem do European Centre for MediumRange Weather Forecasts (ECMWF) (ECMWF, 2010). Com a utilização dessa biblioteca
gráfica, o usuário poderá gerar gráficos em vários formatos, tais como PS, EPS, PDF, GIF,
PNG, SVG and KML. Visando exemplificar, a Figura 2 apresenta saídas gráficas dos campos
de erro da altura geopotencial do modelo regional Eta em diferentes tempos de integração,
bem como gráficos de linha dos valores médios do viés e do CCA sobre uma determinada
área de estudo.
(a)
(b)
(c)
Figura 2: Saídas gráficas geradas pelo SCAMTEC na avaliação da altura
geopotencial em 850 hPa sobre a América do Sul, onde: (a) distribuição espacial
do RMSE para diferentes tempos de integração do modelo, (b) viés médio e (c)
CCA médio.
2.2. Métricas Estatísticas
Atualmente o sistema conta com as seguintes métricas estatísticas: Erro Médio (viés),
RMSE, Erro Absoluto Médio (MAE) e Coeficiente de Correlação de Anomalia (CCA).
Algumas outras métricas estão em fase de desenvolvimento, tendo como principal enfoque a
avaliação de precipitação, a saber: Rank Correlation e Kendall rank correlation (métricas de
associação); Relative Operating Characteristic (ROC) e Reliability Diagram (RD) (índices de
acerto e confiabilidade), Empirical Orthogonal Function (EOF) e Singular Value
Decomposition (SVD) (tratamento do erro de posição). Mais detalhes a respeito das métricas
citadas pode ser encontrado em Anthes et al. (1989) e Wilks (1995).
2.3. Interface e funcionalidades gráficas
O sistema SCAMTEC possui uma interface gráfica cujo objetivo é facilitar seu
manuseio tanto na configuração como na utilização. Devido à sua estrutura modulada, a
função da interface gráfica é carregar em um arquivo de configuração todas as decisões feitas
pelo usuário com relação às opções disponíveis no sistema de avaliação e posteriormente
disparar o processo. A Figura 3 apresenta a interface gráfica da versão atual do SCAMTEC
em
desenvolvimento.
Esta
interface
é
escrita
em
linguagem
GTK-fortran
(https://github.com/jerryd/gtk-fortran/wiki) e permite ao usuário ajustar a maioria das opções
possíveis para executar o SCAMTEC, bem como acompanhar todo o processo de execução do
programa via terminal ou barra de progresso. É possível ainda carregar outros arquivos de
configuração previamente utilizados e fazer modificações via interface ou manualmente.
3. POTENCIALIDADES DO SCAMTEC
Com a implementação do SCAMTEC e sua disponibilidade espera-se contribuir
diretamente a comunidade meteorológica brasileira nas seguintes atividades:
• Acadêmicas: Esse sistema poderá auxiliar significativamente no ensino de disciplinas
relacionadas à modelagem de tempo e clima nos cursos de Meteorologia e áreas afins nas
universidades brasileiras, mostrando de forma fácil e prática como é feita a avaliação dos
modelos disponíveis, bem como o desempenho dos mesmos. Alem disso pesquisadores e
estudantes de pós graduação que trabalham ou investigam melhorias na PNTC também se
beneficiarão ao utilizar o SCAMTEC no processo de avaliação dos resultados obtidos em
suas pesquisas;
a)
b)
Figura 3: Exemplo da interface gráfica do SCAMTEC, onde (a) são mostradas as
opções principais disponíveis (datas, variáveis, níveis etc.) e (b) as opções de edição
manual do arquivo de configurações.
• PNTC operacionais: o SCAMTEC pode contribuir na simplificação da implementação de
novas métricas na avaliação dos produtos operacionais disponibilizados por centros de
previsão. Há uma recomendação da OMM que trata da padronização das métricas de
avaliação de produtos operacionais (disponível para acesso em www.wmo.int), as quais
deverão em breve estar implementadas no SCAMTEC, o que permitirá sua aplicação nessa
atividade. Essa aplicação permitirá intercomparações entre modelos, operacionais ou não,
alem de simular avaliações em modo pré operacional, antecipando resultados e corrigindo
possíveis erros;
• Previsão de precipitação atmosférica: Dentre as variáveis atmosférica a precipitação é a
de maior interesse para os usuários comuns da PNT e essa atividade se beneficiará do
SCAMTEC, pois considerável esforços dos desenvolvedores desse sistema está sendo
canalizado para a avaliação dessa variável. Diferentes aspectos das previsões dessa
variável estão sendo considerados na elaboração das métricas, tais como: erro na
ocorrência, intensidade, posição no tempo e no espaço;
• Parametrizações físicas: o SCAMTEC facilitará a avaliação dos resultados obtidos ao
utilizar diferentes parametrizações físicas ou mesmo pequenas melhorias nesse processo.
Nesse aspecto sistemas de observações apropriados podem ser utilizados nessa avaliação.
As redes de receptores GNSS (Global Navigation Satellite System) em ampla densificação
no Brasil (Monico 2006; Vitorello 2008) poderá ser empregada nesse processo, pois
permite a quantificação do Integrated Water Vapor com alta resolução temporal e
qualidade compatível com as radiossondas. Além disso, permitira a avaliação de
experimentos que combine o uso de diferentes parametrizações com outras modificações,
tais como: resolução espacial, diferentes sistemas de assimilação, ou mesmo com
diferentes bases de dados, a fim de se obter combinações melhores para específicos
eventos, períodos do ano ou regiões.
• PNTC estocásticas: com o desenvolvimento dos computadores a técnica de previsão
probabilística tem se tornado uma realidade no Brasil, a qual gera uma série de problemas
com o aumento significativo dos dados envolvidos na avaliação dos ensembles de
previsões ou de modelos. O SCAMTEC contribuirá significativamente nesse processo,
pois em seu desenvolvimento já está sendo contemplado a avaliação de ensemble, tanto no
desempenho computacional como nas métricas estatísticas apropriadas para esse fim como:
campos de incertezas na previsão e espalhamento dos membros;
• Assimilação de dados: Com a implementação operacional do Local Ensemble Transform
Kalman Filter (LETKF), que é o novo sistema de assimilação do CPTEC/INPE, no qual
envolve previsão por ensemble e processos operacionais, o SCAMTEC poderá contribuir
na real avaliação da qualidade das análises geradas ao utilizar dados observacionais e
aplicar métricas especificas para a avaliação do processo de assimilação e o impacto de
diferentes configurações dos dados disponíveis, ou de sistemas adicionais de observação;
• Desenvolvimento de novos sistemas de observações: Ao desenvolver novos sistemas de
observações, como exemplo um novo sensor em satélite, deseja-se saber qual é o impacto
das observações geradas na previsão de tempo para diferentes modelos de PNTC. O
SCAMTEC pode contribuir nessa tarefa ao diagnosticar esse impacto e dar informações do
potencial em substituir outros sistemas de observação através da avaliação de diferentes
cenários simulados;
• Produtivas que envolvem PNTC: As atividades humanas que requerem de planejamento,
e estão associadas com eventos climáticos, nas quais são empregadas frequentemente
produtos de PNTC, podem se beneficiar do SCAMTEC, pois com a uma avaliação mais
adequada de tais produtos, é possível melhor dimensionar os riscos futuros decorrentes das
decisões neles baseadas. Exemplos dessas atividades são: agro negócio, companhias de
produção e distribuição de energia, entre outras.
4. CONSIDERAÇÕES FINAIS
Depois de disponibilizada a primeira versão, pretende-se colocar o SCAMTEC em um
ambiente de desenvolvimento comunitário, no qual haverá a possibilidade de que as
contribuições dos desenvolvedores e/ou usuários sejam compartilhadas com toda a
comunidade envolvida, de forma que os esforços para o seu desenvolvimento sejam
minimizados e os benefícios gerados pela sua implementação sejam maximizados. As versões
futuras disponibilizadas nesse processo, por ser fruto da participação de toda a comunidade,
deverão contemplar diversas funcionalidades, facilidades de uso, extensa aplicabilidade, em
diferentes modelos e ambiente computacional, bem como apropriadas documentações. A
organização dos futuros desenvolvimento do SCAMTEC, a qual é proposta aqui, possibilitará
uma unificação da avaliação dos produtos de PNTC com grande potencial de que melhorias
significativas possam ser obtidas nesse processo, inicialmente na avaliação e, posteriormente,
tanto na modelagem com na assimilação de dados.
Atualmente, a versão 1.0a (alpha) do SCAMTEC encontra-se em desenvolvimento no
GDAD-CPTEC-INPE, bem como um portal na web, pelo qual toda a comunidade usuária e
desenvolvedora estará integrada. Com o desenvolvimento desta ferramenta não se tem a
intenção de apenas substituir fórmulas e equações, mas sim unificar as avaliações de PNTC
afim de que possam viabilizar as comparações entre diversos modelos disponíveis, e que as
mesmas sejam mais justas e adequadas, ao levar em consideração suas respectivas resoluções,
deficiências e limitações.
5. AGRADECIMENTOS
Os autores agradecem ao CNPq (Processo N. 481379/2010-0) e a Fapesp (Processos
N. 2006/04008-2 e N. 2010/15974-2) pelo apoio financeiro a essa pesquisa.
6. REFERÊNCIAS BIBLIOGRÁFICAS
ANTHES, R. A.; KUO, Y. H.; HSIE, E. H.; LOW-NAN, S.; BETTGE, T. W. Estimation of
skill and uncertainty in regional numerical models. Quarterly Journal of the Royal
Meteorological Society, v. 115, n. 488A, p. 763–806, July 1989.
DALEY, R. AND CHERVIN, R. M.; Statistical Significance Testing in Numerical Weather
Prediction. Monthly Weather Review, v. 113, 1985
ECMWF,
Magics++;
("http://www.ecmwf.int/products/data/software/magics++.html").
Acessado em 10/10/2010.
GRELL, G. Pregnostic evaluation of assumptions used by cumulus parameterization. Mon.
Wea. Rev., v. 121, p. 764-789, 1993
LORENZ E. N., 1963. Deterministic nonperiodic flow. J. Atmos. Sci., 42:433–471.
MONICO. J. F. G. GNSS: investigações e aplicações no posicionamento geodésico, em
estudos relacionados com a atmosfera e na agricultura de precisão. Projeto FAPESP na
modalidade temático. Universidade Estadual Paulista. Presidente Prudente, SP. 2006.
PRESS, W. H.; TEUKOLSKY, S. A.; VETTERLING, W. T.; FLANNERY, B. P.; Numerical
Recipes in Fortran 90: The Art of Parallel Scientific Computing. Secong Edition. Press
Syndicate of the University of Cambridge, USA. ISBN 0 521 57439 0. 2002.
STEIN, U. E ALPERT, P. Factor Separation in Numerical Simulations. J. Atmo. Sci., v. 50, n.
14, p. 2107-2115, 1993.
VITORELLO, I. Sistema Integrado de Posicionamento GNSS para Estudos Geodinâmicos.
Projeto aprovado e em andamento com recursos da PETROBRAS. Instituto Nacional de
Pesquisas Espaciais - INPE/MCT. São José dos Campos. 2008.
WILKS, D. S. Statistical methods in the atmospheric sciences: an introduction. First edition.
San Diego: Academic Press, 1995. 465 p. (International Geophysics Series, v. 59).
WILLMOTT, C. J. ; On the Validation of models. Physical Geography, London, v. 2, n. 1., p.
184-194, 1981
WILLMOTT, C. J.; ACKLESON, S. G.; DAVIS, R. E.; FEDDEMA, J. J.; KLINK, K. M.;
LEGATE, D. R.; O’DONNELL, J. AND ROWE, C. M. ; Statistics of the Evaluation and
Comparison of Models. Journal of Geophysical Research, v. 90, n. C5, p. 8995-9005, 1985

Documentos relacionados