A procura de um modelo de regressão linear para modelar a
Transcrição
A procura de um modelo de regressão linear para modelar a
A procura de um modelo de regressão linear para modelar a umidade relativa do ar Josimar Mendes de Vasconcelos Universidade Federal do Piauí, rua Cícero Eduardo, S/N - Bairro Junco – Picos/PI, CEP: 64600-000 Resumo Dentre as cidades do Nordeste, A capital do Rio Grande do Norte, Natal, é uma cidade privilegiada através de um ótimo clima. Essa ocorrência é devido ao Rio Potengi e o Oceano Atlântico que banham a cidade. Por meio disso a umidade relativa do ar se torna de boa qualidade atraindo diversos pesquisadores à estudar essa e outras variáveis relacionadas ao clima. Logo, teve–se como objetivo principal o ajuste do modelo de regressão linear da variável umidade relativa do ar sob diversos modelos procurando obter um bom modelo para os dados relacionados ao clima de Natal utilizando testes estatísticos, coeficiente de determinação, critérios de informações e análise de diagnósticos. Nesse sentido sugerimos a utilização do modelo de regressão linear através do estimador de mínimos quadrados ponderados para representar a variável umidade relativa do ar. Palavras–Chave Regressão linear, análise de diagnóstico, modelagem climática. I. INTRODUÇÃO A capital do Rio Grande do Norte, Natal, atualmente, tem cerca de 811 mil pessoas (IBGE–2011). Por enquanto, a cidade nordestina tem a melhor qualidade de vida do Norte– Nordeste sendo banhado pelo Rio Potengi e do outro lado pelo Oceano Atlântico, recebendo ventos constantes. Com tudo percebe–se que a capital tem um bom clima, isto é, a umidade relativa do ar de Natal é de excelente qualidade. A princípio focalizaram–se as componentes que estiveram ligadas diretamente a variável umidade relativa do ar, por exemplo: variáveis radiométricas e meteorológicas. Logo, teve–se como objetivo principal o ajuste do modelo de regressão linear para estimar a variável umidade relativa do ar sob testes estatísticos, coeficiente de determinação, critérios de informações e análise de diagnósticos. Através do estudo da relação entre as alturas de pais e filhos o matemático/filosofo Francis Galton (1822–1911) chegou ao problema da Regressão Linear, no qual seria uma predição do valor médio de uma variável em termos do valor desconhecido de outra variável (variável resposta versus variável preditora), em outras palavras, a partir de equações lineares nos parâmetros seriam realizadas estimativas sobre o comportamento futuro. II. MATERIAL E MÉTODOS Na aplicação ou escolha de um modelo adequado para modelar a variável umidade relativa do ar, utilizou–se o banco de dados sobre climatologia do município de Natal– RN no ano de 2010. Os dados foram coletados por meio do sitio <http://sonda.ccst.inpe.br/basedados/index.html>, em minu–tos, ou seja, obteve–se 525.600 observações, no qual tomou–se a média diária dos dados ficando com 365 valores. As variáveis estudadas são classificadas como: variáveis radiométricas (Radiação global horizontal–RGH, Radiação difusa–D.AVG, Radiação par–P.AVG, Iluminância–L.AVG) e variáveis meteorológicas (Temperatura do ar na superfície– TEMP, Umidade do ar–UMI, Pressão atmosférica–PRES, Velocidade do vento–VEL.VENT, Direção do vento– DIR.VENT). Para o ajuste dos dados utilizou–se 7 (sete) tipos de modelos que se encontra na Tabela 3. Primeiramente verificou–se qual o modelo que tinha o melhor coeficiente de determinação e o menor critério de informação; depois por meio do teste de Jarque–Bera e de Koenker verificou–se a normalidade e homoscedasticidades dos modelos para finalmente ajustar o modelo final e observar a adequabilidade do modelo. III. RESULTADOS Análise descritiva dos dados Nesta seção, será analisado o comportamento das variáveis RGH (Wm(–2)), D.AVG (Wm(–2)), P.AVG (s(–1)m(– 2) ), L.AVG (kLux), TEMP (ºC), UMI (%), PRES (milibares), VEL.VENT (ms(–1)) e DIR.VENT (0º a 360º horário), através de algumas medidas descritivas e gráficos. Na Tabela 1 obteve–se as principais estatísticas descritivas das variáveis em estudo e percebe–se que as variáveis D.AVG e L.AVG são heterogêneas. Também, a média é maior do que a mediana e a mediana maior que a moda de Pearson em quase todas as variáveis, em vista disso, os dados estão concentrados a esquerda da média amostral. A seguir, apresentam–se na Tabela 2 a matriz de correlações, dois a dois, das variáveis, em que se chama atenção para as variáveis RGH & D.AVG, L.AVG & P.AVG e UMI & PRES que foram bem correlacionadas. Na última linha da Tabela 2 encontra–se o fator de inflação da variância (FIV) das variáveis, onde são todas menores que 5 (cinco) demonstrando a inexistência de multicolinearidade, portanto pode–se utilizar o modelo de regressão com as possíveis variáveis explanatórias sem precisar aplicar outra ferramenta estatística. No diagrama de dispersão, Fig. 1, verifica–se que há uma relação suavemente linear entre a variável umidade e algumas variáveis, sendo dois a dois. Já as variáveis explanatórias RGH & D.AVG são fortemente correlacionadas induzindo a retirar uma das duas variáveis ou as duas variáveis do possível modelo a ser ajustado. Ajuste e análise do modelo Agora vamos propor alguns modelos e tentar escolher dentre eles o que melhor explica a variabilidade da variável resposta. Inicialmente resumimos os principais ajustes do modelo de regressão, no qual ajustamos 7 (sete) tipos de modelos (veja Gujarati, 2006 e Souza, 1998) para modelagem da variável resposta umidade relativa do ar (UMI). Por meio dos resultados da Tabela 3, observa–se que o modelo inverso, log–inverso, log–linear e log–lin teve–se as hipóteses básicas de normalidade e homoscedasticidades dos erros aleatórios rejeitados, com nível de 1% de significância, quando utilizados os testes de Jarque–Bera e Koenker. Também, obteve–se os menores coeficiente de determinação. Portanto, essas formas funcionais não são adequadas. Os modelos lin–log, transformado e linear – em que o lin–log corresponde ao logaritmo natural nas variáveis respostas, o transformado é referente a transformação Box– Cox (com lambda igual a 0,9167) e o linear é o modelo de regressão linear clássico – apresentaram bons resultados através do R2, AIC e BIC; da mesma forma pelo teste de Jarque–Bera teve–se que a hipótese nula de normalidade dos resíduos nesses três modelos foram não rejeitados, ao nível de 1%. Porém, não foram capazes de estabilizar a variância dos resíduos, diante do teste de Koenker. Nesse caso, às inferências baseadas nas estimativas dos parâmetros podem ser distorci–das (vide Davidson & MacKinnon, 1993), no qual os estima–dores de mínimos quadrados ordinários, ainda que não ten–denciosos e consistentes, deixam de ser eficientes (assintoti–camente) sob heteroscedasticidade. Como o modelo de regressão linear clássico obteve o melhor resultado, pelo critério do coeficiente de determinação e uma significativa melhora no ajuste do gráfico entre os valores observados versus valores preditos que encontra–se na Fig. 2, sugere–se trabalhar esse modelo através do estimador de mínimos quadrados ponderados (wi = 1/sigma2i), sem a variável RGH (essa variável não foi significante e correlacionada com a variável D.AVG, veja na Tabela 2), para suavizar a suposição de que a variância seja constante, devido ter causado heteroscedasticidade. Por isso, por meio da Tabela 4, observa–se que as estimativas são significantes através do teste t. Normalidade e análise de diagnóstico Depois de ajustado o modelo de regressão linear sob o estimador de mínimos quadrados ponderados para estimar a variável umidade relativa do ar verificou–se adequabilidade do modelo, isto é, se de fato o modelo escolhido encontra–se no padrão recomendado. Logo, foi observado se existe ponto de alavanca, influente, aberrante ou se o modelo está com a variabilidade constante. Portanto, por meio da Figura 3 percebe–se que não existe nenhum ponto que influi no ajuste do modelo, por mais que tenha um ponto se destacando, mas este ponto não afeta no ajuste do modelo. Por fim, tem–se o histograma e o gráfico de envelope normal na Figura 4, no qual mostra claramente que eles se distribuem de maneira aproximadamente normal. III. CONCLUSÃO No discorrer desse estudo pode–se empregar várias ferramentas estatística no contexto de análise de regressão, na qual obteve como enfoque principal propor um modelo que melhor representa–se os dados da umidade relativa do ar do ano de 2010 da cidade do Natal–RN. Então, observou–se 7 (sete) possíveis modelos e dentre eles optou–se pelo modelo de regressão linear sob o estimador de mínimos quadrados ponderados para suavizar a variabilidade, ou seja, deixa–lá constante (homocedástica). Em seguida, verificou–se que o modelo é adequado por meio do diagnóstico, histograma, o gráfico de envelope normal e os testes de Jarque–Bera & Koenker. Por último, teve–se o prestígio de observar o gráfico da Fig. 2 – valores observados versus valores preditos – que mostra uma significativa melhora no ajuste do modelo. Nesse sentido continua–se a sugestão de utilizar o modelo de regressão linear através do estimador de mínimos quadrados ponderados para representar a variável umidade relativa do ar da cidade de Natal – RN. REFERÊNCIAS [1] [2] [3] [4] CRIBARI-NETO, F. “Asymptotic inference under heteroskedasticity of unknown form”. Computational Statistics & Data Analysis, vol. 45, p. 215-233. 2004. DAVIDSON, R. & MACKINNON, J. G. “Estimation and Inference in Econometrics”. New-York: Oxford University Press. 1993. GUJARATI, D. N. “Basic Econometrics”. 4th ed. Nova York: McGraw-Hill. p. 1024. 2006. SOUZA, Geraldo da Silva. “Introdução aos modelos de regressão linear e não-linear”. Brasilia: EMBRAPA-SPI. 505p. 1998.