A procura de um modelo de regressão linear para modelar a

Transcrição

A procura de um modelo de regressão linear para modelar a
A procura de um modelo de regressão linear para
modelar a umidade relativa do ar
Josimar Mendes de Vasconcelos
Universidade Federal do Piauí, rua Cícero Eduardo, S/N - Bairro Junco – Picos/PI, CEP: 64600-000
Resumo  Dentre as cidades do Nordeste, A capital do Rio
Grande do Norte, Natal, é uma cidade privilegiada através de
um ótimo clima. Essa ocorrência é devido ao Rio Potengi e o
Oceano Atlântico que banham a cidade. Por meio disso a
umidade relativa do ar se torna de boa qualidade atraindo
diversos pesquisadores à estudar essa e outras variáveis
relacionadas ao clima. Logo, teve–se como objetivo principal o
ajuste do modelo de regressão linear da variável umidade
relativa do ar sob diversos modelos procurando obter um bom
modelo para os dados relacionados ao clima de Natal utilizando
testes estatísticos, coeficiente de determinação, critérios de
informações e análise de diagnósticos. Nesse sentido sugerimos a
utilização do modelo de regressão linear através do estimador de
mínimos quadrados ponderados para representar a variável
umidade relativa do ar.
Palavras–Chave  Regressão linear, análise de diagnóstico,
modelagem climática.
I. INTRODUÇÃO
A capital do Rio Grande do Norte, Natal, atualmente, tem
cerca de 811 mil pessoas (IBGE–2011). Por enquanto, a
cidade nordestina tem a melhor qualidade de vida do Norte–
Nordeste sendo banhado pelo Rio Potengi e do outro lado
pelo Oceano Atlântico, recebendo ventos constantes. Com
tudo percebe–se que a capital tem um bom clima, isto é, a
umidade relativa do ar de Natal é de excelente qualidade. A
princípio focalizaram–se as componentes que estiveram
ligadas diretamente a variável umidade relativa do ar, por
exemplo: variáveis radiométricas e meteorológicas. Logo,
teve–se como objetivo principal o ajuste do modelo de
regressão linear para estimar a variável umidade relativa do
ar sob testes estatísticos, coeficiente de determinação,
critérios de informações e análise de diagnósticos.
Através do estudo da relação entre as alturas de pais e
filhos o matemático/filosofo Francis Galton (1822–1911)
chegou ao problema da Regressão Linear, no qual seria uma
predição do valor médio de uma variável em termos do valor
desconhecido de outra variável (variável resposta versus
variável preditora), em outras palavras, a partir de equações
lineares nos parâmetros seriam realizadas estimativas sobre o
comportamento futuro.
II. MATERIAL E MÉTODOS
Na aplicação ou escolha de um modelo adequado para
modelar a variável umidade relativa do ar, utilizou–se o
banco de dados sobre climatologia do município de Natal–
RN no ano de 2010. Os dados foram coletados por meio do
sitio <http://sonda.ccst.inpe.br/basedados/index.html>, em
minu–tos, ou seja, obteve–se 525.600 observações, no qual
tomou–se a média diária dos dados ficando com 365 valores.
As variáveis estudadas são classificadas como: variáveis
radiométricas (Radiação global horizontal–RGH, Radiação
difusa–D.AVG, Radiação par–P.AVG, Iluminância–L.AVG)
e variáveis meteorológicas (Temperatura do ar na superfície–
TEMP, Umidade do ar–UMI, Pressão atmosférica–PRES,
Velocidade do vento–VEL.VENT, Direção do vento–
DIR.VENT).
Para o ajuste dos dados utilizou–se 7 (sete) tipos de
modelos que se encontra na Tabela 3. Primeiramente
verificou–se qual o modelo que tinha o melhor coeficiente de
determinação e o menor critério de informação; depois por
meio do teste de Jarque–Bera e de Koenker verificou–se a
normalidade e homoscedasticidades dos modelos para
finalmente ajustar o modelo final e observar a adequabilidade
do modelo.
III. RESULTADOS
Análise descritiva dos dados
Nesta seção, será analisado o comportamento das
variáveis RGH (Wm(–2)), D.AVG (Wm(–2)), P.AVG (s(–1)m(–
2)
), L.AVG (kLux), TEMP (ºC), UMI (%), PRES (milibares),
VEL.VENT (ms(–1)) e DIR.VENT (0º a 360º horário), através
de algumas medidas descritivas e gráficos.
Na Tabela 1 obteve–se as principais estatísticas
descritivas das variáveis em estudo e percebe–se que as
variáveis D.AVG e L.AVG são heterogêneas. Também, a
média é maior do que a mediana e a mediana maior que a
moda de Pearson em quase todas as variáveis, em vista disso,
os dados estão concentrados a esquerda da média amostral. A
seguir, apresentam–se na Tabela 2 a matriz de correlações,
dois a dois, das variáveis, em que se chama atenção para as
variáveis RGH & D.AVG, L.AVG & P.AVG e UMI & PRES
que foram bem correlacionadas. Na última linha da Tabela 2
encontra–se o fator de inflação da variância (FIV) das
variáveis, onde são todas menores que 5 (cinco)
demonstrando a inexistência de multicolinearidade, portanto
pode–se utilizar o modelo de regressão com as possíveis
variáveis explanatórias sem precisar aplicar outra ferramenta
estatística.
No diagrama de dispersão, Fig. 1, verifica–se que há uma
relação suavemente linear entre a variável umidade e algumas
variáveis, sendo dois a dois. Já as variáveis explanatórias
RGH & D.AVG são fortemente correlacionadas induzindo a
retirar uma das duas variáveis ou as duas variáveis do
possível modelo a ser ajustado.
Ajuste e análise do modelo
Agora vamos propor alguns modelos e tentar escolher
dentre eles o que melhor explica a variabilidade da variável
resposta. Inicialmente resumimos os principais ajustes do
modelo de regressão, no qual ajustamos 7 (sete) tipos de
modelos (veja Gujarati, 2006 e Souza, 1998) para modelagem
da variável resposta umidade relativa do ar (UMI).
Por meio dos resultados da Tabela 3, observa–se que o
modelo inverso, log–inverso, log–linear e log–lin teve–se as
hipóteses básicas de normalidade e homoscedasticidades dos
erros aleatórios rejeitados, com nível de 1% de significância,
quando utilizados os testes de Jarque–Bera e Koenker.
Também, obteve–se os menores coeficiente de determinação.
Portanto, essas formas funcionais não são adequadas.
Os modelos lin–log, transformado e linear – em que o
lin–log corresponde ao logaritmo natural nas variáveis
respostas, o transformado é referente a transformação Box–
Cox (com lambda igual a 0,9167) e o linear é o modelo de
regressão linear clássico – apresentaram bons resultados
através do R2, AIC e BIC; da mesma forma pelo teste de
Jarque–Bera teve–se que a hipótese nula de normalidade dos
resíduos nesses três modelos foram não rejeitados, ao nível
de 1%. Porém, não foram capazes de estabilizar a variância
dos resíduos, diante do teste de Koenker. Nesse caso, às
inferências baseadas nas estimativas dos parâmetros podem
ser distorci–das (vide Davidson & MacKinnon, 1993), no
qual os estima–dores de mínimos quadrados ordinários, ainda
que não ten–denciosos e consistentes, deixam de ser
eficientes (assintoti–camente) sob heteroscedasticidade.
Como o modelo de regressão linear clássico obteve o melhor
resultado, pelo critério do coeficiente de determinação e uma
significativa melhora no ajuste do gráfico entre os valores
observados versus valores preditos que encontra–se na Fig. 2,
sugere–se trabalhar esse modelo através do estimador de
mínimos quadrados ponderados (wi = 1/sigma2i), sem a
variável RGH (essa variável não foi significante e
correlacionada com a variável D.AVG, veja na Tabela 2),
para suavizar a suposição de que a variância seja constante,
devido ter causado heteroscedasticidade. Por isso, por meio
da Tabela 4, observa–se que as estimativas são significantes
através do teste t.
Normalidade e análise de diagnóstico
Depois de ajustado o modelo de regressão linear sob o
estimador de mínimos quadrados ponderados para estimar a
variável umidade relativa do ar verificou–se adequabilidade
do modelo, isto é, se de fato o modelo escolhido encontra–se
no padrão recomendado. Logo, foi observado se existe ponto
de alavanca, influente, aberrante ou se o modelo está com a
variabilidade constante. Portanto, por meio da Figura 3
percebe–se que não existe nenhum ponto que influi no ajuste
do modelo, por mais que tenha um ponto se destacando, mas
este ponto não afeta no ajuste do modelo. Por fim, tem–se o
histograma e o gráfico de envelope normal na Figura 4, no
qual mostra claramente que eles se distribuem de maneira
aproximadamente normal.
III. CONCLUSÃO
No discorrer desse estudo pode–se empregar várias
ferramentas estatística no contexto de análise de regressão, na
qual obteve como enfoque principal propor um modelo que
melhor representa–se os dados da umidade relativa do ar do
ano de 2010 da cidade do Natal–RN. Então, observou–se 7
(sete) possíveis modelos e dentre eles optou–se pelo modelo
de regressão linear sob o estimador de mínimos quadrados
ponderados para suavizar a variabilidade, ou seja, deixa–lá
constante (homocedástica). Em seguida, verificou–se que o
modelo é adequado por meio do diagnóstico, histograma, o
gráfico de envelope normal e os testes de Jarque–Bera &
Koenker. Por último, teve–se o prestígio de observar o
gráfico da Fig. 2 – valores observados versus valores preditos
– que mostra uma significativa melhora no ajuste do modelo.
Nesse sentido continua–se a sugestão de utilizar o modelo de
regressão linear através do estimador de mínimos quadrados
ponderados para representar a variável umidade relativa do ar
da cidade de Natal – RN.
REFERÊNCIAS
[1]
[2]
[3]
[4]
CRIBARI-NETO, F. “Asymptotic inference under heteroskedasticity
of unknown form”. Computational Statistics & Data Analysis, vol. 45,
p. 215-233. 2004.
DAVIDSON, R. & MACKINNON, J. G. “Estimation and Inference in
Econometrics”. New-York: Oxford University Press. 1993.
GUJARATI, D. N. “Basic Econometrics”. 4th ed. Nova York:
McGraw-Hill. p. 1024. 2006.
SOUZA, Geraldo da Silva. “Introdução aos modelos de regressão
linear e não-linear”. Brasilia: EMBRAPA-SPI. 505p. 1998.