mônica de avelar figueiredo mafra magalhães a tuberculose no

Transcrição

mônica de avelar figueiredo mafra magalhães a tuberculose no
UNIVERSIDADE FEDERAL DO RIO DE JANEIRO
MÔNICA DE AVELAR FIGUEIREDO MAFRA MAGALHÃES
A TUBERCULOSE NO ESPAÇO URBANO: UM ESTUDO ECOLÓGICO
UTILIZANDO ANÁLISE ESPACIAL NO MUNICÍPIO DO RIO DE JANEIRO NOS
ANOS DE 2005 A 2008
RIO DE JANEIRO
2014
Mônica de Avelar Figueiredo Mafra Magalhães
A TUBERCULOSE NO ESPAÇO URBANO: UM ESTUDO ECOLÓGICO
UTILIZANDO ANÁLISE ESPACIAL NO MUNICÍPIO DO RIO DE JANEIRO NOS
ANOS DE 2005 A 2008
Tese apresentada ao Programa de Pós-Graduação sem
Saúde Coletiva, do Instituto de Estudos em Saúde
Coletiva da Universidade Federal do Rio de Janeiro,
como requisito parcial para obtenção do título de
Doutora em Saúde Coletiva.
Orientador: Roberto de Andrade Medronho
Rio de Janeiro
2014
M188
Magalhães, Mônica de Avelar Figueiredo Mafra.
A tuberculose no espaço urbano: um estudo ecológico
utilizando análise espacial no município do Rio de Janeiro nos
anos 2005 a 2008. – Rio de Janeiro: UFRJ/ Instituto
de Estudos em Saúde Coletiva, 2014.
111 f.; 30cm.
Orientador: Roberto de Andrade Medronho.
Tese (Doutorado) - UFRJ/ Instituto de Estudos em
Saúde Coletiva, 2014.
Referências: f. 106-110.
1. Tuberculose. 2. Análise espacial. 3. Análise de regressão.
4. Sistemas de informação geográfica. 5. Fatores socioeconômicos.
6. Estudos ecológicos. 7. Epidemiologia. I. Medronho, Roberto de
Andrade. II. Universidade Federal do Rio de Janeiro, Instituto de
Estudos em Saúde Coletiva. III. Título.
CDD 614.542
Para Daniel, Eduardo e Leonardo
AGRADECIMENTOS
Aos meus filhos, por existirem e estarem sempre muito perto. Dudu pela parceria e
Dani pela alegria.
Ao Leonardo por insistir em ficar do meu lado. Pela paciência e perseverança.
Aos meus pais por me incentivarem a ser independente e responsável pelos meus atos.
Aos meus irmãos, Lu e Sergio e quase irmã, Adriane pela união.
À Simone por manter meu cantinho sempre organizado e bem cuidado.
Aos meus amigos do Núcleo de Geoprocessamento, Renata, Roberta, Heglaucio,
Vanderlei, Diego, Júlia, Fabi, Guilherme, Paty, Christovam e todos que passaram por lá pela
cumplicidade e por dividirem comigo a ansiedade desse período de doutorado. Ao amigo
Paulo pelo auxílio essencial na reta final. À Rosane pelas palavras doces, sempre...
À minha amiga Fátima Pina por tudo que me ensinou desde a época de iniciação
científica.
Aos amigos da academia pela alegria de todas as manhãs. As amigas, Adriana,
Patrícia, Rosana por me divertirem e me mostrarem que existem muitas maneiras de ser feliz.
A Elaine pela força e demonstrações de carinho.
Ao meu orientador, Roberto Medronho, sempre dedicado, educado e competente.
Aos membros da banca examinadora, Christovam Barcellos, Reinaldo Souza Santos,
Guilherme Werneck, Rejane Pinheiro, Volney Câmara e Roberta Argento por aceitarem o
convite e por serem fonte de inspiração.
Ao pessoal do administrativo do IESC pela presteza. Ao pessoal do gabinete de
Medicina da UFRJ pela atenção e cordialidade.
Aos meus colegas de trabalho do LIS, em quem me espelho para ser uma profissional
melhor e mais competente.
Ao amigo Ivan pela parceria e pelas dicas estatísticas.
Ao pessoal da Secretaria Municipal de Saúde do Rio de Janeiro que sempre me
recebeu muito bem. À Valéria Saraceni pela rapidez que me disponibilizou os dados e pela
aula sobre o Sinan. E a Evanelza e equipe pela presteza e agilidade no georreferenciamento
dos casos “perdidos”.
E a todos que de alguma maneira me apoiaram e incentivaram nas horas que titubeei...
E desculpa aos amigos e familiares pela distância nesses últimos meses. Foi por um
bom motivo...
Navegar é preciso, viver não é preciso...
Fernando Pessoa
MAGALHÃES, Mônica de Avelar F. M. A tuberculose no espaço urbano: um estudo
ecológico utilizando análise espacial no município do Rio de Janeiro nos anos de 2005 a
2008. Tese (Doutorado em Saúde Coletiva) – Instituto de Estudos em Saúde Coletiva,
Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2012.
Resumo
O objetivo da tese foi analisar a distribuição espacial da ocorrência da tuberculose no
município do Rio de Janeiro nos anos de 2005 a 2008, correlacionando com variáveis
socioeconômicas, através de técnicas de estatística espacial discutindo diferentes métodos de
análise. Os resultados obtidos geraram três artigos. O primeiro avaliou a qualidade do dado
referente ao endereço do Sinan-TB e mediu impactos nos cálculos de indicadores de
tuberculose quando usado georreferenciamento dos casos no nível do bairro. O campo de
endereço foi corrigido com intuito de melhorar o georreferenciamento. Foram corrigidos 27%
dos registros. Foram georreferenciados 89% dos endereços. A partir do indicador criado
através da razão entre a taxa de incidência da tuberculose calculada a partir do bairro de
moradia declarado pelo paciente e a taxa de incidência do bairro obtido após o
georreferenciamento do endereço do mesmo indivíduo, nota-se que apenas 28% dos bairros
apresentaram um valor entre 0,85 e 1,15, que foi considerado como razoável. O segundo
artigo analisou o padrão espacial da tuberculose identificando variáveis socioeconômicas
relevantes para a ocorrência de tuberculose através de modelos estatísticos espaciais. A
análise espacial foi feita utilizando a estratégia de análise de dados por setor censitário. Para
minimizar a instabilidade das taxas de incidência de tuberculose foi aplicado o método
Bayesiano Empírico Local. Foi utilizado um modelo de regressão multivariada clássica e
depois comparadas aos modelos de regressão espaciais globais Spatial Lag e Spatial Error. A
dependência espacial foi detectada usando índice de Moran. Entre os modelos de regressão
espaciais globais, o que apresentou os melhores parâmetros foi o Spatial Lag com R2 de
0,3215, Log da Verossimilhança = -9228,39, AIC = 18468 e SBC = 18512,2. E o índice de
Moran dos resíduos foi de -0,018. Finalmente o terceiro artigo que teve como objetivo
analisar através de modelo de regressão ponderado geograficamente (GWR - Geographically
Weighted Regression), os indicadores socioeconômicos mais associados à locais de maior
ocorrência da tuberculose. Os mapas gerados pelo modelo GWR permitiram analisar a
distribuição de cada variável independente através das estimativas e de seus valores de t
associados. Os resultados da tese permitem constatar a importância do uso de ferramentas de
análise espacial que incorporam a dependência espacial em áreas de ocorrência de
tuberculose. É certo de que a variedade de técnicas analíticas disponíveis em Sistemas de
Informações Geográficas tornaram o estudo viável e mostrou capacidade para a produção de
um modelo de ocorrência de tuberculose.
PALAVRAS-CHAVES:
Tuberculose,
georreferenciamento,
geoprocessamento, modelo de regressão espacial global,
geograficamente
análise
regressão
espacial,
ponderada
MAGALHÃES, Mônica de Avelar F. M. A tuberculose no espaço urbano: um estudo
ecológico utilizando análise espacial no município do Rio de Janeiro nos anos de 2005 a
2008. Tese (Doutorado em Saúde Coletiva) – Instituto de Estudos em Saúde Coletiva,
Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2012.
Abstract
The aim of the thesis was to analyze the spatial distribution of the occurrence of tuberculosis
in the city of Rio de Janeiro in the years 2005 to 2008, correlating with socioeconomic
variables, using spatial statistical techniques discussing different methods of analysis. The
results generated three articles. The first assessed the quality of the data refers to the address
of Sinan-TB and measured impacts in the calculation of indicators of tuberculosis when used
georeferencing cases the neighbourhood level. The address field has been fixed with the aim
of improving the georeferencing. Were corrected 27 % of the records. Were geocoded 89 %
of the addresses. From the indicator created by the ratio between the incidence rate of
tuberculosis calculated from the housing neighborhood declared by the patient and the
incidence rate of the neighborhood obtained after georeferencing the address of the same
individual, it is noted that only 28 % of districts with a value between 0.85 and 1.15, which
was considered reasonable. The second paper analyzed the spatial pattern of tuberculosis
identifying relevant socioeconomic variables for the occurrence of tuberculosis through
spatial statistical models. Spatial analysis was performed using the strategy of data analysis by
census tract. To eliminate the instability of the data was applied Bayesian Local Empirical
method. A model of classical multivariate regression was used and then compared the spatial
regression models Global Spatial Lag and Spatial Error. The spatial dependence was detected
using Moran's index. Among the global spatial regression models, which showed the best
parameters was the Spatial Lag with R2 of 0.3215 , log likelihood = -9228.39 , AIC and SBC
= 18468 = 18512.2 . And the residuals Moran index was -0.018. Finally the third article aims
to analyze through geographically weighted regression - GWR, more associated with areas of
higher occurrence of tuberculosis socioeconomic indicators. The maps generated by the GWR
model allowed to analyze the distribution of each variable through estimates and their
associated t values. The results of the thesis allow us to affirm the importance of using spatial
analysis tools that incorporate spatial dependence in areas of tuberculosis. It is true that the
variety of analytical techniques available in Geographical Information Systems has made the
study feasible and showed a high capacity to produce a predictive model of occurrence of
tuberculosis
KEYWORDS: Tuberculosis, geocoding, spatial analysis, GIS, global spatial regression,
geographically weighted regression.
SUMÁRIO
1. INTRODUÇÃO .................................................................................................................... 15
1.1. A TUBERCULOSE ....................................................................................................... 15
1.1.1. Tuberculose no Brasil ............................................................................................. 17
1.2. SISTEMA DE INFORMAÇÃO DE AGRAVOS DE NOTIFICAÇÃO – SINAN ...... 17
1.3. ANÁLISE ESPACIAL .................................................................................................. 19
1.4. ESTATÍSTICA ESPACIAL .......................................................................................... 20
1.5. GEOPROCESSAMENTO E SISTEMAS DE INFORMAÇÕES GEOGRÁFICAS NA
SAÚDE ................................................................................................................................. 21
1.5.1. Georreferenciamento de dados de saúde ................................................................ 22
2. OBJETIVOS ......................................................................................................................... 25
2.1. OBJETIVO GERAL ...................................................................................................... 25
2.2. OBJETIVOS ESPECÍFICOS ........................................................................................ 25
3. MATERIAIS E MÉTODOS................................................................................................. 26
3.1. FONTE DE DADOS ..................................................................................................... 27
3.1.1. Dados de saúde ....................................................................................................... 27
3.1.2. Dados cartográficos: ............................................................................................... 27
3.1.3. Dados populacionais e socioeconômicos ............................................................... 28
3.2. MÉTODOS .................................................................................................................... 29
3.2.1. Artigo 1 ................................................................................................................... 29
3.2.1.1. Georreferenciamento dos dados de tuberculose .................................................. 29
3.2.1.2. Tratamento e integração dos dados em SIG ........................................................ 31
3.2.2. Artigo 2 ................................................................................................................... 32
3.2.2.1. Análise espacial dos dados com modelos com efeitos espaciais globais ............ 32
3.2.3. Artigo 3 ................................................................................................................... 37
3.2.3.1. Análise espacial dos dados com modelos de Regressão Ponderada
Geograficamente ............................................................................................................... 37
5. RESULTADOS .................................................................................................................... 40
5.1. ARTIGO 1 ..................................................................................................................... 40
4.2. ARTIGO 2 ..................................................................................................................... 59
4.3. ARTIGO 3 ..................................................................................................................... 80
6. CONCLUSÃO .................................................................................................................... 104
7. REFERÊNCIAS ................................................................................................................. 106
LISTA DE TABELAS
Artigo 1
Tabela 1: Número total de casos de TB notificados e georreferenciados segundo ano de
notificação ............................................................................................................................... 48
Tabela 2: Número de casos segundo faixa etária e sexo.......................................................... 48
Tabela 3: Georreferenciamento automático dos casos de TB.................................................. 49
Artigo 2
Tabela 1: Matriz de correlação de Spearman........................................................................... 71
Tabela 2: Modelo OLS para o log da taxa de incidência após alisamento bayesiano ............ 72
Tabela 3: Índices R2, log da verossimilhança, critério de informação de Akaike e do critério
bayesiano Schwarz (SBC) para os três modelos estudados..................................................... 74
Artigo 3
Tabela 1: Matriz de correlação de Spearman........................................................................... 89
Tabela 2: Modelo OLS para o log da taxa de incidência após alisamento bayesiano ............ 90
LISTA DE FIGURAS
Figura 1: Município do Rio de Janeiro por bairros e áreas de planejamento ........................... 26
Figura 2: Base cartográfica com eixo de logradouros e numeração. ........................................ 28
Artigo 1
Figura 1: Mapa de Kernel a partir do georreferenciamento dos casos de TB por ano de
notificação............................................................................................................................... 50
Figura 2: Mapa com as taxas de incidência calculadas para o bairro declarado e para o bairro
georreferenciado...................................................................................................................... 51
Figura 3: Mapa com o indicador (I) por bairros...................................................................... 52
Artigo 2
Figura 1: Mapa da taxa de incidência de tuberculose após o alisamento bayesiano por setor
censitário.................................................................................................................................. 68
Figura 2: Mapa do Indicador local de autocorrelação espacial (LISA) para a variável
dependente. (A) Áreas com valores signficativos; (B) Espalhamento do LISA.................... 69
Figura 3: Mapa do Indicador local de autocorrelação espacial (LISA) para os resíduos do
modelo OLS. (A) Áreas com valores signficativos; (B) Espalhamento do LISA................... 73
Artigo 3
Figura 1: Mapa do Indicador local de autocorrelação espacial (LISA) para a variável
dependente. (A) Áreas com valores signficativos; (B) Espalhamento do LISA..................... 91
Figura 2: (A) Contribuição da variável Proporção de responsável com renda entre 1 e 2
salários-mínimos na taxa de incidência (log da taxa de incidência após alisamento bayesiano)
por setor censitário e (B) valores de t associados.................................................................... 92
Figura 3: (A) Contribuição da variável Proporção de analfabetos na taxa de incidência (log da
taxa de incidência após alisamento bayesiano) por setor censitário e (B) valores de t
associados................................................................................................................................. 93
Figura 4: (A) Contribuição da variável Proporção de domicílios com pessoas que moram
sozinhas na taxa de incidência (log da taxa de incidência após alisamento bayesiano) por setor
censitário e (B) valores de t associados................................................................................... 93
Figura 5: (A) Contribuição da variável Renda média do responsável na taxa de incidência (log
da taxa de incidência após alisamento bayesiano) por setor censitário e (B) valores de t
associados................................................................................................................................. 94
Figura 6: Mapas das estimativas e t valor para as variáveis independentes............................ 95
Figura 7: Mapas dos parâmetros do GWR: (A) valores observados, e (B) valores preditos... 97
Figura 8: Mapa dos resíduos do modelo GWR........................................................................98
LISTA DE SIGLAS
AIG - Assessoria de Informação Geográfica
AIC - Critério de Informação de Akaike
FIN - Ficha Individual de Notificação
FIOCRUZ - Fundação Oswaldo Cruz
GPS - Global Positioning System
GWR - Regressão Ponderada Geograficamente (Geographically Weighted Regression)
HIV - Vírus da Imunodeficiência Humana
IBGE - Instituto Brasileiro de Geografia e Estatística
ICICT - Instituto de Comunicação e Informação Científica e Tecnológica
IPP - Instituto Pereira Passos
LISA - Local Indicator of Spatial Association
OLS - Ordinary Least Squares Estimation
OMS - Organização Mundial e Saúde
P_ANALF - Proporção de alfabetos
P_DOM_AG - Proporção de domicílio com abastecimento de água da rede geral
P_DOM_BA - Proporção de domicílios com banheiro de uso exclusivo dos moradores ou
sanitário
P_DOM_CL - Proporção de domicílio com coleta de lixo por serviço de limpeza
P_DOM_MS - Proporção de domicílios com pessoas que moram sozinhas
P_DOM_SA - Proporção de domicílio com banheiro de uso exclusivo dos moradores ou
sanitário e esgotamento sanitário via rede geral de esgoto ou pluvial
PNCT – Programa Nacional de Controle da Tuberculose
POP_DOM - Número médio de pessoas por domicílios
P_P_BRA - Proporção de cor de pele declarada branca
P_P_PRE - Proporção de cor de pele declarada preta
P_P_PAR - Proporção de cor de pele declarada parda
P_R_1SM - Proporção de responsável com renda mensal menor que 1 salário-mínimo
P_R_2SM - Proporção de responsável com renda maior que 1 salário-mínimo e menor que 2
salários-mínimos
RA – Região Administrativa
RM_DOM - Renda familiar média
RM_RESP - Renda média do responsável
SBC - Critério Bayesiano Schwarz
SES – Secretaria Estadual de Saúde
SIG – Sistema de Informações Geográficas
SMS – Secretaria Municipal de Saúde
SMSDC-RJ - Secretaria Municipal de Saúde e Defesa Civil do Rio de Janeiro
Sinan - Sistema de Informação de Agravos de Notificação
SUS - Sistema Único de Saúde
TB - Tuberculose
WHO - World Health Organization
15
1. INTRODUÇÃO
1.1. A TUBERCULOSE
A tuberculose (TB) é causada pelo Mycobacterium tuberculosis (bacilo de Koch) e
pode acometer órgãos e sistemas. A apresentação da TB na forma pulmonar especialmente a
bacilífera (90% dos casos) é a mais comum e a mais relevante para a saúde pública, pois é a
responsável pela manutenção da cadeia de transmissão da doença (Brasil, 2010). A forma
extrapulmonar decorre da disseminação do bacilo pelo organismo através das vias
linfohematogênica, hematogênica, por contigüidade ou intra-canalicular (Campos, 2006).
O método mais comum para o diagnóstico de TB no mundo é a baciloscopia de
escarro (desenvolvido há mais de 100 anos), em que as bactérias da expectoração são
examinadas sob um microscópio.
O homem é o principal reservatório do bacilo de Koch e em geral o indivíduo com a
forma pulmonar da doença é a fonte de contaminação, pois elimina bacilos para o exterior. O
doente pode ser denominado de bacilífero, quando a baciloscopia direta do escarro é positiva,
ou não bacilífero, quando negativa. Estima-se que numa comunidade no decorrer de um ano
um indivíduo bacilífero poderá infectar de 10 a 15 pessoas (Brasil, 2005).
Em apenas 5% dos pacientes a forma primária da doença ocorre após a infecção.
Porém, o adoecimento pode ocorrer posteriormente a partir de um foco latente, chamada de
reinfecção endógena ou em consequência de uma nova infecção (reinfecção exógena),
resultando na forma pós-primária da doença.
A TB é transmitida de pessoa a pessoa, principalmente através do ar. A infecção
ocorre a partir da inalação de gotículas contendo bacilos pela fala, espirro e, principalmente,
tosse de um doente bacilífero, o que intensifica o processo de infecção e adoecimento em
aglomerados populacionais. A probabilidade de um indivíduo ser infectado e desenvolver a
doença depende de vários fatores, dentre eles as condições socioeconômicas e condições
médicas (diabetes mellitus, silicose, uso prolongado de corticosteróide ou outros
imunossupressores, neoplasias, uso de drogas, infecção pelo HIV etc.) a que esse indivíduo
está submetido (Brasil, 2005).
A tuberculose é uma doença diretamente ligada a condições precárias de vida. O sua
ocorrência varia de acordo com as regiões do país e, inclusive, dentro das mesmas regiões
(Brasil, 2005). A incorporação da dimensão espacial nas análises da doença pode extrair
16
significados adicionais às análises convencionais, auxiliando na compreensão da dinâmica
deste agravo.
A tuberculose tem cura e os medicamentos para o tratamento (tuberculostáticos) são
distribuídos gratuitamente na rede pública. Infelizmente isso não garante totalmente a
obtenção dos medicamentos já que muitos outros fatores estão envolvidos no processo, por
exemplo, a dificuldade de acesso do paciente a unidade de saúde para a retirada da medicação.
Outro aspecto importante a ser considerado é o abandono ao tratamento que possui várias
causas: duração do tratamento (seis meses no mínimo), nível social do paciente e fatores
relacionados aos próprios serviços de saúde (falha no agendamento, problema no
acompanhamento do doente, má orientação etc.) (Ferreira et al., 2004; Paixão e Gontijo,
2007).
Apesar de há décadas existir tratamento eficaz, a tuberculose ainda é atualmente um
importante problema no âmbito da saúde pública mundial, tendo em 2007 uma incidência
global estimada de 139 casos por 100.000 habitantes e cerca de 13,7 milhões de casos
prevalentes no mundo (WHO, 2008; WHO, 2009).
Desigualdade social, advento da AIDS, envelhecimento da população e grandes
movimentos migratórios são alguns dos fatores apontados por Ruffino-Neto (2002) como
sendo as principais causas para a gravidade da situação atual da tuberculose no mundo.
Em 1993, a Organização Mundial de Saúde (OMS) declarou a situação da tuberculose
como uma emergência de saúde pública mundial num momento em que havia cerca de 7-8
milhões de casos e 1,3-1,6 milhões de mortes por ano. Em 2010, havia uma estimativa de 8,59,2 milhões de casos e 1,2-1,5 milhões de mortes (incluindo as mortes por tuberculose entre
pessoas HIV positivas). É a segunda principal causa de morte por doenças infecciosas no
mundo atrás apenas para o HIV (que causou um número estimado de 1,8 milhões de mortes
em 2008) (WHO, 2013).
Estima-se que cerca de um terço da população mundial esteja infectada com o bacilo
de Koch, sob risco, portanto, de desenvolver a enfermidade e que cerca de 95% dos casos e
98% das mortes causadas pela doença ocorrem em países em desenvolvimento (Brasil, 2005).
Desde 1981, vem-se observando, tanto em países desenvolvidos como nos em
desenvolvimento, um número crescente de casos de tuberculose em pessoas infectadas pelo
vírus da imunodeficiência humana (HIV). A associação HIV e tuberculose atualmente
representa um sério problema de saúde pública, pois ocasiona o aumento da morbidade e
mortalidade pela tuberculose em muitos países (Brasil, 2005).
17
1.1.1. Tuberculose no Brasil
No Brasil, a tuberculose (TB) atualmente ainda é um problema de saúde tão
importante quanto no início do século passado (Souza, 2005). Pelo último relatório da OMS,
o país detectou 89% de seus casos novos em 2012, o que representa cerca de 71 mil casos
(WHO, 2013). O Brasil ocupa o 17º lugar entre os 22 países responsáveis por 88% do total de
casos de tuberculose no mundo. Morrem cerca de 4.600 casos de TB no país ao ano (Brasil,
2010).
A maior concentração de casos acontece na Região Sudeste com São Paulo liderando
o número de casos brutos, mas com o Rio de Janeiro com a maior taxa de incidência. No ano
de 2010, o Estado do Rio de Janeiro notificou 14.206 casos de tuberculose e o município do
Rio de Janeiro era o que se posicionava com o maior número de notificações (7.664 casos),
seguido por Duque de Caxias (1.099 casos), Nova Iguaçu (707 casos), Niterói (661 casos) e
São Gonçalo (577casos). Em relação ao abandono do tratamento entre os anos de 2001 e
2005, o percentual médio é de 11,9% no Estado do Rio de Janeiro, enquanto no município do
Rio de Janeiro é de 8,9% (Brasil, 2009), todos além da meta estipulada pelo Plano Nacional
de Controle da Tuberculose do Ministério da Saúde.
No município do Rio de Janeiro, a tuberculose não acontece igualmente distribuída. A
incorporação da dimensão espacial nas análises da doença pode extrair significados adicionais
às análises convencionais, auxiliando na compreensão da dinâmica deste agravo.
1.2. SISTEMA DE INFORMAÇÃO DE AGRAVOS DE NOTIFICAÇÃO – SINAN
A principal fonte de dados para a tuberculose (TB) é o Sinan e a notificação se baseia
na definição de caso confirmado, na investigação e no acompanhamento dos casos (Pinheiro
et al., 2010).
O Sinan foi desenvolvido entre 1990 e 1993 com o objetivo de registrar e processar
dados sobre agravos de notificação gerados pelo Sistema de Vigilância Epidemiológica em
todo o território nacional, desde o nível local. É alimentado por informações de casos de
doenças e agravos constantes da lista nacional de doenças de notificação compulsória
(Portaria no104, de 25 de janeiro de 2011) (Brasil, 2010b).
No Sinan, a entrada de dados ocorre pela Ficha Individual de Notificação – FIN
(Anexo A) que é preenchida para cada paciente, quando da suspeita de problema de saúde de
notificação compulsória. Depois essas fichas são encaminhadas pelas unidades assistenciais
18
aos níveis centrais onde o processamento eletrônico é feito (Brasil, 2007). O nível local é
responsável pela alimentação, organização e gestão do sistema.
Os dados coletados pela FIN dividem-se segundo os itens: Dados Gerais (UF e
município de notificação, unidade de saúde notificadora, data da notificação, data do
diagnóstico, etc.), Notificação individual (nome do paciente, nascimento, idade, sexo,
presença de gestação, escolaridade, etc.), Dados de residência (UF, município, bairro,
logradouro, número,
complemento, referência, CEP, telefone, etc.), Antecedentes
epidemiológicos (ocupação, tipo de entrada, se paciente é institucionalizado, etc.), Dados
clínicos (raio X do tórax, teste tuberculínico, forma, agravos associados, etc.), Dados do
laboratório (baciloscopia, cultura, HIV, histopatologia, etc.), Tratamento (data do início do
tratamento, drogas, indicação para tratamento supervisionado, etc.) e Investigador (unidade de
saúde, nome do profissional, etc.).
Dentre esses, alguns campos são de preenchimento obrigatório: Número da
Notificação, Data da Notificação, Município da Notificação, Unidade de Saúde, Data
de Diagnóstico,
Município da Residência,
País,
Data
de Nascimento ou Idade,
Sexo,
Tipo de Entrada, Forma, Se extrapulmonar, Baciloscopia de Escarro, Cultura de escarro,
Tratamento Supervisionado.
Outros foram selecionados pelo Programa Nacional de Controle da Tuberculose –
PNCT como de preenchimento essencial para análise epidemiológica e operacional: HIV,
Data de início do Tratamento Atual, Baciloscopia no2º mês, Baciloscopia no 4º mês,
Baciloscopia no 6º mês, Data de mudança de tratamento, Situação no 9º mês, Situação no 12º
mês e Situação de Encerramento. Vale ressaltar que os Dados de Residência, matéria-prima
para esse estudo, não são nem de preenchimento obrigatório, nem essencial.
Segundo Sousa (2005), os atuais sistemas de vigilância epidemiológica apresentam
problemas que colocam em dúvida a eficácia de suas aplicações: lentidão em gerar
informações; falta de vinculação do espaço geográfico; e análise realizada fora dos níveis
locais, impossibilitando aos serviços responder rapidamente aos problemas de saúde
apresentados. Seria de extrema relevância que um sistema de vigilância da tuberculose
contemplasse as intervenções territoriais para melhorar a identificação de possíveis
determinantes.
Sendo assim, a incorporação de novas tecnologias pode trazer ao sistema de vigilância
da tuberculose maior agilidade na perspectiva de intervenção e aproximação do serviço de
saúde (Souza, 2005). É certo de que a utilização de ferramentas de análise espacial
potencializam meios de vigilância e fornecem informações essenciais para a implantação de
19
políticas de promoção a saúde com estratégias de controle e prevenção mais eficientes (Brasil,
2005).
Na concepção do Sistema Único de Saúde (SUS) um dos objetivos básicos dos
sistemas de informação é possibilitar a análise da situação de saúde no nível local usando
unidades espaciais homogêneas como referência com intuito de inserir as condições de vida
da população na determinação do processo saúde-doença (Brasil, 2005), o que os tornam uma
importante ferramenta para apoiar a formulação e avaliação das políticas, planos e programas
de saúde.
Neste sentido, a localização e territorialização dos dados do Sinan dão suporte aos
gestores no que diz respeito ao planejamento, decisões e ações nos três níveis de
administração.
1.3. ANÁLISE ESPACIAL
A inserção do espaço geográfico como uma variável nas análises para a compreensão
da ocorrência e distribuição de doenças nas populações e a incorporação do conceito de
espaço na Epidemiologia é bastante antiga (Silva, 1997). A percepção de que determinados
agravos de saúde ocorrem preferencialmente em certos lugares e a análise do local como um
ponto diferencial na ocorrência de agravos de saúde vêm sendo utilizado desde Hipócrates
(480 A.C.) que enfatizou a importância do modo de vida dos indivíduos, analisando a
influência dos ventos, água, solo e localização das cidades em relação ao Sol, na ocorrência
de doenças (Pessoa, 1978; Trostle, 1986, Costa,1999).
O modelo da multicausalidade e os estudos do processo saúde-doença receberam
grande contribuição com a incorporação dos conceitos da Ecologia (Barreto, 1982) bem como
da geografia crítica, defendida por Milton Santos, que disserta sobre as diversas interações
que ocorrem no espaço geográfico e este atuando como participante ativo de todo o contexto
histórico-social (Barcellos et al., 2008).
A ideia central da utilização da análise espacial é mensurar propriedades e
relacionamentos, inserindo uma variável referente a localização espacial do fenômeno
estudado de forma explícita, isto é, incorporar o espaço à análise tradicional (Câmara et al.,
2002). Os mesmos autores ainda afirmam que a não incorporação da estrutura espacial no
modelo pode acarretar variações em larga escala e consequentemente à indução de
associações espúrias. Desta forma a análise espacial compõe um conjunto de procedimentos
20
usado para buscar um modelo inferencial que inclua as relações espaciais existentes nos
fenômenos estudados (Prado et al., 2010).
O termo análise espacial não se resume simplesmente ao mapeamento de eventos.
Neste tipo de análise, o estudo das características particulares dos dados espaciais com toda a
sua complexidade também são incorporados (Kaluzny et al., 1996). Na interpretação dos
mapas gerados nas análises espaciais é importante conhecer os processos envolvidos na
produção do agravo, as representações sociais da doença e o modo como ela é tratada pelos
serviços de saúde (Pina et al., 2006).
A utilização da categoria espaço na saúde não deve se limitar a localização dos
eventos “porque o lugar atribui a cada elemento constituinte do espaço um valor particular”
(Santos 1988). Portanto, para uma eficaz representação da relação causal entre o bem-estar da
população de uma determinada região e os efeitos das insuficiências na saúde de seu povo
deve-se considerar a abordagem holística (Pina, 1998).
Dentre os diversos procedimentos possíveis de serem utilizados nas análises espaciais
destacam-se as técnicas de geoprocessamento e os métodos geoestatísticos, que aplicam
técnicas da estatística clássica levando em consideração a localização geográfica e a
dependência espacial (Kaluzny et al., 1996).
Na saúde, a análise espacial refere-se à utilização de métodos quantitativos em estudos
nos quais o objeto de interesse é definido geograficamente (Gesler, 1986). Não se trata apenas
de agregar mais uma variável à questão da saúde, e sim, de considerar que a questão da saúde
e da doença está intimamente ligada às questões sociais (Najar 1992).
1.4. ESTATÍSTICA ESPACIAL
Estatística espacial é o ramo da estatística que permite analisar a localização espacial
dos eventos. Várias técnicas de estatística espacial podem ser aplicadas nesses casos, dentre
eles os modelos de regressão espacial, que como o modelo de regressão clássico, busca ajustar
um modelo matemático que permita descrever uma determinada variável em relação às
demais, entretanto incorporando a dependência espacial entre as observações.
Um aspecto fundamental na aplicação desses modelos é a caracterização dessa
dependência espacial, mostrando como os valores estão correlacionados no espaço. Neste
contexto, a função utilizada para estimar quanto o valor observado de um atributo numa
região é dependente dos valores desta mesma variável nas localizações vizinhas é a
21
autocorrelação espacial. Ressalta-se que a utilização de modelos estatísticos com abordagens
espaciais é justificada quando da existência da dependência espacial.
Para estimar a magnitude da autocorrelação espacial entre as áreas, uma das
ferramentas é o índice global de Moran. Na utilização deste índice, a hipótese nula
considerada é de independência espacial quando o seu valor é zero. Quando os valores são
positivos (entre 0 e +1), indicam que a correlação é direta. Quando os valores são negativos,
(entre 0 e –1) a correlação é inversa. Porém, quando se trabalha com um grande número de
áreas, é provável que haja diferentes regimes de correlação espacial em diferentes sub-regiões
por conta da natureza dos processos envolvidos. Nesse caso, pode-se utilizar os indicadores
locais de autocorrelação espacial e o mapa de espalhamento de Moran.
Uma ferramenta básica no cálculo desses indicadores é a Matriz de Proximidade
Espacial (ou Matriz de Vizinhança). Dependendo de como o dado se apresenta e do objetivo
do estudo, a matriz de vizinhança pode ser calculada de acordo com vários critérios, dentre
eles: o critério rainha que determina unidades vizinhas como aqueles que têm qualquer ponto
comum, incluindo os limites comuns e cantos comuns, o critério torre, que define como
vizinhos de uma localização as áreas com fronteiras comuns, o critério de distância fixa, onde
são consideradas vizinhas áreas que estejam em uma dada distância.
1.5. GEOPROCESSAMENTO E SISTEMAS DE INFORMAÇÕES GEOGRÁFICAS NA
SAÚDE
O uso do geoprocessamento nos eventos relacionados saúde vai além da descrição de
padrões espaciais de morbidade e mortalidade e seus fatores associados. Ele permite gerar
hipóteses etiológicas referentes à origem das doenças em diferentes populações (Medronho
&Werneck, 2009).
As técnicas de geoprocessamento, principalmente os Sistemas de Informações
Geográficas (SIG) permitem incorporar diversas variáveis como localização, tempo,
características socioeconômicas, características ambientais nos estudos em saúde. Neste
sentido, essas técnicas oferecem instrumentos de análise de situações concretas das
populações em risco, planejamento de ações, alocação de recursos e preparação de ações de
emergência (Barcelos & Bastos, 1996).
O SIG é um conjunto poderoso de ferramentas para coleta, armazenamento,
recuperação, transformação e visualização de dados sobre o mundo real (Burrough, 1986).
Aranoff (1989) conceitua SIG como “um conjunto manual ou computacional de
22
procedimentos utilizados para armazenar e manipular dados georreferenciados”. Muitas são
as definições encontradas na literatura, entretanto, todas refletem a variedade de possíveis
utilizações desta tecnologia e mostram sua interdisciplinaridade.
Uma das grandes contribuições dos SIG é a maneira com que os dados gráficos são
armazenados em camadas (níveis de informação). O sistema possibilita a realização de
operações matemáticas entre as diferentes camadas, permitindo a integração de informações
referidas a unidades que não se sobreponham perfeitamente. Desta forma, pode-se realizar a
estimação de indicadores para outros níveis de agregação diferentes do seu original, é claro
que respeitando-se algumas limitações. As camadas podem ser utilizadas e integradas da
maneira que o usuário precise. Outra vantagem é a possibilidade de manipulação tanto de
dados gráficos quanto não-gráficos de maneira integrada, promovendo análises e consultas
com dados espaciais.
1.5.1. Georreferenciamento de dados de saúde
Georreferenciamento é o processo de localização do dado na superfície terrestre. Essa
localização pode ser feita através de um par de coordenadas, do endereço do evento ou usando
alguma unidade espacial de referência, como por exemplo, um município, um bairro, uma
bacia hidrográfica, entre outros.
No Brasil, os dados dos sistemas de informações de saúde são gerados no nível local e
repassados às esferas superiores do governo. Portanto a coleta dos dados (inclui-se aqui os
campos destinados à localização geográfica, como nome de logradouro e bairro de residência
e/ou ocorrência) e o correto preenchimento dos formulários dos sistemas de informações são
de responsabilidade das secretarias municipais de saúde, (Barcellos et al., 2008).
Diversos trabalhos vêm utilizando os sistemas de informações de saúde para análise e
avaliação de riscos à saúde pública. Na maioria dos estudos, a unidade espacial de análise é o
município ou o bairro informado, que servem de base para a distribuição espacial dos eventos
a serem estudados (Skaba, 2004). Em algumas análises, a escolha do município como unidade
de análise é suficiente para obtenção dos resultados esperados. Em outros casos faz-se
necessário um maior detalhamento do local de ocorrência. Neste caso pode-se utilizar o
bairro. O importante é que a unidade territorial escolhida não possua grande heterogeneidade
interna e que as variáveis de interesse se distribuam da forma mais homogênea possível por
toda a área de interesse.
23
Entretanto, ainda existem algumas situações em que essa unidade espacial não satisfaz
completamente os objetivos do estudo. No caso da caracterização da população ser
importante, o bairro pode não ser suficientemente homogêneo. Em várias cidades,
principalmente as mais urbanizadas, num mesmo bairro, pode-se encontrar grande
heterogeneidade, por exemplo, com parte da população vivendo com indicadores sociais
elevados e outra parte da população vivendo abaixo da linha da miséria, como acontece no
município do Rio de Janeiro onde áreas de favelas estão integradas às áreas urbanizadas de
um bairro.
Nestes casos, é necessária a localização do evento de saúde com bastante detalhe
podendo ser utilizado o endereço de residência ou ocorrência, coordenadas levantadas em
campo com GPS ou ainda os setores censitários (Skaba, 2004), que são pequenas áreas com
aproximadamente 400 domicílios definidas e delimitadas pelo IBGE para a realização dos
censos e pesquisas e para quais todos os dados coletados nos censos demográficos são
divulgados (dados populacionais, socioeconômicos, saneamento etc.).
Os endereços urbanos são os recursos mais utilizados por habitantes de cidades para
indicar localizações geográficas, sendo, geralmente a referência mais comum de eventos que
ocorrem em áreas urbanas (Davis Jr., 2007). O uso de endereços na localização de pontos de
interesse é bastante usual e conhecido, e por isso, normalmente são incluídos como atributos
em sistemas de informação convencionais (Furtado et al., 2012). Estima-se que 80% da
informação utilizada por governos local na área de saúde, segurança, educação e arrecadação,
esteja associada à localização geográfica, principalmente a endereços (Davis Jr., 2007).
Porém, quando o georreferenciamento dos dados é feito através do endereço, em
muitas cidades brasileiras, esbarra-se em outras dificuldades: o mal preenchimento desse
campo (muitos erros de digitação, grafias diferentes, erros ortográficos), a falta de
mapeamento em escala cadastral principalmente nas áreas mais carentes e a falta de cadastros
oficiais de endereços (Pina et al., 2003). Neste caso, a eficiência do georreferenciamento
depende tanto da qualidade dos dados de endereço captados nos sistemas de informações em
saúde, quanto da atualização do mapeamento utilizado como base. Dentre essas dificuldades,
a questão da qualidade do endereço dos sistemas de informações seria a de mais fácil
resolução uma vez que a atualização de base cartográfica além de ser muito custosa é
demasiadamente demorada.
Os processos disponibilizados pelos SIG, incluindo a utilização de estatística espacial,
além de identificar, localizar e visualizar a ocorrência de eventos que se caracterizam pela
variável espacial, permitem modelar a ocorrência destes fenômenos, incorporando, dentre
24
vários fatores determinantes, a estrutura de distribuição espacial ou a identificação de padrões
espaciais (Carvalho, et al. 2007).
Neste trabalho, o espaço foi incluído como componente da análise a partir da
utilização de três modelos de regressão espacial, descritos na metodologia, para buscar
possíveis correlações entre a ocorrência da tuberculose e os dados socioeconômicos,
melhorando, assim a compreensão do processo do adoecimento pela doença.
25
2. OBJETIVOS
2.1. OBJETIVO GERAL
Analisar a distribuição espacial da ocorrência da tuberculose no município do Rio de
Janeiro nos anos de 2005 a 2008, correlacionando com variáveis socioeconômicas, por meio
de técnicas de estatística espacial utilizando diferentes métodos de análise.
2.2. OBJETIVOS ESPECÍFICOS
1. Avaliar a qualidade do dado referente ao endereço do Sinan-TB (Sinan que
armazena os dados da tuberculose) e medir possíveis impactos nos cálculos de indicadores de
tuberculose através do georreferenciamento dos casos no nível do bairro;
2. Analisar o padrão espacial da tuberculose identificando variáveis socioeconômicas
relevantes para a sua ocorrência por meio de modelos estatísticos espaciais globais;
3. Analisar por meio de um modelo estatístico espacial local – o GWR
(Geographically Weighted Regression), indicadores socioeconômicos mais associados a
locais de maior ocorrência da tuberculose.
26
3. MATERIAIS E MÉTODOS
Trata-se de um estudo ecológico realizado no município do Rio de Janeiro situado na
região Sudeste do Brasil. Com uma população de 6.323.037 e uma área de 1.200 km2, é a
segunda maior cidade do Brasil (IBGE, 2010a).
O município do Rio de Janeiro é composto por cinco áreas programáticas divididas em
160 bairros. Segundo o Censo Demográfico de 2010, possui mais de 10 mil setores censitários
sendo que 2.227 (21%) estão localizados nas 763 favelas cadastradas no município, onde vive
22% da população (IBGE, 2010b).
1 Centro
2 Gamboa
3 Santo Cristo
4 Caju
5 Catumbi
6 Rio de Comprido
7 Cidade Nova
8 Estácio
9 Flamengo
10 Glória
11 Larajeiras
12 Catete
13 Cosme Velho
14 Botafogo
15 Urca
16 Humaitá
17Leme
18 Copacabana
19 Ipanema
20 Leblon
21 Lagoa
22 Jardim Botânico
23 Gávea
24 Vidigal
25 São Conrado
26 São Cristóvão
27 Mangueira
28 Benfica
29 Praça da Bandeira
30 Tijuca
31 Alto da Boa Vista
32 Maracanã
33 Vila Isabel
34 Andaraí
35 Grajaú
36 Manguinhos
37 Bonsucesso
38 Ramos
39 Olaria
40 Penha
41 Penha Circular
42 Brás de Pina
43 Cordovil
44 Parada de Lucas
45 Vigário Geral
46 Jardim América
47 São Francisco Xavier
48 Rocha
49 Riachuelo
50 Sampaio
51 Engenho Novo
52 Lins de Vasconcelos
53 Méier
54 Todos os Santos
55 Cachambi
56 Engenho de Dentro
57 Água Santa
58 Encantado
59 Piedade
60 Abolição
61 Pilares
62 Vila Kosmos
63 Vicente de Carvalho
64 Vila da Penha
65 Vista Alegre
66 Irajá
67 Colégio
68 Campinho
69 Quintino Bocaiúva
70 Cavalcanti
71 Engenheiro Leal
72 Cascadura
73 Madureira
74 Vaz lobo
75 Turiaçu
76 Rocha Miranda
77 Honório Gurgel
78Oswaldo Cruz
79 Bento Ribeiro
80Marechal Hermes
81 Jacarepaguá
82 Anil
83 Gardênia Azul
84 Cidade de Deus
85 Curicica
86 Freguesia (Jacarepaguá)
87 Pechincha
88 Taquara
89 Tanque
90 Praça Seca
91 Vila Valqueire
92 Deodoro
93Vila Militar
94 Campos dos Afonsos
95 Jardim Sulacap
96 Magalhães Bastos
97 Realengo
98 Padre Miguel
99 Bangu
100 Senador Camará
101 Santíssimo
102 Campo Grande
103 Senador Vasconcelos
104 Inhoaíba
105 Cosmos
106 Paciência
107 Santa Cruz
108 Sepetiba
109 Ribeira
110 Zumbi
111 Cacuia
112 Pitangueiras
113 Praia da Bandeira
114 Cocotá
115 Bancários
116 Freguesia (Ilha)
117 Jardim Guanabara
118 Jardim Carioca
119 Tauá
120 Moneró
121 Portuguesa
122 Galeão
123 Cidade Universitária
124 Guadalupe
125 Anchieta
126 Parque Anchieta
127 Ricardo Albuquerque
128 Santa Teresa
129 Joá
130 Itanhangá
131 Barra da Tijuca
132 Camorim
133 Vargem Pequena
134 Vargem Grande
135 Recreio dos Bandeirantes
136 Grumari
137 Coelho Neto
138 Acari
139 Barros Filho
140 Costa Barros
141 Pavuna
142 Guaratiba
143 Barra de Guaratiba
144 Pedra de Guaratiba
145 Higienópolis
146 Jacaré
147 Maria da Graça
148 Del Castilho
149 Inhaúma
150 Engenhho da Rainha
151 Tomás Coelho
152 Saúde
153 Paquetá
154 Parque Columbia
155 Jacarezinho
156 Rocinha
157 Complexo do Alemão
158 Maré
159 Vasco da Gama
160 Gericinó
Figura 1: Município do Rio de Janeiro por bairros e áreas de planejamento
27
3.1. FONTE DE DADOS
3.1.1. Dados de saúde
Os dados de tuberculose estudados foram os casos novos notificados à Vigilância
Epidemiológica do município do Rio de Janeiro através do Sistema de Informação de Agravos
de Notificação (Sinan) entre os anos de 2005 e 2008, disponibilizados pela Secretaria
Municipal de Saúde e Defesa Civil do Rio de Janeiro (SMSDC-RJ). Foram utilizados os
registros cuja informação sobre o município de residência e município de atendimento foram
o Rio de Janeiro.
A SMSDC-RJ disponibilizou à pesquisa o banco de dados completo que foi tabulado
em Tabnet pela própria secretaria porém sem as informações de identificação dos pacientes:
NOME e NOME DA MÃE. O banco estava consolidado, portanto sem duplicidades e com os
casos encerrados. Os campos referentes aos Dados de Residência disponibilizados foram: UF,
município, bairro, distrito, logradouro, número, complemento, referência, CEP, zona e país.
Os campos “logradouro” e “número” foram os campos pelos quais os registros foram
georreferenciados, porém, os dados pontuais foram utilizados apenas na rotina de
georreferenciamento dos casos e são apresentados agregados por setor censitário
(quantificados por área) em mapas temáticos sem nenhuma informação de rua, sendo
impossível a identificação por qualquer leitor. O dado sobre bairro que se encontra no banco
de dados refere-se ao bairro declarado pelo paciente no momento do preenchimento da FIN.
3.1.2. Dados cartográficos:
Foi utilizada a base cartográfica digital na escala 1:2000 do ano de 2000 referente ao
município do Rio de Janeiro contendo os logradouros com a numeração dos trechos de cada
arruamento o que permitiu o georreferenciamento dos casos de tuberculose. A base foi
comprada pelo Núcleo de Geoprocessamento do Instituto de Comunicação e Informação
Científica e Tecnológica da Fundação Oswaldo Cruz (ICICT/FIOCRUZ) de uma empresa de
Cartografia e Geoprocessamento.
Essa base cartográfica possui uma base gráfica com o eixo dos logradouros integrada a
uma tabela que contem a numeração de cada trecho das ruas, com o número do início e do
final de cada lado (par e ímpar) conforme mostra a figura 2.
28
Figura 2: Base cartográfica com eixo de logradouros e numeração.
Na etapa do georreferenciamento também foi utilizada a base do Google Maps através
de um programa desenvolvido pelo Núcleo de Geoprocessamento - ICICT/FIOCRUZ.
Outra base cartográfica utilizada foi a malha digital de setor censitário do ano de 2010
(IBGE, 2010b), disponibilizada em formato shape (formato vetorial de dados geoespaciais
utilizado em programas de SIG desenvolvido e regulamentado pela empresa Esri criadora do
software ArcGis com padrão aberto que permite interoperabilidade de dados entre vários
programas de SIG) pelo IBGE.
O mapa de bairro do município do Rio de Janeiro foi construído a partir do mapa de
setores censitários.
3.1.3. Dados populacionais e socioeconômicos
Os dados sobre a população residente em cada setor censitário bem como as variáveis
socioeconômicas foram retirados do Censo Demográfico de 2010 (IBGE, 2010b) divulgados
em formato digital pelo Instituto Brasileiro de Geografia e Estatística.
29
Essas variáveis serviram de base para construir os indicadores utilizados nas análises
dos dados. A saber: Número médio de pessoas por domicílios (POP_DOM), Renda familiar
média (RM_DOM); Proporção de responsável com renda maior que 1 salário-mínimo e
menor que 2 salários-mínimos (P_R_2SM); Proporção de responsável com renda mensal
menor que 1 salário-mínimo (P_R_1SM); Proporção de analfabetos (P_ANALF); Proporção
de domicílio com abastecimento de água da rede geral (P_DOM_AG); Proporção de
domicílio com banheiro de uso exclusivo dos moradores ou sanitário e esgotamento sanitário
via rede geral de esgoto ou pluvial (P_DOM_SA); Proporção de domicílio com coleta de lixo
por serviço de limpeza (P_DOM_CL); Proporção de domicílios com banheiro de uso
exclusivo dos moradores ou sanitário (P_DOM_BA); Proporção de cor de pele declarada
branca (P_P_BRA); Proporção de cor de pele declarada preta (P_P_PRE); Proporção de cor
de pele declarada parda (P_P_PAR); Proporção de domicílios com pessoas que moram
sozinhas (P_DOM_MS); Renda média do responsável (RM_RESP).
3.2. MÉTODOS
A metodologia foi dividida em três etapas apresentadas nos subitens 3.2.1, 3.2.2 e
3.2.3 que descrevem os processos utilizados para a elaboração dos três artigos propostos como
resultado desta tese.
Os softwares utilizados foram o ArcGis 10 e Terra View 4.2.0 para executar os
processos de SIG e o SPSS e Geoda para execução dos modelos estatísticos.
3.2.1. Artigo 1
3.2.1.1. Georreferenciamento dos dados de tuberculose
O georreferenciamento foi realizado de duas formas diferentes visando a comparação
dos métodos e avaliação daquele mais eficiente. No primeiro método, essa etapa consistiu
basicamente em procurar o endereço de cada registro do banco do Sinan-TB e compará-los
aos endereços contidos em uma base de ruas. Foi feito com a base de lograduros
disponibilizada pelo Núcleo de Geoprocessamento – ICICT/FIOCRUZ.
O processo foi realizado através da ferramenta Geocoding do programa ArcGis 10
utilizando apenas o processo automático, que consiste na busca de cada endereço de TB na
30
base cartográfica de logradouros escolhida. O sistema encontra o logradouro através do nome,
interpola o número da casa no trecho do logradouro e retorna ao usuário o par de coordenadas.
Os endereços não encontrados são apresentados ao usuário para que este possa fazer o
georreferenciamento semiautomático, que consiste em analisar possíveis erros na informação,
por exemplo: Rua Luiz no lugar de Rua Luis ou Av. Basil no lugar de Av. Brasil e
intervindo nos casos em que tem possibilidade. Depois disso, ainda pode ser feito o
georreferenciamento manual que consite em selecionar todos os endereços não encontrados
nas duas etapas anteriores e através de sites procurar endereço a endereço. Atualmente um dos
melhores sites para fazer esse tipo de trabalho é o Google Maps.
O segundo método de georreferenciameto consistiu em utilizar um programa
elaborado no Núcleo de Geoprocessamento – ICICT/FIOCRUZ desenvolvido em Javascript
utilizando as APIs do Google1 e PHP2.
O programa confronta cada endereço do banco com os endereços da base cartográfica
e retorma o par de coordenadas. Quando o programa não encontra o nome da rua, ele retorna
ao usuário a coordenada do bairro e se também não acha o bairro, retorna ao usuário a
coordenada do município e assim por diante até chegar ao nível de país. Isso foi um problema
no ínício dos testes porque não era avisado ao usuário qual das referências o programa tinha
usado. O problema foi solucionado fazendo com que o programa retorne uma tabela com o
seguinte score:
0
- Não localizado
1
- Localizado no país
2
- Localizado no estado, província, prefeitura
3
- Localizado na sub-região
4
- Localizado no município
5
- Localizado no CEP
6
- Localizado na rua
7
- Localizado na interseção de rua
8
- Localizado no endereço
9
- Localizado no prédio pelo nome da construção (shopping center, igreja,
prédios comerciais etc.)
Assim, o usuário pode escolher entre utilizar ou não o par de coordenada fornecido
dependendo do objetivo do seu estudo.
1
As APIs do Google Maps/Google Earth são uma coleção de serviços que permitem incluir mapas, a
geocodificação e outros conteúdos do Google nas suas páginas web ou aplicativos.
2
PHP - Personal Home Page é uma linguagem que permite criar sites WEB dinâmicos, possibilitando uma
interação com o usuário através de formulários, parâmetros da URL e links.
31
O resultado desse processo é uma tabela com um par de coordenada para cada registro
onde o endereço foi localizado. A partir dessa tabela, utilizando uma função do ArcGis 10 foi
gerado um nível de informação com os casos de TB onde cada ponto correspondia a um caso
da doença.
Com o objetivo de se avaliar a qualidade do endereço do Sinan-TB, foi feito para os
dois métodos o georreferenciamento com o banco original de TB, isto é, sem nenhuma
interferência/correção
no campo
relacionado ao
endereço
(banco original)
e o
georreferenciamento do banco após uma criteriosa adequação/correção do endereço (banco
corrigido), principalmente no que diz respeito ao nome da rua com o objetivo de corrigir os
erros. Alguns dos erros corrigidos referem-se a:
·
Endereços sem o tipo do logradouro (rua, avenida, beco, etc.);
·
Trocas com o tipo do logradouro entre “avenida”, “rua”, “estrada”, etc.;
·
Nomes antigos de ruas;
·
Nomes de ruas escritos de várias maneiras diferentes;
·
Nomes de ruas com letras totalmente invertidas.
Isso sem considerar a grande quantidade de endereços sem nenhuma informação de
logradouro, sem número e morador de rua sem indicação do local.
Cada processo de georreferenciamento gerou um nível de informação que foram
comparados entre si para avaliar qual o processo mais efetivo. Após todas essas tentativas de
melhorar o georreferenciamento, os registros não localizados ainda foram enviados para a
Assessoria de Informação Geográfica (AIG) da SMSDC-RJ na tentativa de diminuir a perda.
Nesse caso o georreferenciamento foi realizado pelo programa desenvolvido pela AIG que
usa a base do Instituto Pereira Passos (IPP) e do setor censitário. Foi realizado por seleção
automática de endereço (por pesquisa simples e fonética).
3.2.1.2. Tratamento e integração dos dados em SIG
Com todas as bases de dados gráficas e tabulares inseridas no SIG e lançando mão da
potencialidade que o sistema oferece, foram utilizadas várias ferramentas de integração e
análise de dados disponibilizadas.
Como resultado de uma dessas ferramentas foi possível gerar a base gráfica dos
bairros a partir da base dos setores censitários através da agregação dos setores que continham
32
o mesmo código do bairro. Foi possível também calcular a população de cada bairro
somando-se a população de seus setores censitários.
A integração da base de bairros com os níveis de informação dos pontos (casos) de TB
permitiu quantificar o número de casos por bairros (tanto o declarado na FIN quanto o bairro
onde o endereço foi georreferenciado) e a partir daí foi possível fazer uma análise das
diferenças que esses números podem gerar no cálculo de indicadores de saúde.
Partindo dos casos georreferenciados, foi feito o cálculo das diferenças do número de
casos comparando o bairro declarado e o bairro onde o endereço foi georreferenciado. Criouse um indicador para mensurar o quão diferentes são esses valores para o mesmo bairro.
Calculou-se a razão entre a taxa de incidência de TB por bairro utilizando o bairro declarado e
a taxa de TB por bairro utilizando o bairro georreferenciado.
=
!"#" %& '()'%ê()'" (* +"',,* %&)-","%*
!"#" %& '()'%ê()'" (* +"',,* .&*,,&/&,&()'"%*
Quanto mais o indicador I se aproxima da unidade, mais próximos estão os valores dos
casos nos bairros declarados em relação aos bairros georreferenciados. Se I > 1, existem mais
casos no bairro declarado que no bairro georreferenciado; e, se I< 1, existem mais casos
georreferenciados no bairro do que no declarado. A análise desse resultado possibilitará fazer
uma avaliação mais criteriosa e detalhada da perda do georreferenciamento e ainda identificar
a percepção do que é o bairro na visão do paciente.
3.2.2. Artigo 2
3.2.2.1. Análise espacial dos dados com modelos com efeitos espaciais globais
A unidade espacial escolhida foi o setor censitário que é uma unidade territorial criada
pelo IBGE para organização e execução dos censos e pesquisas. O setor censitário é a menor
unidade de agregação nas quais os dados coletados nos Censos Demográficos são divulgados.
Os casos de tuberculose foram georreferenciados por endereço de residência conforme
metodologia descrita no item 3.2.1. Foram excluídos do estudo os casos em que a residência
se referia a presídios e hospitais. Inicialmente, foi feita uma análise exploratória a partir da
identificação da ocorrência da doença nos setores censitários considerando a quantidade de
casos em cada setor e a seguir calculou-se a taxa de incidência do período para cada 1.000
33
habitantes por setor censitário. A contagem dos pontos em cada setor foi feita a parir de
ferramentas disponibilizadas no programa de SIG utilizado.
Dos 10.504 setores, foram excluídos do estudo 314 que não tinham população (em sua
maioria áreas ocupadas por maciços, lagoas, áreas verdes etc.) ou que, por terem poucos
domicílios particulares permanentes, tiveram seus dados omitidos pelo IBGE a fim de manter
o sigilo dos dados.
Buscou-se explicar a variável referente à taxa de incidência de TB do período a partir
dos indicadores: Número de pessoas por domicílios, Renda média do domicílio (RM_DOM);
Proporção de responsável com renda mensal menor que 1 salário-mínimo (P_R_1SM);
Proporção de responsável com renda entre 1 e 2 salários-mínimos (P_R_2SM); Proporção de
analfabetos (P_ANALF); Proporção de domicílio com abastecimento de água da rede geral
(P_DOM_AG); Proporção de domicílio com banheiro de uso exclusivo dos moradores ou
sanitário e esgotamento sanitário via rede geral de esgoto ou pluvial (P_DOM_SA);
Proporção de domicílio com coleta de lixo por serviço de limpeza (P_DOM_CL); Proporção
de domicílios com banheiro de uso exclusivo dos moradores ou sanitário (P_DOM_BA);
Proporção de cor de pele declarada branca (P_P_BRA); Proporção de cor de pele declarada
preta (P_P_PRE); Proporção de cor de pele declarada parda (P_P_PAR); Proporção de
domicílios com pessoas que moram sozinhas (P_DOM_MS); Renda média do responsável
(RM_RESP).
Por se tratar de um evento raro e a população do setor censitário ser pequena detectouse alta instabilidade nas taxas brutas que poderiam expressar o risco de TB de maneira
equivocada. Segundo Santos (2005), as variações bruscas que ocorrem com estas taxas podem
não ser inerentes ao fenômeno e sim estar associadas a uma grande variabilidade das
observações. Numa população pequena, flutuações aleatórias casuais, como a ocorrência de
um ou dois casos do evento a mais ou a menos numa localidade, causam variações
importantes nas taxas brutas, o que não acontece quando a população é grande.
Visando minimizar a instabilidade das taxas brutas e eliminando a flutuação aleatória
foi aplicado o alisamento das taxas de incidência usando o método Bayesiano Empírico Local
que inclui efeitos espaciais, calculando a estimativa localmente, utilizando os setores
censitários vizinhos do setor censitário no qual se deseja estimar a taxa, convergindo em
direção a uma média local em vez de uma média global (Bailey & Gatrell, 1995). As taxas
corrigidas são menos instáveis, pois levam em conta no seu cálculo não só a informação da
área, mas também a informação de sua vizinhança (Assunção et al., 1998; Santos, 2005).
34
Foi empregada a transformação do tipo logaritmo neperiano (Ln) na variável
dependente - taxa de incidência bayesiana, para aproximá-la a uma distribuição normal
(LogTXBAY). A elaboração de mapas temáticos permite visualizar a distribuição da taxa de
incidência bayesiana normalizada pelo logaritmo ao longo do município.
Invariavelmente a análise espacial se divide em duas etapas, a primeira, envolve
análise exploratória que “permite descrever as distribuições das variáveis e seus padrões de
associação, bem como fornece indicadores sobre possíveis modelos que serão analisados
através de procedimentos de estimação e validação” (Ponciano & Scalon, 2010). A segunda
etapa consiste na modelagem propriamente dita dos dados, que a partir dos resultados da
análise exploratória vai definir o melhor modelo a ser adotado.
Várias técnicas podem ser aplicadas para detecção de autocorrelação espacial entre
áreas (Câmara et al., 2002). Neste trabalho foram utilizados o índice de Moran Global e Local
para verificar a presença de aglomerados ou “bolsões” de não-estacionaridade, isto é, áreas
com dinâmica espacial própria e que merecem uma análise detalhada.
O índice Global de Moran descreve espacialmente o relacionamento entre os valores
observados e os valores das médias locais pela equação:
=
9
0 ∑9
3:; ∑4:; 234 (63 76̅ )(64 76̅ )
>
(∑9
3:;(63 76̅ ) )(∑ ∑3@4 ? AB)
, para i≠j
Onde: n é o número de áreas; zi é o valor do atributo na área i; z é o valor médio do
atributo na área de estudo; e wij é o elemento na matriz normalizada de vizinhança para o par i
e j.
De maneira geral, esse índice testa a hipótese nula que é a de independência espacial,
portanto seu valor deve ser muito próximo de zero. Caso contrário, se o valor for positivo, há
indicação de correlação direta e se for negativo, há indicação de correlação inversa. Neste
teste, várias combinações dos valores de atributos associados às áreas são geradas,
calculando-se os seus índices e verificando se o índice do arranjo que representa a situação
observada está nas caudas, fora do intervalo de confiança.
A hipótese subjacente na operação do índice global de Moran é a estacionariedade de
primeira e segunda ordem, perdendo sua validade caso os dados não sejam estacionários. Ou
seja, se não houver estacionariedade de primeira ordem, seus vizinhos tendem a ser similares
a áreas distantes, por causa da comparação com a média global. Além disso, se a variância
35
não é constante, nos locais de maior variância, o índice é menor, e vice-versa. (Câmara et al.,
2002).
Quando se trabalha com número grande de áreas é melhor examinar os dados com
mais detalhamento, pois é provável que existam diferentes padrões de autocorrelação espacial,
sendo assim é necessária a utilização de indicadores que possam ser associados a diferentes
localizações, já que fornecem um valor local para cada área, permitindo a identificação de
agrupamentos estatisticamente significantes (Câmara, 2002) em nível local. Para este trabalho
foi utilizado o Indicador Local de Associação Espacial (LISA – Local Indicator of Spatial
Association) baseado na matriz de vizinhança gerada com os vizinhos de primeira ordem.
Esse indicador possibilita a identificação de padrões significativos de associação espacial e
permite representar uma decomposição do índice global. Assim, o índice local de Moran,
estimado a partir de valores normalizados, pode ser calculado para cada área i pela expressão:
A
CA ∑0BEF DAB CB
=
∑0BEF DB G
onde o valor de significância estatística é calculado da mesma forma que no caso
global.
Calculando-se o índice de Moran local (LISA) foi possível classificar os setores
censitários em função do nível de significância dos valores de seus índices locais em: alta/alta,
baixa/baixa, significa que possuem associação positiva, isto é a localização possui vizinhos
com valores próximos, e alta/baixa e baixa/alta, indicam associação negativa, ou seja, que a
localização possui vizinhos com valores distintos.
Constatada a autocorrelação espacial, partiu-se para a escolha do melhor modelo de
regressão espacial para as variáveis estudadas. A regressão apenas deve ser utilizada se a
correlação entre as variáveis for significativa. Para isso foi construída a matriz de correlação
de Spearman e sob um olhar estatístico e epidemiológico, as variáveis independentes com
correlação estatisticamente significativas a 5% com a variável dependente e as variáveis não
colineares, isto é, com correlação < 0,7 foram utilizadas na análise das regressões clássica e
espacial.
As variáveis independentes selecionadas através da matriz de correlação foram
analisadas a partir do modelo de regressão linear multivariada (Ordinary Least Squares
Estimation - OLS) e, utilizando em um primeiro momento o método backward, buscou-se
identificar variáveis que melhor explicassem a ocorrência de TB. A esse resultado, com
36
objetivo de incorporar os efeitos espaciais, aplicou-se os chamados modelos com efeitos
espaciais globais que tratam a estrutura espacial de forma global, isto é, supõe que é possível
capturar a estrutura de correlação espacial num único parâmetro, que é adicionado ao modelo
de regressão tradicional. Com intuito de verificar qual melhor modelo se encaixaria nas
variáveis estudadas foram aplicadas as duas alternativas.
O primeiro utilizado foi o modelo espacial autoregressivo misto (Spatial
Autoregressive ou Spatial Lag Model) que atribui à variável resposta Y a autocorrelação
espacial ignorada. Dado que se considera a dependência espacial através da adição ao modelo
de regressão de um novo termo na forma de uma relação espacial para a variável dependente.
Formalmente, tem-se:
H = IJ + LMH + N
onde: W é a matriz de proximidade espacial; MH expressa a dependência espacial em
Y; e L é o coeficiente espacial autoregressivo (Bailey & Gatrell, 1995). Neste modelo a
autocorrelação espacial é incorporada como componente do modelo.
O segundo modelo utilizado foi o do erro espacial (Spatial Error Model), que
considera os efeitos espaciais como um ruído, isto é, como um fator a ser removido. Esse
modelo parte do princípio de que não é possível modelar todas as características de uma
unidade geográfica que podem influenciar as regiões vizinhas. Assume que, se fosse possível
adicionar as variáveis certas para remover o erro do modelo, o espaço não importaria mais.
Neste caso, os efeitos da autocorrelação espacial são associados ao termo de erro ε e o modelo
é descrito por:
H = IJ + N,
N = PMQ + R
onde: MQ é a componente do erro com efeitos espaciais; P é o coeficiente
autoregressivo; R é a componente do erro com variância constante e não correlacionada. A
hipótese nula para a não existência de autocorrelação é que λ= 0, ou seja, o termo de erro não
é espacialmente correlacionado (Câmara, 2002).
Na avaliação de qual modelo melhor se ajustaria às variáveis disponíveis foram
calculadas as estatísticas: log da verossimilhança: valor do logaritmo da função de
verossimilhança e os valores estimados dos coeficientes: critério de informação de Akaike
(AIC) e critério bayesiano Schwarz (SBC). Sendo preferido aquele que apresenta maior valor
do log da verossimilhança e menores valores do critério de informação de Akaike e do critério
37
bayesiano. Para avaliar os modelos de efeitos espaciais globais, foram analisados os resíduos
nos modelos Spatial Lag e Spatial Error. Uma alta concentração de resíduos positivos ou
negativos em uma parte do mapa indica a presença de autocorrelação espacial. Foi utilizado
também o teste de índice de Moran sobre os resíduos para verificar quantitativamente se a
autocorrelação espacial foi eliminada com a aplicação do modelo.
3.2.3. Artigo 3
3.2.3.1. Análise espacial dos dados com modelos de Regressão Ponderada Geograficamente
Quando o processo espacial estudado é considerado não-estacionário, os coeficientes
de regressão precisam refletir a heterogeneidade espacial. O relacionamento entre as variáveis
pode ser melhor explorado, quando a análise é local, permitindo mais detalhamento dos
resultados e consequentemente, conduzindo para uma maior compreensão do fenômeno.
Considerando a importância da heterogeneidade da distribuição dos dados, para diferentes
culturas, hábitos e dinâmicas sociais, condições socioeconômicas, entre outros fatores de
risco, reforça-se a necessidade de se fazer análises espaciais cada vez mais regionalizadas
(Fischer et al., 2008; Cunha, 2012).
Para tanto, há duas grandes alternativas: modelar a tendência espacial de forma
contínua, com parâmetros variantes no espaço (modelos de regressão com efeitos espaciais
contínuos), ou modelar a variação espacial de forma discreta, ao dividir o espaço em subregiões estacionárias (modelos de regressão com regimes espaciais). Nesse estudo foi
utilizado o segundo método considerando a existência de variações locais contínuas, sem uma
forte tendência global.
Nesse caso, a ideia é ajustar um modelo de regressão a cada ponto observado,
ponderando todas as demais observações como função da distância a este ponto. Assim, são
feitos tantos ajustes quantas observações existam e o resultado é um conjunto de parâmetros,
onde cada ponto considerado terá seus próprios coeficientes de ajuste. Estes parâmetros
podem ser apresentados visualmente para identificar como se comportam espacialmente os
relacionamentos entre as variáveis. Esta técnica é denominada Regressão Ponderada
Geograficamente (Geographically Weighted Regression – GWR).
O GWR considera no seu modelo a variação do fenômeno ao longo do espaço
geográfico, com uma visão distinta nas várias subáreas. Considera-se que o fenômeno nas
localidades mais próximas sejam mais semelhantes e, conforme vão se distanciando vão se
38
tornando menos parecidas (Tobler, 1970). Através de mapeamento dos parâmetros estimados,
essa técnica permite avaliar a dependência espacial de uma forma mais complexa,
considerando relacionamento multivariado (Charlton et al, 2005).
Os modelos de regressão ponderados geograficamente podem ser considerados como
uma extensão direta de modelos de regressão linear ajustados por mínimos quadrados
ponderados (Cunha, 2012). Portanto para aplicar esse modelo, usa-se o modelo padrão de
regressão:
H(S) = J (S)I + N
onde, Y(s) é a variável aleatória representando o processo no ponto s, e β (s) indica
que os parâmetros são estimados no ponto s.
A estimação dos parâmetros deste modelo para a solução padrão por mínimos
quadrados no caso não-espacial, é dada por:
J = (I T I)7F I T H
onde XT é uma matriz que contém valores das variáveis independentes e Y o vetor dos
valores observados da variável dependente. Usando um método de ajuste local, ao estimador
β é incluído um peso W que é uma matriz diagonal de peso local. Desta forma, temos:
J(S) = (I T M(S) I)7F I T M(S) H
O ajuste local é feito de forma a garantir uma influência maior dos pontos mais
próximos, de forma semelhante aos estimadores de densidade por Estimador Kernel (com raio
adaptativo). Esta técnica foi desenvolvida para ser aplicada aos fenômenos com processos
observados em pontos fixos. Nessa técnica, considera-se o centróide do polígono como pontos
fixos e o fenômeno observado como sendo alguma medida realizada nestes polígonos
(Fotheringham et al., 2002).
Recomenda-se que na utilização do modelo GWR se faça anteriormente uma análise
da associação entre as variáveis através do modelo clássico de regressão linear (OLS) com
intuito de melhor definir as variáveis que irão compor o modelo espacial. Sendo assim, a
seleção das variáveis a serem utilizadas nesse modelo seguiu a mesma metodologia aplicada
no artigo 2, isto é, a partir da matriz de correlação de Spearman as variáveis independentes
39
com correlação estatisticamente significativas a 5% com a variável dependente e as variáveis
não colineares, isto é com correlação < 0,7 foram utilizadas no OLS.
Utilizando o método backward a partir do critério de significância de 5% e critério
epidemiológico, as variáveis que se mantiveram no modelo foram inseridas no modelo GWR.
O GWR foi rodado utilizando o ArcGis 10 e a partir dos resultados foi feita uma
comparação entre o modelo GWR e o OLS através dos parâmetros de critério de informação
de Akaike (AIC); e critério bayesiano Schwarz (SBC). Também foi calculado o índice de
Moran I para os resíduos para os dois modelos.
Os mapas gerados com GWR desempenham um papel central na interpretação dos
resultados. No entanto, na elaboração desses mapas pelos parâmetros obtidos pelo modelo
podem gerar problemas que tendem a subestimar ou superestimar a influência de algumas
variáveis independentes na variável dependente. Alguns trabalhos que usaram GWR
apresentaram mapas apenas com as estimativas dos parâmetros sem apresentarem os t-valores
das áreas (Fotheringham et al., 1998; Huang & Leung, 2002; Lee, 2004), fato que pode dar
uma falsa interpretação dos resultados, pois pode enfatizar visualmente as áreas de maior ou
menor (se a relação é negativa) coeficientes, independentemente do significado da estimativa
(Mennis, 2006).
Numa primeira análise exploratória dos resultados fornecidos pelo modelo GWR,
optou-se por analisar os mapas coropléticos com a distribuição espacial das estimativas dos
parâmetros separadamente dos mapas com a significância estatística, calculadas pela
estatística t (β/desvio-padrão (β)) que possui distribuição normal, e com nível de significância
de 95%. Foram considerados significativos os valores de | t | > 1,96. Esta análise foi realizada
no software SPSS v.19. O esquema de cores escolhido para apresentar os mapas das
estimativas dos parâmetros foi um esquema de cores divergentes, que indica a magnitude de
saída a partir de um ponto médio, ou seja, os valores negativos são representados em
tonalidades de verde e valores positivos em tonalidades de roxo. Os mapas dos valores t são
apresentados em tons de cinza mostrando as diferentes faixas de significância estatística.
Após essa análise exploratória, com melhor entendimento dos resultados, partiu-se
para uma tentativa de melhorar a apresentação dos resultados, juntando em um único mapa os
valores dos parâmetros e dos valores de t de cada variável. Considerando o mesmo padrão de
cores apresentados anteriormente.
40
5. RESULTADOS
5.1. ARTIGO 1
Avaliação do dado sobre endereço no SINAN utilizando georreferenciamento a nível
local de casos de TB*
*Artigo enviado para Cadernos de Saúde Coletiva.
41
RESUMO
O trabalho objetivou avaliar a qualidade do dado referente ao endereço do caso
notificado ao Sinan-TB de 2005 a 2008 no município do Rio de Janeiro. Criou-se um
indicador (I) a partir da razão entre a taxa de incidência da tuberculose calculada a partir do
bairro de moradia declarado pelo paciente e a taxa de incidência do bairro obtido após o
georreferenciamento do endereço do mesmo indivíduo com intuito de medir possíveis
impactos que inconsistências no endereço podem causar nos cálculos de indicadores da
doença no nível do bairro. Foram utilizadas duas técnicas de georreferenciamento de dados a
partir do endereço de residência. Foi realizada uma correção no campo endereço que
modificou 27% dos registros. Houve uma diferença no resultado do georreferencimento entre
os dois métodos de 64% e 69%. Com o processo manual chegou-se a 88% de localização. A
partir do indicador criado, nota-se que apenas 28% dos bairros apresentaram um valor entre
0,85 e 1,15, considerado como razoável já que o valor ideal é igual a 1. O processo de
localização pode ser mais rápido e eficaz com maior conscientização e treinamento dos
profissionais responsáveis e da utilização de algum cadastro de logradouros oficial. As
diferenças apresentadas no indicador I podem auxiliar na tomadas de decisões mais acertadas.
PALAVRAS-CHAVES: Tuberculose, georreferenciamento, indicador de saúde.
42
Abstract
The study aimed to evaluate the quality of data concerning the address of TB cases
notified to the Sinan-TB from 2005 to 2008 in the city of Rio de Janeiro. Were created a
indicator from the ratio between the incidence rate of tuberculosis calculated from the
neighborhood declared by the patient and the incidence rate of the neighborhood obtained
after georeferencing address the same subject with a view to measure the possible impacts
that inconsistencies in address may cause the calculation of disease´s indicators in the district
level. Two techniques of georeferencing data were used from the home address. A correction
in the address field which changed 27% of the records was performed. There was a difference
in the outcome between the two methods georeferencing 64% and 69%. With the manual
process was reached 89% location. From the indicator created, it is noted that only 28 % of
districts with a value between 0.85 and 1.15, considered reasonable since the optimal value is
equal to 1. The localization process can be faster and more efficient with greater awareness
and training for professionals responsible and use of any official record of register streets. The
differences in the indicator I can assist in decision making more correct decisions.
KEYWORDS: Tuberculosis, geocoding, health indicator
43
INTRODUÇÃO
O Sistema de Informação de Agravos de Notificação (Sinan) foi desenvolvido entre
1990 e 1993 com o objetivo de registrar e processar dados sobre agravos de notificação
gerados pelo Sistema de Vigilância Epidemiológica em todo o território nacional, desde o
nível municipal. É alimentado por informações de casos de doenças constantes da lista
nacional de doenças de notificação compulsória1,2.
Nesse sistema, a entrada de dados ocorre principalmente pela Ficha Individual de
Notificação (FIN) preenchida no momento que o paciente chega a uma unidade de saúde e
existe a suspeita da ocorrência de um agravo de saúde de notificação compulsória. Depois
essas fichas são encaminhadas pelas unidades assistenciais aos níveis centrais onde o
processamento eletrônico é feito1. Apesar dos esforços, os dados disponibilizados pelo Sinan
ainda apresentam problemas em sua qualidade limitando alguns tipos de análises e
comprometendo o processo decisório3.
O Sinan é a principal fonte de dados para a tuberculose (TB) e a notificação se baseia
na definição de caso confirmado, na investigação e no acompanhamento dos casos3.
A tuberculose tem como agente etiológico o Mycobacterium tuberculosis (bacilo de
Koch). E a transmissão acontece quando um paciente bacilífero lança o bacilo no ar quando
fala, espirra ou tosse. É uma doença diretamente ligada a condições precárias de vida4.
Desigualdade social, advento da AIDS, envelhecimento da população e grandes
movimentos migratórios são alguns dos fatores apontados por Ruffino-Neto5 como sendo as
principais causas para a gravidade da situação atual da tuberculose no mundo.
É a segunda principal causa de morte por doenças infecciosas no mundo perdendo
apenas para o HIV6. No Brasil, a tuberculose atualmente ainda é um problema tão importante
quanto no início do século passado7.
O Brasil ocupa o 17º lugar entre os 22 países responsáveis por 89% do total de casos
de tuberculose no mundo8. A maior concentração de casos acontece na Região Sudeste com
São Paulo liderando o número de casos brutos, mas com o Rio de Janeiro com a maior taxa de
incidência. No ano de 2012, o Estado do Rio de Janeiro notificou 14.309 casos de tuberculose
e o município do Rio de Janeiro era o que se posicionava com o maior número de notificações
– 7.432 casos9.
No município do Rio de Janeiro, a tuberculose não acontece igualmente distribuída. A
incorporação da dimensão espacial nas análises dessa doença pode extrair significados
adicionais às análises convencionais, auxiliando na compreensão da dinâmica deste agravo.
44
Na saúde pública, diversos trabalhos vêm utilizando os sistemas de informações de
saúde para análise e avaliação de riscos. Nestas análises utiliza-se, na maioria dos casos, o
município ou o bairro informado, para avaliar a distribuição espacial dos eventos a serem
estudados. Em outros casos faz-se necessário um maior detalhamento do local de ocorrência
podendo ser utilizado o endereço de residência ou ocorrência, coordenadas levantadas em
campo com GPS ou ainda os setores censitários10.
Endereços urbanos são os recursos mais utilizados por habitantes de cidades para
indicar localizações geográficas. Estima-se que 80% da informação utilizada por governos
locais na área de saúde, segurança, educação e arrecadação, esteja associada à localização
geográfica, e a maior parte delas relacionada com endereços11.
Porém, quando o georreferenciamento dos dados é feito através do endereço, em
muitas cidades brasileiras, esbarra-se em outras dificuldades: o mal preenchimento desse
campo (muitos erros de digitação, grafias diferentes, erros ortográficos), a falta de
mapeamento em escala cadastral principalmente nas áreas mais carentes e a falta de cadastros
oficiais de endereços12. Neste caso, a eficiência do georreferenciamento depende tanto da
qualidade dos dados de endereço captados nos sistemas de informações em saúde, quanto da
atualização do mapeamento utilizado como base.
O trabalho teve como objetivo avaliar a qualidade do dado referente ao endereço do
caso notificado ao Sinan-TB. Criou-se um indicador a partir da razão entre a taxa de
incidência da tuberculose calculada a partir do bairro de moradia declarado pelo paciente e a
taxa de incidência do bairro obtido após o georreferenciamento do endereço do mesmo
indivíduo com intuito de medir possíveis impactos que inconsistências no endereço podem
causar nos cálculos de indicadores da doença no nível do bairro.
MÉTODO
Trata-se de um estudo ecológico realizado no município do Rio de Janeiro. Com uma
população de 6.323.03713, o município é composto por 160 bairros e 763 favelas, onde vivem
22 % da população14.
Os dados de tuberculose estudados foram os casos novos notificados à Vigilância
Epidemiológica do município do Rio de Janeiro através do Sinan entre os anos de 2005 e
2008, disponibilizados pela Secretaria Municipal de Saúde e Defesa Civil do Rio de Janeiro
45
(SMSDC-RJ). Foram utilizados os registros cuja informação sobre o município de residência
e o município de atendimento referenciavam o Rio de Janeiro.
A SMSDC-RJ disponibilizou à pesquisa o banco de dados completo, porém sem as
informações de identificação dos pacientes: NOME e NOME DA MÃE. O banco estava
consolidado sem duplicidades e com os casos encerrados. O dado sobre bairro que se encontra
no banco de dados refere-se ao bairro declarado pelo paciente no momento do preenchimento
da Ficha Individual de Notificação.
Foi utilizada a base cartográfica digital na escala 1:2.000 do ano de 2000 referente ao
município do Rio de Janeiro contendo os logradouros com a numeração dos trechos de cada
arruamento. A base foi comprada pelo Núcleo de Geoprocessamento - ICICT/FIOCRUZ de
uma empresa de Cartografia e Geoprocessamento. Essa base cartográfica contém os eixos dos
logradouros integrados com uma tabela que contem a numeração de cada trecho das ruas, com
o número do início e do final de cada lado (par e ímpar).
Os dados sobre população residente e as variáveis socioeconômicas foram retirados do
Censo Demográfico de 201014. Através da base de setores foi possível construir a base de
bairros.
O georreferenciamento foi realizado de duas formas diferentes visando a comparação
dos métodos e apresentação de maneiras diferentes de utilizar a técnica. No primeiro método,
essa etapa consistiu basicamente em procurar o endereço de cada evento do banco do Sinan e
compará-los aos endereços contidos na base de ruas disponibilizada pelo Núcleo de
Geoprocessamento – ICICT/FIOCRUZ.
O processo foi realizado no programa comercial ArcGis 10 utilizando apenas o
processo automático, que consiste na busca de cada endereço de TB na base cartográfica de
logradouros escolhida. O sistema encontra o logradouro através do nome, interpola o número
da casa no trecho do logradouro e retorna ao usuário o par de coordenadas. Esse processo é
disponibilizado pela maioria dos programas comerciais ou livres de SIG.
O segundo método de georreferenciameto consistiu em utilizar um programa
elaborado no Núcleo de Geoprocessamento – ICICT/FIOCRUZ desenvolvido em Javascript
utilizando as APIs do Google (as APIs do Google Maps/Google Earth são uma coleção de
serviços que permitem incluir mapas, a geocodificação e outros conteúdos do Google nas suas
páginas web ou aplicativos) e PHP (Personal Home Page é uma linguagem que permite criar
sites web dinâmicos, possibilitando uma interação com o usuário através de formulários,
parâmetros da URL e links).
46
O programa confronta cada endereço do banco com os endereços da base cartográfica
e retorna o par de coordenadas. Incialmente, quando o programa não encontrava o nome da
rua, ele retornava ao usuário a coordenada do bairro e se também não achava o bairro,
retornava ao usuário a coordenada do município e assim por diante até chegar ao nível de
país. Isso gerava um problema porque não era avisado ao usuário qual das referências havia
sido utilizada. O problema foi solucionado fazendo com que o programa retornasse uma
tabela com o seguinte score:
0
- Não localizado
1
- Localizado no país
2
- Localizado no estado, província
3
- Localizado na sub-região
4
- Localizado no bairro
5
- Localizado no CEP
6
- Localizado na rua
7
- Localizado na interseção de rua
8
- Localizado no endereço
9
- Localizado no prédio pelo nome da construção
Assim, pode-se escolher entre utilizar ou não o par de coordenadas fornecido
dependendo do objetivo do estudo.
Como o objetivo do estudo era avaliar a qualidade do endereço do Sinan-TB, o
georreferenciamento foi feito, nos dois métodos, com o banco original de TB, isto é, sem
nunhuma interferência/correção no campo relacionado ao endereço (banco original) e com o
banco após uma criteriosa adequação/correção do endereço (banco corrigido), principalmente
no que diz respeito ao nome da rua com o objetivo de corrigir os erros.
Cada processo de georreferenciamento gerou um nível de informação que foram
comparados entre si para avaliar qual o processo mais efetivo e adequado ao estudo. Com
intuito de minimizar ao máximo a perda no georreferenciamento, esses dois níveis de
informação foram integrados e depois ainda foi feito o georreferenciamento manual que
consite em selecionar todos os endereços não encontrados na etapa anterior e através de sites,
procurar endereço a endereço. Após todas essas tentativas de melhorar o georreferenciamento,
os registros não localizados ainda foram enviados para a Assessoria de Informação
Geográfica (AIG) da SMSDC-RJ na tentativa de diminuir a perda. Nesse caso o
georreferenciamento foi realizado pelo programa desenvolvido pela AIG que usa a base do
47
Instituto Pereira Passos (IPP) e do setor censitário. Foi realizado por seleção automática de
endereço (por pesquisa simples e fonética).
A integração da base de bairros com os níveis de informação dos casos de TB permitiu
quantificar o número de casos por bairros (tanto o declarado na FIN quanto o bairro onde o
endereço foi georreferencido) e a partir daí, mostrar as diferenças que esses números podem
gerar no cálculo das taxas de incidência e consequentemente em outros indicadores de saúde.
Com intuito de medir possíveis impactos que inconsistências no endereço podem
causar nos cálculos de indicadores da doença no nível do bairro, criou-se um indicador a
partir da razão entre a taxa de incidência de TB do bairro de moradia declarado pelo paciente
e a taxa de incidência do bairro obtido após o georreferenciamento do endereço do mesmo
indivíduo.
=
!"#" %& '()'%ê()'" (* +"',,* %&)-","%*
!"#" %& '()'%ê()'" (* +"',,* .&*,,&/&,&()'"%*
Quanto mais I se aproxima da unidade, mais próximos estão os valores dos casos nos
bairros declarados dos bairros georreferenciados. Se I > 1, existem mais casos no bairro
declarado que o georreferenciado; e, se I < 1, existem mais casos georreferenciados no bairro
do que o declarado. A análise desse resultado possibilitará fazer uma avaliação mais criteriosa
e detalhada do georreferenciamento e ainda identificar a percepção do que é o bairro na visão
do paciente.
RESULTADOS
O período estudado somou 28.045 casos de TB, divididos nos quatro anos de estudo
conforme mostra a tabela 1. Pode-se observar que o número de casos notificados e os casos
georreferenciados se mantêm estável durante os quatro anos. Observando a tabela 2, pode-se
verificar as diferenças entre o número de casos entre homens e mulheres e entre as faixas
etárias.
48
Tabela 1: Número total de casos de TB notificados e georreferenciados segundo ano
de notificação.
Casos de TB
Ano
2005
2006
2007
2008
Total
Casos
7096
6905
6853
7191
28045
Georreferenciados
6343(89%)
6219 (90%)
6085 (89%)
6313 (88%)
24960 (89%)
Tabela 2: Número de casos segundo faixa etária e sexo.
Casos de TB segundo gênero e faixa etária
Faixa etária
Masculino
Feminino
< 15 nos
399 (1.4%)
419 (1,5%)
15 – 29 anos
6042 (21.5%)
3248 (11.6%)
30 – 59 anos
10105 (36%)
4714 (16.8%)
>= 60 anos
2004 (7.2%)
1024 (3.7%)
Ignorado
60 (0.2%)
30 (0.1%)
Total
18610 (66.3%)
9435 (33.7%)
Na correção do banco de dados foram modificados 7.638 endereços, o que representa
27% dos registros. Vários tipos de erros foram encontrados, dos mais simples como nomes de
ruas com uma letra trocada ou faltando o título do nome, aos mais complexos, com nomes
escritos totalmente diferente do correto: Rua Olímpio Bingo no lugar de Rua Soldado
Olímpio Bingo; Rua Otto Longa no lugar de Altolândia; Rua Oliveira Ravasso no lugar de
Rua Vieira Ravasco; Rua Jenival Severiano no lugar de Rua General Severiano; Rua
Bordoneta Amanera no lugar de Rua Borboleta Amarela, entre muitos outros. Esse trabalho
de modificação de endereços demandou 6 meses de trabalho integral.
49
O resultado do georrefereciamento automático e a comparação entre os métodos são
apresentados na tabela 2. A tabela 2A mostra o resultado quando utilizado o ArcGis com a
base comercial. A tabela 2B mostra o resultado utilizando o programa desenvolvido com base
no Google Maps. Vale ressaltar que os endereços apresentados nos resultados foram apenas
os que o programa classificou como “8 – registro localizado no endereço”.
No primeiro caso podemos observar que com o banco original o programa
georreferenciou 50% dos casos e com a correção do banco, o resultado melhorou para 64%. O
segundo caso foi o que obteve melhor êxito, com o banco original foram georreferenciados
62% dos casos e com o banco limpo, esse resultado subiu para 69%. Esse resultado mostra
que o georreferenciamento feito com bases no Google Maps teve a melhor performace.
Tabela 2: Georreferenciamento automático dos casos de TB
2A
2B
Original
Corrigido
Original
Corrigido
Casos
%
Casos
%
Casos
%
Casos
%
Localizados
13998
50
18029
64
17334
62
19321
69
Não localizados
14047
50
10016
36
10711
38
8724
31
Dos registros não localizados, muitos não têm nunhuma chance de serem
georreferencidos nem na maneira manual: 256 registros sem nenhuma informação sobre o
endereço; 162 moradores de rua; 5 registros como “não informado”; 2130 registros sem
numeração.
Ao final do processo de georreferenciamento, considerando o processo automático, o
manual e ainda o realizado pela AIG, obteve-se 89% de endereços localizados.
As figuras 1A, 1B, 1C e 1D mostram mapas de Kernel feito a partir dos pontos
georreferenciados pelos anos de notificação, 2005, 2006, 2007 e 2008, respectivamente.
Numa primeira análise visual pode-se observar que não houve muita mudança no padrão
espacial dos casos durante os anos.
50
A
B
C
D
Figura 1: Mapa de Kernel a partir do georreferenciamento dos casos de TB por ano de
notificação.
A figura 2 mostra o cálculo das taxas de incidência utilzando o bairro declarado (2A) e
utilizando o bairro georreferenciado (2B). Pode-se observar que o padrão espacial se
apresenta diferente nos dois mapas, podendo levar em uma primeira análise a uma distorção
dos resultados. Os bairros Gericinó, Vasco da Gama, Parque Columbia, Joá e Grumari não
foram declarados por nenhum paciente. Os três primeiros provavelmente por serem bairros
novos e ainda não incorporados pela população. Mas observando a taxa a partir do bairro
georreferenciado percebe-se que apenas o bairro Grumari permanece com taxa zero o que
significa que nos outros existem casos da doença.
Tese Completa:
http://objdig.ufrj.br/96/teses/813739.pdf