mônica de avelar figueiredo mafra magalhães a tuberculose no
Transcrição
mônica de avelar figueiredo mafra magalhães a tuberculose no
UNIVERSIDADE FEDERAL DO RIO DE JANEIRO MÔNICA DE AVELAR FIGUEIREDO MAFRA MAGALHÃES A TUBERCULOSE NO ESPAÇO URBANO: UM ESTUDO ECOLÓGICO UTILIZANDO ANÁLISE ESPACIAL NO MUNICÍPIO DO RIO DE JANEIRO NOS ANOS DE 2005 A 2008 RIO DE JANEIRO 2014 Mônica de Avelar Figueiredo Mafra Magalhães A TUBERCULOSE NO ESPAÇO URBANO: UM ESTUDO ECOLÓGICO UTILIZANDO ANÁLISE ESPACIAL NO MUNICÍPIO DO RIO DE JANEIRO NOS ANOS DE 2005 A 2008 Tese apresentada ao Programa de Pós-Graduação sem Saúde Coletiva, do Instituto de Estudos em Saúde Coletiva da Universidade Federal do Rio de Janeiro, como requisito parcial para obtenção do título de Doutora em Saúde Coletiva. Orientador: Roberto de Andrade Medronho Rio de Janeiro 2014 M188 Magalhães, Mônica de Avelar Figueiredo Mafra. A tuberculose no espaço urbano: um estudo ecológico utilizando análise espacial no município do Rio de Janeiro nos anos 2005 a 2008. – Rio de Janeiro: UFRJ/ Instituto de Estudos em Saúde Coletiva, 2014. 111 f.; 30cm. Orientador: Roberto de Andrade Medronho. Tese (Doutorado) - UFRJ/ Instituto de Estudos em Saúde Coletiva, 2014. Referências: f. 106-110. 1. Tuberculose. 2. Análise espacial. 3. Análise de regressão. 4. Sistemas de informação geográfica. 5. Fatores socioeconômicos. 6. Estudos ecológicos. 7. Epidemiologia. I. Medronho, Roberto de Andrade. II. Universidade Federal do Rio de Janeiro, Instituto de Estudos em Saúde Coletiva. III. Título. CDD 614.542 Para Daniel, Eduardo e Leonardo AGRADECIMENTOS Aos meus filhos, por existirem e estarem sempre muito perto. Dudu pela parceria e Dani pela alegria. Ao Leonardo por insistir em ficar do meu lado. Pela paciência e perseverança. Aos meus pais por me incentivarem a ser independente e responsável pelos meus atos. Aos meus irmãos, Lu e Sergio e quase irmã, Adriane pela união. À Simone por manter meu cantinho sempre organizado e bem cuidado. Aos meus amigos do Núcleo de Geoprocessamento, Renata, Roberta, Heglaucio, Vanderlei, Diego, Júlia, Fabi, Guilherme, Paty, Christovam e todos que passaram por lá pela cumplicidade e por dividirem comigo a ansiedade desse período de doutorado. Ao amigo Paulo pelo auxílio essencial na reta final. À Rosane pelas palavras doces, sempre... À minha amiga Fátima Pina por tudo que me ensinou desde a época de iniciação científica. Aos amigos da academia pela alegria de todas as manhãs. As amigas, Adriana, Patrícia, Rosana por me divertirem e me mostrarem que existem muitas maneiras de ser feliz. A Elaine pela força e demonstrações de carinho. Ao meu orientador, Roberto Medronho, sempre dedicado, educado e competente. Aos membros da banca examinadora, Christovam Barcellos, Reinaldo Souza Santos, Guilherme Werneck, Rejane Pinheiro, Volney Câmara e Roberta Argento por aceitarem o convite e por serem fonte de inspiração. Ao pessoal do administrativo do IESC pela presteza. Ao pessoal do gabinete de Medicina da UFRJ pela atenção e cordialidade. Aos meus colegas de trabalho do LIS, em quem me espelho para ser uma profissional melhor e mais competente. Ao amigo Ivan pela parceria e pelas dicas estatísticas. Ao pessoal da Secretaria Municipal de Saúde do Rio de Janeiro que sempre me recebeu muito bem. À Valéria Saraceni pela rapidez que me disponibilizou os dados e pela aula sobre o Sinan. E a Evanelza e equipe pela presteza e agilidade no georreferenciamento dos casos “perdidos”. E a todos que de alguma maneira me apoiaram e incentivaram nas horas que titubeei... E desculpa aos amigos e familiares pela distância nesses últimos meses. Foi por um bom motivo... Navegar é preciso, viver não é preciso... Fernando Pessoa MAGALHÃES, Mônica de Avelar F. M. A tuberculose no espaço urbano: um estudo ecológico utilizando análise espacial no município do Rio de Janeiro nos anos de 2005 a 2008. Tese (Doutorado em Saúde Coletiva) – Instituto de Estudos em Saúde Coletiva, Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2012. Resumo O objetivo da tese foi analisar a distribuição espacial da ocorrência da tuberculose no município do Rio de Janeiro nos anos de 2005 a 2008, correlacionando com variáveis socioeconômicas, através de técnicas de estatística espacial discutindo diferentes métodos de análise. Os resultados obtidos geraram três artigos. O primeiro avaliou a qualidade do dado referente ao endereço do Sinan-TB e mediu impactos nos cálculos de indicadores de tuberculose quando usado georreferenciamento dos casos no nível do bairro. O campo de endereço foi corrigido com intuito de melhorar o georreferenciamento. Foram corrigidos 27% dos registros. Foram georreferenciados 89% dos endereços. A partir do indicador criado através da razão entre a taxa de incidência da tuberculose calculada a partir do bairro de moradia declarado pelo paciente e a taxa de incidência do bairro obtido após o georreferenciamento do endereço do mesmo indivíduo, nota-se que apenas 28% dos bairros apresentaram um valor entre 0,85 e 1,15, que foi considerado como razoável. O segundo artigo analisou o padrão espacial da tuberculose identificando variáveis socioeconômicas relevantes para a ocorrência de tuberculose através de modelos estatísticos espaciais. A análise espacial foi feita utilizando a estratégia de análise de dados por setor censitário. Para minimizar a instabilidade das taxas de incidência de tuberculose foi aplicado o método Bayesiano Empírico Local. Foi utilizado um modelo de regressão multivariada clássica e depois comparadas aos modelos de regressão espaciais globais Spatial Lag e Spatial Error. A dependência espacial foi detectada usando índice de Moran. Entre os modelos de regressão espaciais globais, o que apresentou os melhores parâmetros foi o Spatial Lag com R2 de 0,3215, Log da Verossimilhança = -9228,39, AIC = 18468 e SBC = 18512,2. E o índice de Moran dos resíduos foi de -0,018. Finalmente o terceiro artigo que teve como objetivo analisar através de modelo de regressão ponderado geograficamente (GWR - Geographically Weighted Regression), os indicadores socioeconômicos mais associados à locais de maior ocorrência da tuberculose. Os mapas gerados pelo modelo GWR permitiram analisar a distribuição de cada variável independente através das estimativas e de seus valores de t associados. Os resultados da tese permitem constatar a importância do uso de ferramentas de análise espacial que incorporam a dependência espacial em áreas de ocorrência de tuberculose. É certo de que a variedade de técnicas analíticas disponíveis em Sistemas de Informações Geográficas tornaram o estudo viável e mostrou capacidade para a produção de um modelo de ocorrência de tuberculose. PALAVRAS-CHAVES: Tuberculose, georreferenciamento, geoprocessamento, modelo de regressão espacial global, geograficamente análise regressão espacial, ponderada MAGALHÃES, Mônica de Avelar F. M. A tuberculose no espaço urbano: um estudo ecológico utilizando análise espacial no município do Rio de Janeiro nos anos de 2005 a 2008. Tese (Doutorado em Saúde Coletiva) – Instituto de Estudos em Saúde Coletiva, Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2012. Abstract The aim of the thesis was to analyze the spatial distribution of the occurrence of tuberculosis in the city of Rio de Janeiro in the years 2005 to 2008, correlating with socioeconomic variables, using spatial statistical techniques discussing different methods of analysis. The results generated three articles. The first assessed the quality of the data refers to the address of Sinan-TB and measured impacts in the calculation of indicators of tuberculosis when used georeferencing cases the neighbourhood level. The address field has been fixed with the aim of improving the georeferencing. Were corrected 27 % of the records. Were geocoded 89 % of the addresses. From the indicator created by the ratio between the incidence rate of tuberculosis calculated from the housing neighborhood declared by the patient and the incidence rate of the neighborhood obtained after georeferencing the address of the same individual, it is noted that only 28 % of districts with a value between 0.85 and 1.15, which was considered reasonable. The second paper analyzed the spatial pattern of tuberculosis identifying relevant socioeconomic variables for the occurrence of tuberculosis through spatial statistical models. Spatial analysis was performed using the strategy of data analysis by census tract. To eliminate the instability of the data was applied Bayesian Local Empirical method. A model of classical multivariate regression was used and then compared the spatial regression models Global Spatial Lag and Spatial Error. The spatial dependence was detected using Moran's index. Among the global spatial regression models, which showed the best parameters was the Spatial Lag with R2 of 0.3215 , log likelihood = -9228.39 , AIC and SBC = 18468 = 18512.2 . And the residuals Moran index was -0.018. Finally the third article aims to analyze through geographically weighted regression - GWR, more associated with areas of higher occurrence of tuberculosis socioeconomic indicators. The maps generated by the GWR model allowed to analyze the distribution of each variable through estimates and their associated t values. The results of the thesis allow us to affirm the importance of using spatial analysis tools that incorporate spatial dependence in areas of tuberculosis. It is true that the variety of analytical techniques available in Geographical Information Systems has made the study feasible and showed a high capacity to produce a predictive model of occurrence of tuberculosis KEYWORDS: Tuberculosis, geocoding, spatial analysis, GIS, global spatial regression, geographically weighted regression. SUMÁRIO 1. INTRODUÇÃO .................................................................................................................... 15 1.1. A TUBERCULOSE ....................................................................................................... 15 1.1.1. Tuberculose no Brasil ............................................................................................. 17 1.2. SISTEMA DE INFORMAÇÃO DE AGRAVOS DE NOTIFICAÇÃO – SINAN ...... 17 1.3. ANÁLISE ESPACIAL .................................................................................................. 19 1.4. ESTATÍSTICA ESPACIAL .......................................................................................... 20 1.5. GEOPROCESSAMENTO E SISTEMAS DE INFORMAÇÕES GEOGRÁFICAS NA SAÚDE ................................................................................................................................. 21 1.5.1. Georreferenciamento de dados de saúde ................................................................ 22 2. OBJETIVOS ......................................................................................................................... 25 2.1. OBJETIVO GERAL ...................................................................................................... 25 2.2. OBJETIVOS ESPECÍFICOS ........................................................................................ 25 3. MATERIAIS E MÉTODOS................................................................................................. 26 3.1. FONTE DE DADOS ..................................................................................................... 27 3.1.1. Dados de saúde ....................................................................................................... 27 3.1.2. Dados cartográficos: ............................................................................................... 27 3.1.3. Dados populacionais e socioeconômicos ............................................................... 28 3.2. MÉTODOS .................................................................................................................... 29 3.2.1. Artigo 1 ................................................................................................................... 29 3.2.1.1. Georreferenciamento dos dados de tuberculose .................................................. 29 3.2.1.2. Tratamento e integração dos dados em SIG ........................................................ 31 3.2.2. Artigo 2 ................................................................................................................... 32 3.2.2.1. Análise espacial dos dados com modelos com efeitos espaciais globais ............ 32 3.2.3. Artigo 3 ................................................................................................................... 37 3.2.3.1. Análise espacial dos dados com modelos de Regressão Ponderada Geograficamente ............................................................................................................... 37 5. RESULTADOS .................................................................................................................... 40 5.1. ARTIGO 1 ..................................................................................................................... 40 4.2. ARTIGO 2 ..................................................................................................................... 59 4.3. ARTIGO 3 ..................................................................................................................... 80 6. CONCLUSÃO .................................................................................................................... 104 7. REFERÊNCIAS ................................................................................................................. 106 LISTA DE TABELAS Artigo 1 Tabela 1: Número total de casos de TB notificados e georreferenciados segundo ano de notificação ............................................................................................................................... 48 Tabela 2: Número de casos segundo faixa etária e sexo.......................................................... 48 Tabela 3: Georreferenciamento automático dos casos de TB.................................................. 49 Artigo 2 Tabela 1: Matriz de correlação de Spearman........................................................................... 71 Tabela 2: Modelo OLS para o log da taxa de incidência após alisamento bayesiano ............ 72 Tabela 3: Índices R2, log da verossimilhança, critério de informação de Akaike e do critério bayesiano Schwarz (SBC) para os três modelos estudados..................................................... 74 Artigo 3 Tabela 1: Matriz de correlação de Spearman........................................................................... 89 Tabela 2: Modelo OLS para o log da taxa de incidência após alisamento bayesiano ............ 90 LISTA DE FIGURAS Figura 1: Município do Rio de Janeiro por bairros e áreas de planejamento ........................... 26 Figura 2: Base cartográfica com eixo de logradouros e numeração. ........................................ 28 Artigo 1 Figura 1: Mapa de Kernel a partir do georreferenciamento dos casos de TB por ano de notificação............................................................................................................................... 50 Figura 2: Mapa com as taxas de incidência calculadas para o bairro declarado e para o bairro georreferenciado...................................................................................................................... 51 Figura 3: Mapa com o indicador (I) por bairros...................................................................... 52 Artigo 2 Figura 1: Mapa da taxa de incidência de tuberculose após o alisamento bayesiano por setor censitário.................................................................................................................................. 68 Figura 2: Mapa do Indicador local de autocorrelação espacial (LISA) para a variável dependente. (A) Áreas com valores signficativos; (B) Espalhamento do LISA.................... 69 Figura 3: Mapa do Indicador local de autocorrelação espacial (LISA) para os resíduos do modelo OLS. (A) Áreas com valores signficativos; (B) Espalhamento do LISA................... 73 Artigo 3 Figura 1: Mapa do Indicador local de autocorrelação espacial (LISA) para a variável dependente. (A) Áreas com valores signficativos; (B) Espalhamento do LISA..................... 91 Figura 2: (A) Contribuição da variável Proporção de responsável com renda entre 1 e 2 salários-mínimos na taxa de incidência (log da taxa de incidência após alisamento bayesiano) por setor censitário e (B) valores de t associados.................................................................... 92 Figura 3: (A) Contribuição da variável Proporção de analfabetos na taxa de incidência (log da taxa de incidência após alisamento bayesiano) por setor censitário e (B) valores de t associados................................................................................................................................. 93 Figura 4: (A) Contribuição da variável Proporção de domicílios com pessoas que moram sozinhas na taxa de incidência (log da taxa de incidência após alisamento bayesiano) por setor censitário e (B) valores de t associados................................................................................... 93 Figura 5: (A) Contribuição da variável Renda média do responsável na taxa de incidência (log da taxa de incidência após alisamento bayesiano) por setor censitário e (B) valores de t associados................................................................................................................................. 94 Figura 6: Mapas das estimativas e t valor para as variáveis independentes............................ 95 Figura 7: Mapas dos parâmetros do GWR: (A) valores observados, e (B) valores preditos... 97 Figura 8: Mapa dos resíduos do modelo GWR........................................................................98 LISTA DE SIGLAS AIG - Assessoria de Informação Geográfica AIC - Critério de Informação de Akaike FIN - Ficha Individual de Notificação FIOCRUZ - Fundação Oswaldo Cruz GPS - Global Positioning System GWR - Regressão Ponderada Geograficamente (Geographically Weighted Regression) HIV - Vírus da Imunodeficiência Humana IBGE - Instituto Brasileiro de Geografia e Estatística ICICT - Instituto de Comunicação e Informação Científica e Tecnológica IPP - Instituto Pereira Passos LISA - Local Indicator of Spatial Association OLS - Ordinary Least Squares Estimation OMS - Organização Mundial e Saúde P_ANALF - Proporção de alfabetos P_DOM_AG - Proporção de domicílio com abastecimento de água da rede geral P_DOM_BA - Proporção de domicílios com banheiro de uso exclusivo dos moradores ou sanitário P_DOM_CL - Proporção de domicílio com coleta de lixo por serviço de limpeza P_DOM_MS - Proporção de domicílios com pessoas que moram sozinhas P_DOM_SA - Proporção de domicílio com banheiro de uso exclusivo dos moradores ou sanitário e esgotamento sanitário via rede geral de esgoto ou pluvial PNCT – Programa Nacional de Controle da Tuberculose POP_DOM - Número médio de pessoas por domicílios P_P_BRA - Proporção de cor de pele declarada branca P_P_PRE - Proporção de cor de pele declarada preta P_P_PAR - Proporção de cor de pele declarada parda P_R_1SM - Proporção de responsável com renda mensal menor que 1 salário-mínimo P_R_2SM - Proporção de responsável com renda maior que 1 salário-mínimo e menor que 2 salários-mínimos RA – Região Administrativa RM_DOM - Renda familiar média RM_RESP - Renda média do responsável SBC - Critério Bayesiano Schwarz SES – Secretaria Estadual de Saúde SIG – Sistema de Informações Geográficas SMS – Secretaria Municipal de Saúde SMSDC-RJ - Secretaria Municipal de Saúde e Defesa Civil do Rio de Janeiro Sinan - Sistema de Informação de Agravos de Notificação SUS - Sistema Único de Saúde TB - Tuberculose WHO - World Health Organization 15 1. INTRODUÇÃO 1.1. A TUBERCULOSE A tuberculose (TB) é causada pelo Mycobacterium tuberculosis (bacilo de Koch) e pode acometer órgãos e sistemas. A apresentação da TB na forma pulmonar especialmente a bacilífera (90% dos casos) é a mais comum e a mais relevante para a saúde pública, pois é a responsável pela manutenção da cadeia de transmissão da doença (Brasil, 2010). A forma extrapulmonar decorre da disseminação do bacilo pelo organismo através das vias linfohematogênica, hematogênica, por contigüidade ou intra-canalicular (Campos, 2006). O método mais comum para o diagnóstico de TB no mundo é a baciloscopia de escarro (desenvolvido há mais de 100 anos), em que as bactérias da expectoração são examinadas sob um microscópio. O homem é o principal reservatório do bacilo de Koch e em geral o indivíduo com a forma pulmonar da doença é a fonte de contaminação, pois elimina bacilos para o exterior. O doente pode ser denominado de bacilífero, quando a baciloscopia direta do escarro é positiva, ou não bacilífero, quando negativa. Estima-se que numa comunidade no decorrer de um ano um indivíduo bacilífero poderá infectar de 10 a 15 pessoas (Brasil, 2005). Em apenas 5% dos pacientes a forma primária da doença ocorre após a infecção. Porém, o adoecimento pode ocorrer posteriormente a partir de um foco latente, chamada de reinfecção endógena ou em consequência de uma nova infecção (reinfecção exógena), resultando na forma pós-primária da doença. A TB é transmitida de pessoa a pessoa, principalmente através do ar. A infecção ocorre a partir da inalação de gotículas contendo bacilos pela fala, espirro e, principalmente, tosse de um doente bacilífero, o que intensifica o processo de infecção e adoecimento em aglomerados populacionais. A probabilidade de um indivíduo ser infectado e desenvolver a doença depende de vários fatores, dentre eles as condições socioeconômicas e condições médicas (diabetes mellitus, silicose, uso prolongado de corticosteróide ou outros imunossupressores, neoplasias, uso de drogas, infecção pelo HIV etc.) a que esse indivíduo está submetido (Brasil, 2005). A tuberculose é uma doença diretamente ligada a condições precárias de vida. O sua ocorrência varia de acordo com as regiões do país e, inclusive, dentro das mesmas regiões (Brasil, 2005). A incorporação da dimensão espacial nas análises da doença pode extrair 16 significados adicionais às análises convencionais, auxiliando na compreensão da dinâmica deste agravo. A tuberculose tem cura e os medicamentos para o tratamento (tuberculostáticos) são distribuídos gratuitamente na rede pública. Infelizmente isso não garante totalmente a obtenção dos medicamentos já que muitos outros fatores estão envolvidos no processo, por exemplo, a dificuldade de acesso do paciente a unidade de saúde para a retirada da medicação. Outro aspecto importante a ser considerado é o abandono ao tratamento que possui várias causas: duração do tratamento (seis meses no mínimo), nível social do paciente e fatores relacionados aos próprios serviços de saúde (falha no agendamento, problema no acompanhamento do doente, má orientação etc.) (Ferreira et al., 2004; Paixão e Gontijo, 2007). Apesar de há décadas existir tratamento eficaz, a tuberculose ainda é atualmente um importante problema no âmbito da saúde pública mundial, tendo em 2007 uma incidência global estimada de 139 casos por 100.000 habitantes e cerca de 13,7 milhões de casos prevalentes no mundo (WHO, 2008; WHO, 2009). Desigualdade social, advento da AIDS, envelhecimento da população e grandes movimentos migratórios são alguns dos fatores apontados por Ruffino-Neto (2002) como sendo as principais causas para a gravidade da situação atual da tuberculose no mundo. Em 1993, a Organização Mundial de Saúde (OMS) declarou a situação da tuberculose como uma emergência de saúde pública mundial num momento em que havia cerca de 7-8 milhões de casos e 1,3-1,6 milhões de mortes por ano. Em 2010, havia uma estimativa de 8,59,2 milhões de casos e 1,2-1,5 milhões de mortes (incluindo as mortes por tuberculose entre pessoas HIV positivas). É a segunda principal causa de morte por doenças infecciosas no mundo atrás apenas para o HIV (que causou um número estimado de 1,8 milhões de mortes em 2008) (WHO, 2013). Estima-se que cerca de um terço da população mundial esteja infectada com o bacilo de Koch, sob risco, portanto, de desenvolver a enfermidade e que cerca de 95% dos casos e 98% das mortes causadas pela doença ocorrem em países em desenvolvimento (Brasil, 2005). Desde 1981, vem-se observando, tanto em países desenvolvidos como nos em desenvolvimento, um número crescente de casos de tuberculose em pessoas infectadas pelo vírus da imunodeficiência humana (HIV). A associação HIV e tuberculose atualmente representa um sério problema de saúde pública, pois ocasiona o aumento da morbidade e mortalidade pela tuberculose em muitos países (Brasil, 2005). 17 1.1.1. Tuberculose no Brasil No Brasil, a tuberculose (TB) atualmente ainda é um problema de saúde tão importante quanto no início do século passado (Souza, 2005). Pelo último relatório da OMS, o país detectou 89% de seus casos novos em 2012, o que representa cerca de 71 mil casos (WHO, 2013). O Brasil ocupa o 17º lugar entre os 22 países responsáveis por 88% do total de casos de tuberculose no mundo. Morrem cerca de 4.600 casos de TB no país ao ano (Brasil, 2010). A maior concentração de casos acontece na Região Sudeste com São Paulo liderando o número de casos brutos, mas com o Rio de Janeiro com a maior taxa de incidência. No ano de 2010, o Estado do Rio de Janeiro notificou 14.206 casos de tuberculose e o município do Rio de Janeiro era o que se posicionava com o maior número de notificações (7.664 casos), seguido por Duque de Caxias (1.099 casos), Nova Iguaçu (707 casos), Niterói (661 casos) e São Gonçalo (577casos). Em relação ao abandono do tratamento entre os anos de 2001 e 2005, o percentual médio é de 11,9% no Estado do Rio de Janeiro, enquanto no município do Rio de Janeiro é de 8,9% (Brasil, 2009), todos além da meta estipulada pelo Plano Nacional de Controle da Tuberculose do Ministério da Saúde. No município do Rio de Janeiro, a tuberculose não acontece igualmente distribuída. A incorporação da dimensão espacial nas análises da doença pode extrair significados adicionais às análises convencionais, auxiliando na compreensão da dinâmica deste agravo. 1.2. SISTEMA DE INFORMAÇÃO DE AGRAVOS DE NOTIFICAÇÃO – SINAN A principal fonte de dados para a tuberculose (TB) é o Sinan e a notificação se baseia na definição de caso confirmado, na investigação e no acompanhamento dos casos (Pinheiro et al., 2010). O Sinan foi desenvolvido entre 1990 e 1993 com o objetivo de registrar e processar dados sobre agravos de notificação gerados pelo Sistema de Vigilância Epidemiológica em todo o território nacional, desde o nível local. É alimentado por informações de casos de doenças e agravos constantes da lista nacional de doenças de notificação compulsória (Portaria no104, de 25 de janeiro de 2011) (Brasil, 2010b). No Sinan, a entrada de dados ocorre pela Ficha Individual de Notificação – FIN (Anexo A) que é preenchida para cada paciente, quando da suspeita de problema de saúde de notificação compulsória. Depois essas fichas são encaminhadas pelas unidades assistenciais 18 aos níveis centrais onde o processamento eletrônico é feito (Brasil, 2007). O nível local é responsável pela alimentação, organização e gestão do sistema. Os dados coletados pela FIN dividem-se segundo os itens: Dados Gerais (UF e município de notificação, unidade de saúde notificadora, data da notificação, data do diagnóstico, etc.), Notificação individual (nome do paciente, nascimento, idade, sexo, presença de gestação, escolaridade, etc.), Dados de residência (UF, município, bairro, logradouro, número, complemento, referência, CEP, telefone, etc.), Antecedentes epidemiológicos (ocupação, tipo de entrada, se paciente é institucionalizado, etc.), Dados clínicos (raio X do tórax, teste tuberculínico, forma, agravos associados, etc.), Dados do laboratório (baciloscopia, cultura, HIV, histopatologia, etc.), Tratamento (data do início do tratamento, drogas, indicação para tratamento supervisionado, etc.) e Investigador (unidade de saúde, nome do profissional, etc.). Dentre esses, alguns campos são de preenchimento obrigatório: Número da Notificação, Data da Notificação, Município da Notificação, Unidade de Saúde, Data de Diagnóstico, Município da Residência, País, Data de Nascimento ou Idade, Sexo, Tipo de Entrada, Forma, Se extrapulmonar, Baciloscopia de Escarro, Cultura de escarro, Tratamento Supervisionado. Outros foram selecionados pelo Programa Nacional de Controle da Tuberculose – PNCT como de preenchimento essencial para análise epidemiológica e operacional: HIV, Data de início do Tratamento Atual, Baciloscopia no2º mês, Baciloscopia no 4º mês, Baciloscopia no 6º mês, Data de mudança de tratamento, Situação no 9º mês, Situação no 12º mês e Situação de Encerramento. Vale ressaltar que os Dados de Residência, matéria-prima para esse estudo, não são nem de preenchimento obrigatório, nem essencial. Segundo Sousa (2005), os atuais sistemas de vigilância epidemiológica apresentam problemas que colocam em dúvida a eficácia de suas aplicações: lentidão em gerar informações; falta de vinculação do espaço geográfico; e análise realizada fora dos níveis locais, impossibilitando aos serviços responder rapidamente aos problemas de saúde apresentados. Seria de extrema relevância que um sistema de vigilância da tuberculose contemplasse as intervenções territoriais para melhorar a identificação de possíveis determinantes. Sendo assim, a incorporação de novas tecnologias pode trazer ao sistema de vigilância da tuberculose maior agilidade na perspectiva de intervenção e aproximação do serviço de saúde (Souza, 2005). É certo de que a utilização de ferramentas de análise espacial potencializam meios de vigilância e fornecem informações essenciais para a implantação de 19 políticas de promoção a saúde com estratégias de controle e prevenção mais eficientes (Brasil, 2005). Na concepção do Sistema Único de Saúde (SUS) um dos objetivos básicos dos sistemas de informação é possibilitar a análise da situação de saúde no nível local usando unidades espaciais homogêneas como referência com intuito de inserir as condições de vida da população na determinação do processo saúde-doença (Brasil, 2005), o que os tornam uma importante ferramenta para apoiar a formulação e avaliação das políticas, planos e programas de saúde. Neste sentido, a localização e territorialização dos dados do Sinan dão suporte aos gestores no que diz respeito ao planejamento, decisões e ações nos três níveis de administração. 1.3. ANÁLISE ESPACIAL A inserção do espaço geográfico como uma variável nas análises para a compreensão da ocorrência e distribuição de doenças nas populações e a incorporação do conceito de espaço na Epidemiologia é bastante antiga (Silva, 1997). A percepção de que determinados agravos de saúde ocorrem preferencialmente em certos lugares e a análise do local como um ponto diferencial na ocorrência de agravos de saúde vêm sendo utilizado desde Hipócrates (480 A.C.) que enfatizou a importância do modo de vida dos indivíduos, analisando a influência dos ventos, água, solo e localização das cidades em relação ao Sol, na ocorrência de doenças (Pessoa, 1978; Trostle, 1986, Costa,1999). O modelo da multicausalidade e os estudos do processo saúde-doença receberam grande contribuição com a incorporação dos conceitos da Ecologia (Barreto, 1982) bem como da geografia crítica, defendida por Milton Santos, que disserta sobre as diversas interações que ocorrem no espaço geográfico e este atuando como participante ativo de todo o contexto histórico-social (Barcellos et al., 2008). A ideia central da utilização da análise espacial é mensurar propriedades e relacionamentos, inserindo uma variável referente a localização espacial do fenômeno estudado de forma explícita, isto é, incorporar o espaço à análise tradicional (Câmara et al., 2002). Os mesmos autores ainda afirmam que a não incorporação da estrutura espacial no modelo pode acarretar variações em larga escala e consequentemente à indução de associações espúrias. Desta forma a análise espacial compõe um conjunto de procedimentos 20 usado para buscar um modelo inferencial que inclua as relações espaciais existentes nos fenômenos estudados (Prado et al., 2010). O termo análise espacial não se resume simplesmente ao mapeamento de eventos. Neste tipo de análise, o estudo das características particulares dos dados espaciais com toda a sua complexidade também são incorporados (Kaluzny et al., 1996). Na interpretação dos mapas gerados nas análises espaciais é importante conhecer os processos envolvidos na produção do agravo, as representações sociais da doença e o modo como ela é tratada pelos serviços de saúde (Pina et al., 2006). A utilização da categoria espaço na saúde não deve se limitar a localização dos eventos “porque o lugar atribui a cada elemento constituinte do espaço um valor particular” (Santos 1988). Portanto, para uma eficaz representação da relação causal entre o bem-estar da população de uma determinada região e os efeitos das insuficiências na saúde de seu povo deve-se considerar a abordagem holística (Pina, 1998). Dentre os diversos procedimentos possíveis de serem utilizados nas análises espaciais destacam-se as técnicas de geoprocessamento e os métodos geoestatísticos, que aplicam técnicas da estatística clássica levando em consideração a localização geográfica e a dependência espacial (Kaluzny et al., 1996). Na saúde, a análise espacial refere-se à utilização de métodos quantitativos em estudos nos quais o objeto de interesse é definido geograficamente (Gesler, 1986). Não se trata apenas de agregar mais uma variável à questão da saúde, e sim, de considerar que a questão da saúde e da doença está intimamente ligada às questões sociais (Najar 1992). 1.4. ESTATÍSTICA ESPACIAL Estatística espacial é o ramo da estatística que permite analisar a localização espacial dos eventos. Várias técnicas de estatística espacial podem ser aplicadas nesses casos, dentre eles os modelos de regressão espacial, que como o modelo de regressão clássico, busca ajustar um modelo matemático que permita descrever uma determinada variável em relação às demais, entretanto incorporando a dependência espacial entre as observações. Um aspecto fundamental na aplicação desses modelos é a caracterização dessa dependência espacial, mostrando como os valores estão correlacionados no espaço. Neste contexto, a função utilizada para estimar quanto o valor observado de um atributo numa região é dependente dos valores desta mesma variável nas localizações vizinhas é a 21 autocorrelação espacial. Ressalta-se que a utilização de modelos estatísticos com abordagens espaciais é justificada quando da existência da dependência espacial. Para estimar a magnitude da autocorrelação espacial entre as áreas, uma das ferramentas é o índice global de Moran. Na utilização deste índice, a hipótese nula considerada é de independência espacial quando o seu valor é zero. Quando os valores são positivos (entre 0 e +1), indicam que a correlação é direta. Quando os valores são negativos, (entre 0 e –1) a correlação é inversa. Porém, quando se trabalha com um grande número de áreas, é provável que haja diferentes regimes de correlação espacial em diferentes sub-regiões por conta da natureza dos processos envolvidos. Nesse caso, pode-se utilizar os indicadores locais de autocorrelação espacial e o mapa de espalhamento de Moran. Uma ferramenta básica no cálculo desses indicadores é a Matriz de Proximidade Espacial (ou Matriz de Vizinhança). Dependendo de como o dado se apresenta e do objetivo do estudo, a matriz de vizinhança pode ser calculada de acordo com vários critérios, dentre eles: o critério rainha que determina unidades vizinhas como aqueles que têm qualquer ponto comum, incluindo os limites comuns e cantos comuns, o critério torre, que define como vizinhos de uma localização as áreas com fronteiras comuns, o critério de distância fixa, onde são consideradas vizinhas áreas que estejam em uma dada distância. 1.5. GEOPROCESSAMENTO E SISTEMAS DE INFORMAÇÕES GEOGRÁFICAS NA SAÚDE O uso do geoprocessamento nos eventos relacionados saúde vai além da descrição de padrões espaciais de morbidade e mortalidade e seus fatores associados. Ele permite gerar hipóteses etiológicas referentes à origem das doenças em diferentes populações (Medronho &Werneck, 2009). As técnicas de geoprocessamento, principalmente os Sistemas de Informações Geográficas (SIG) permitem incorporar diversas variáveis como localização, tempo, características socioeconômicas, características ambientais nos estudos em saúde. Neste sentido, essas técnicas oferecem instrumentos de análise de situações concretas das populações em risco, planejamento de ações, alocação de recursos e preparação de ações de emergência (Barcelos & Bastos, 1996). O SIG é um conjunto poderoso de ferramentas para coleta, armazenamento, recuperação, transformação e visualização de dados sobre o mundo real (Burrough, 1986). Aranoff (1989) conceitua SIG como “um conjunto manual ou computacional de 22 procedimentos utilizados para armazenar e manipular dados georreferenciados”. Muitas são as definições encontradas na literatura, entretanto, todas refletem a variedade de possíveis utilizações desta tecnologia e mostram sua interdisciplinaridade. Uma das grandes contribuições dos SIG é a maneira com que os dados gráficos são armazenados em camadas (níveis de informação). O sistema possibilita a realização de operações matemáticas entre as diferentes camadas, permitindo a integração de informações referidas a unidades que não se sobreponham perfeitamente. Desta forma, pode-se realizar a estimação de indicadores para outros níveis de agregação diferentes do seu original, é claro que respeitando-se algumas limitações. As camadas podem ser utilizadas e integradas da maneira que o usuário precise. Outra vantagem é a possibilidade de manipulação tanto de dados gráficos quanto não-gráficos de maneira integrada, promovendo análises e consultas com dados espaciais. 1.5.1. Georreferenciamento de dados de saúde Georreferenciamento é o processo de localização do dado na superfície terrestre. Essa localização pode ser feita através de um par de coordenadas, do endereço do evento ou usando alguma unidade espacial de referência, como por exemplo, um município, um bairro, uma bacia hidrográfica, entre outros. No Brasil, os dados dos sistemas de informações de saúde são gerados no nível local e repassados às esferas superiores do governo. Portanto a coleta dos dados (inclui-se aqui os campos destinados à localização geográfica, como nome de logradouro e bairro de residência e/ou ocorrência) e o correto preenchimento dos formulários dos sistemas de informações são de responsabilidade das secretarias municipais de saúde, (Barcellos et al., 2008). Diversos trabalhos vêm utilizando os sistemas de informações de saúde para análise e avaliação de riscos à saúde pública. Na maioria dos estudos, a unidade espacial de análise é o município ou o bairro informado, que servem de base para a distribuição espacial dos eventos a serem estudados (Skaba, 2004). Em algumas análises, a escolha do município como unidade de análise é suficiente para obtenção dos resultados esperados. Em outros casos faz-se necessário um maior detalhamento do local de ocorrência. Neste caso pode-se utilizar o bairro. O importante é que a unidade territorial escolhida não possua grande heterogeneidade interna e que as variáveis de interesse se distribuam da forma mais homogênea possível por toda a área de interesse. 23 Entretanto, ainda existem algumas situações em que essa unidade espacial não satisfaz completamente os objetivos do estudo. No caso da caracterização da população ser importante, o bairro pode não ser suficientemente homogêneo. Em várias cidades, principalmente as mais urbanizadas, num mesmo bairro, pode-se encontrar grande heterogeneidade, por exemplo, com parte da população vivendo com indicadores sociais elevados e outra parte da população vivendo abaixo da linha da miséria, como acontece no município do Rio de Janeiro onde áreas de favelas estão integradas às áreas urbanizadas de um bairro. Nestes casos, é necessária a localização do evento de saúde com bastante detalhe podendo ser utilizado o endereço de residência ou ocorrência, coordenadas levantadas em campo com GPS ou ainda os setores censitários (Skaba, 2004), que são pequenas áreas com aproximadamente 400 domicílios definidas e delimitadas pelo IBGE para a realização dos censos e pesquisas e para quais todos os dados coletados nos censos demográficos são divulgados (dados populacionais, socioeconômicos, saneamento etc.). Os endereços urbanos são os recursos mais utilizados por habitantes de cidades para indicar localizações geográficas, sendo, geralmente a referência mais comum de eventos que ocorrem em áreas urbanas (Davis Jr., 2007). O uso de endereços na localização de pontos de interesse é bastante usual e conhecido, e por isso, normalmente são incluídos como atributos em sistemas de informação convencionais (Furtado et al., 2012). Estima-se que 80% da informação utilizada por governos local na área de saúde, segurança, educação e arrecadação, esteja associada à localização geográfica, principalmente a endereços (Davis Jr., 2007). Porém, quando o georreferenciamento dos dados é feito através do endereço, em muitas cidades brasileiras, esbarra-se em outras dificuldades: o mal preenchimento desse campo (muitos erros de digitação, grafias diferentes, erros ortográficos), a falta de mapeamento em escala cadastral principalmente nas áreas mais carentes e a falta de cadastros oficiais de endereços (Pina et al., 2003). Neste caso, a eficiência do georreferenciamento depende tanto da qualidade dos dados de endereço captados nos sistemas de informações em saúde, quanto da atualização do mapeamento utilizado como base. Dentre essas dificuldades, a questão da qualidade do endereço dos sistemas de informações seria a de mais fácil resolução uma vez que a atualização de base cartográfica além de ser muito custosa é demasiadamente demorada. Os processos disponibilizados pelos SIG, incluindo a utilização de estatística espacial, além de identificar, localizar e visualizar a ocorrência de eventos que se caracterizam pela variável espacial, permitem modelar a ocorrência destes fenômenos, incorporando, dentre 24 vários fatores determinantes, a estrutura de distribuição espacial ou a identificação de padrões espaciais (Carvalho, et al. 2007). Neste trabalho, o espaço foi incluído como componente da análise a partir da utilização de três modelos de regressão espacial, descritos na metodologia, para buscar possíveis correlações entre a ocorrência da tuberculose e os dados socioeconômicos, melhorando, assim a compreensão do processo do adoecimento pela doença. 25 2. OBJETIVOS 2.1. OBJETIVO GERAL Analisar a distribuição espacial da ocorrência da tuberculose no município do Rio de Janeiro nos anos de 2005 a 2008, correlacionando com variáveis socioeconômicas, por meio de técnicas de estatística espacial utilizando diferentes métodos de análise. 2.2. OBJETIVOS ESPECÍFICOS 1. Avaliar a qualidade do dado referente ao endereço do Sinan-TB (Sinan que armazena os dados da tuberculose) e medir possíveis impactos nos cálculos de indicadores de tuberculose através do georreferenciamento dos casos no nível do bairro; 2. Analisar o padrão espacial da tuberculose identificando variáveis socioeconômicas relevantes para a sua ocorrência por meio de modelos estatísticos espaciais globais; 3. Analisar por meio de um modelo estatístico espacial local – o GWR (Geographically Weighted Regression), indicadores socioeconômicos mais associados a locais de maior ocorrência da tuberculose. 26 3. MATERIAIS E MÉTODOS Trata-se de um estudo ecológico realizado no município do Rio de Janeiro situado na região Sudeste do Brasil. Com uma população de 6.323.037 e uma área de 1.200 km2, é a segunda maior cidade do Brasil (IBGE, 2010a). O município do Rio de Janeiro é composto por cinco áreas programáticas divididas em 160 bairros. Segundo o Censo Demográfico de 2010, possui mais de 10 mil setores censitários sendo que 2.227 (21%) estão localizados nas 763 favelas cadastradas no município, onde vive 22% da população (IBGE, 2010b). 1 Centro 2 Gamboa 3 Santo Cristo 4 Caju 5 Catumbi 6 Rio de Comprido 7 Cidade Nova 8 Estácio 9 Flamengo 10 Glória 11 Larajeiras 12 Catete 13 Cosme Velho 14 Botafogo 15 Urca 16 Humaitá 17Leme 18 Copacabana 19 Ipanema 20 Leblon 21 Lagoa 22 Jardim Botânico 23 Gávea 24 Vidigal 25 São Conrado 26 São Cristóvão 27 Mangueira 28 Benfica 29 Praça da Bandeira 30 Tijuca 31 Alto da Boa Vista 32 Maracanã 33 Vila Isabel 34 Andaraí 35 Grajaú 36 Manguinhos 37 Bonsucesso 38 Ramos 39 Olaria 40 Penha 41 Penha Circular 42 Brás de Pina 43 Cordovil 44 Parada de Lucas 45 Vigário Geral 46 Jardim América 47 São Francisco Xavier 48 Rocha 49 Riachuelo 50 Sampaio 51 Engenho Novo 52 Lins de Vasconcelos 53 Méier 54 Todos os Santos 55 Cachambi 56 Engenho de Dentro 57 Água Santa 58 Encantado 59 Piedade 60 Abolição 61 Pilares 62 Vila Kosmos 63 Vicente de Carvalho 64 Vila da Penha 65 Vista Alegre 66 Irajá 67 Colégio 68 Campinho 69 Quintino Bocaiúva 70 Cavalcanti 71 Engenheiro Leal 72 Cascadura 73 Madureira 74 Vaz lobo 75 Turiaçu 76 Rocha Miranda 77 Honório Gurgel 78Oswaldo Cruz 79 Bento Ribeiro 80Marechal Hermes 81 Jacarepaguá 82 Anil 83 Gardênia Azul 84 Cidade de Deus 85 Curicica 86 Freguesia (Jacarepaguá) 87 Pechincha 88 Taquara 89 Tanque 90 Praça Seca 91 Vila Valqueire 92 Deodoro 93Vila Militar 94 Campos dos Afonsos 95 Jardim Sulacap 96 Magalhães Bastos 97 Realengo 98 Padre Miguel 99 Bangu 100 Senador Camará 101 Santíssimo 102 Campo Grande 103 Senador Vasconcelos 104 Inhoaíba 105 Cosmos 106 Paciência 107 Santa Cruz 108 Sepetiba 109 Ribeira 110 Zumbi 111 Cacuia 112 Pitangueiras 113 Praia da Bandeira 114 Cocotá 115 Bancários 116 Freguesia (Ilha) 117 Jardim Guanabara 118 Jardim Carioca 119 Tauá 120 Moneró 121 Portuguesa 122 Galeão 123 Cidade Universitária 124 Guadalupe 125 Anchieta 126 Parque Anchieta 127 Ricardo Albuquerque 128 Santa Teresa 129 Joá 130 Itanhangá 131 Barra da Tijuca 132 Camorim 133 Vargem Pequena 134 Vargem Grande 135 Recreio dos Bandeirantes 136 Grumari 137 Coelho Neto 138 Acari 139 Barros Filho 140 Costa Barros 141 Pavuna 142 Guaratiba 143 Barra de Guaratiba 144 Pedra de Guaratiba 145 Higienópolis 146 Jacaré 147 Maria da Graça 148 Del Castilho 149 Inhaúma 150 Engenhho da Rainha 151 Tomás Coelho 152 Saúde 153 Paquetá 154 Parque Columbia 155 Jacarezinho 156 Rocinha 157 Complexo do Alemão 158 Maré 159 Vasco da Gama 160 Gericinó Figura 1: Município do Rio de Janeiro por bairros e áreas de planejamento 27 3.1. FONTE DE DADOS 3.1.1. Dados de saúde Os dados de tuberculose estudados foram os casos novos notificados à Vigilância Epidemiológica do município do Rio de Janeiro através do Sistema de Informação de Agravos de Notificação (Sinan) entre os anos de 2005 e 2008, disponibilizados pela Secretaria Municipal de Saúde e Defesa Civil do Rio de Janeiro (SMSDC-RJ). Foram utilizados os registros cuja informação sobre o município de residência e município de atendimento foram o Rio de Janeiro. A SMSDC-RJ disponibilizou à pesquisa o banco de dados completo que foi tabulado em Tabnet pela própria secretaria porém sem as informações de identificação dos pacientes: NOME e NOME DA MÃE. O banco estava consolidado, portanto sem duplicidades e com os casos encerrados. Os campos referentes aos Dados de Residência disponibilizados foram: UF, município, bairro, distrito, logradouro, número, complemento, referência, CEP, zona e país. Os campos “logradouro” e “número” foram os campos pelos quais os registros foram georreferenciados, porém, os dados pontuais foram utilizados apenas na rotina de georreferenciamento dos casos e são apresentados agregados por setor censitário (quantificados por área) em mapas temáticos sem nenhuma informação de rua, sendo impossível a identificação por qualquer leitor. O dado sobre bairro que se encontra no banco de dados refere-se ao bairro declarado pelo paciente no momento do preenchimento da FIN. 3.1.2. Dados cartográficos: Foi utilizada a base cartográfica digital na escala 1:2000 do ano de 2000 referente ao município do Rio de Janeiro contendo os logradouros com a numeração dos trechos de cada arruamento o que permitiu o georreferenciamento dos casos de tuberculose. A base foi comprada pelo Núcleo de Geoprocessamento do Instituto de Comunicação e Informação Científica e Tecnológica da Fundação Oswaldo Cruz (ICICT/FIOCRUZ) de uma empresa de Cartografia e Geoprocessamento. Essa base cartográfica possui uma base gráfica com o eixo dos logradouros integrada a uma tabela que contem a numeração de cada trecho das ruas, com o número do início e do final de cada lado (par e ímpar) conforme mostra a figura 2. 28 Figura 2: Base cartográfica com eixo de logradouros e numeração. Na etapa do georreferenciamento também foi utilizada a base do Google Maps através de um programa desenvolvido pelo Núcleo de Geoprocessamento - ICICT/FIOCRUZ. Outra base cartográfica utilizada foi a malha digital de setor censitário do ano de 2010 (IBGE, 2010b), disponibilizada em formato shape (formato vetorial de dados geoespaciais utilizado em programas de SIG desenvolvido e regulamentado pela empresa Esri criadora do software ArcGis com padrão aberto que permite interoperabilidade de dados entre vários programas de SIG) pelo IBGE. O mapa de bairro do município do Rio de Janeiro foi construído a partir do mapa de setores censitários. 3.1.3. Dados populacionais e socioeconômicos Os dados sobre a população residente em cada setor censitário bem como as variáveis socioeconômicas foram retirados do Censo Demográfico de 2010 (IBGE, 2010b) divulgados em formato digital pelo Instituto Brasileiro de Geografia e Estatística. 29 Essas variáveis serviram de base para construir os indicadores utilizados nas análises dos dados. A saber: Número médio de pessoas por domicílios (POP_DOM), Renda familiar média (RM_DOM); Proporção de responsável com renda maior que 1 salário-mínimo e menor que 2 salários-mínimos (P_R_2SM); Proporção de responsável com renda mensal menor que 1 salário-mínimo (P_R_1SM); Proporção de analfabetos (P_ANALF); Proporção de domicílio com abastecimento de água da rede geral (P_DOM_AG); Proporção de domicílio com banheiro de uso exclusivo dos moradores ou sanitário e esgotamento sanitário via rede geral de esgoto ou pluvial (P_DOM_SA); Proporção de domicílio com coleta de lixo por serviço de limpeza (P_DOM_CL); Proporção de domicílios com banheiro de uso exclusivo dos moradores ou sanitário (P_DOM_BA); Proporção de cor de pele declarada branca (P_P_BRA); Proporção de cor de pele declarada preta (P_P_PRE); Proporção de cor de pele declarada parda (P_P_PAR); Proporção de domicílios com pessoas que moram sozinhas (P_DOM_MS); Renda média do responsável (RM_RESP). 3.2. MÉTODOS A metodologia foi dividida em três etapas apresentadas nos subitens 3.2.1, 3.2.2 e 3.2.3 que descrevem os processos utilizados para a elaboração dos três artigos propostos como resultado desta tese. Os softwares utilizados foram o ArcGis 10 e Terra View 4.2.0 para executar os processos de SIG e o SPSS e Geoda para execução dos modelos estatísticos. 3.2.1. Artigo 1 3.2.1.1. Georreferenciamento dos dados de tuberculose O georreferenciamento foi realizado de duas formas diferentes visando a comparação dos métodos e avaliação daquele mais eficiente. No primeiro método, essa etapa consistiu basicamente em procurar o endereço de cada registro do banco do Sinan-TB e compará-los aos endereços contidos em uma base de ruas. Foi feito com a base de lograduros disponibilizada pelo Núcleo de Geoprocessamento – ICICT/FIOCRUZ. O processo foi realizado através da ferramenta Geocoding do programa ArcGis 10 utilizando apenas o processo automático, que consiste na busca de cada endereço de TB na 30 base cartográfica de logradouros escolhida. O sistema encontra o logradouro através do nome, interpola o número da casa no trecho do logradouro e retorna ao usuário o par de coordenadas. Os endereços não encontrados são apresentados ao usuário para que este possa fazer o georreferenciamento semiautomático, que consiste em analisar possíveis erros na informação, por exemplo: Rua Luiz no lugar de Rua Luis ou Av. Basil no lugar de Av. Brasil e intervindo nos casos em que tem possibilidade. Depois disso, ainda pode ser feito o georreferenciamento manual que consite em selecionar todos os endereços não encontrados nas duas etapas anteriores e através de sites procurar endereço a endereço. Atualmente um dos melhores sites para fazer esse tipo de trabalho é o Google Maps. O segundo método de georreferenciameto consistiu em utilizar um programa elaborado no Núcleo de Geoprocessamento – ICICT/FIOCRUZ desenvolvido em Javascript utilizando as APIs do Google1 e PHP2. O programa confronta cada endereço do banco com os endereços da base cartográfica e retorma o par de coordenadas. Quando o programa não encontra o nome da rua, ele retorna ao usuário a coordenada do bairro e se também não acha o bairro, retorna ao usuário a coordenada do município e assim por diante até chegar ao nível de país. Isso foi um problema no ínício dos testes porque não era avisado ao usuário qual das referências o programa tinha usado. O problema foi solucionado fazendo com que o programa retorne uma tabela com o seguinte score: 0 - Não localizado 1 - Localizado no país 2 - Localizado no estado, província, prefeitura 3 - Localizado na sub-região 4 - Localizado no município 5 - Localizado no CEP 6 - Localizado na rua 7 - Localizado na interseção de rua 8 - Localizado no endereço 9 - Localizado no prédio pelo nome da construção (shopping center, igreja, prédios comerciais etc.) Assim, o usuário pode escolher entre utilizar ou não o par de coordenada fornecido dependendo do objetivo do seu estudo. 1 As APIs do Google Maps/Google Earth são uma coleção de serviços que permitem incluir mapas, a geocodificação e outros conteúdos do Google nas suas páginas web ou aplicativos. 2 PHP - Personal Home Page é uma linguagem que permite criar sites WEB dinâmicos, possibilitando uma interação com o usuário através de formulários, parâmetros da URL e links. 31 O resultado desse processo é uma tabela com um par de coordenada para cada registro onde o endereço foi localizado. A partir dessa tabela, utilizando uma função do ArcGis 10 foi gerado um nível de informação com os casos de TB onde cada ponto correspondia a um caso da doença. Com o objetivo de se avaliar a qualidade do endereço do Sinan-TB, foi feito para os dois métodos o georreferenciamento com o banco original de TB, isto é, sem nenhuma interferência/correção no campo relacionado ao endereço (banco original) e o georreferenciamento do banco após uma criteriosa adequação/correção do endereço (banco corrigido), principalmente no que diz respeito ao nome da rua com o objetivo de corrigir os erros. Alguns dos erros corrigidos referem-se a: · Endereços sem o tipo do logradouro (rua, avenida, beco, etc.); · Trocas com o tipo do logradouro entre “avenida”, “rua”, “estrada”, etc.; · Nomes antigos de ruas; · Nomes de ruas escritos de várias maneiras diferentes; · Nomes de ruas com letras totalmente invertidas. Isso sem considerar a grande quantidade de endereços sem nenhuma informação de logradouro, sem número e morador de rua sem indicação do local. Cada processo de georreferenciamento gerou um nível de informação que foram comparados entre si para avaliar qual o processo mais efetivo. Após todas essas tentativas de melhorar o georreferenciamento, os registros não localizados ainda foram enviados para a Assessoria de Informação Geográfica (AIG) da SMSDC-RJ na tentativa de diminuir a perda. Nesse caso o georreferenciamento foi realizado pelo programa desenvolvido pela AIG que usa a base do Instituto Pereira Passos (IPP) e do setor censitário. Foi realizado por seleção automática de endereço (por pesquisa simples e fonética). 3.2.1.2. Tratamento e integração dos dados em SIG Com todas as bases de dados gráficas e tabulares inseridas no SIG e lançando mão da potencialidade que o sistema oferece, foram utilizadas várias ferramentas de integração e análise de dados disponibilizadas. Como resultado de uma dessas ferramentas foi possível gerar a base gráfica dos bairros a partir da base dos setores censitários através da agregação dos setores que continham 32 o mesmo código do bairro. Foi possível também calcular a população de cada bairro somando-se a população de seus setores censitários. A integração da base de bairros com os níveis de informação dos pontos (casos) de TB permitiu quantificar o número de casos por bairros (tanto o declarado na FIN quanto o bairro onde o endereço foi georreferenciado) e a partir daí foi possível fazer uma análise das diferenças que esses números podem gerar no cálculo de indicadores de saúde. Partindo dos casos georreferenciados, foi feito o cálculo das diferenças do número de casos comparando o bairro declarado e o bairro onde o endereço foi georreferenciado. Criouse um indicador para mensurar o quão diferentes são esses valores para o mesmo bairro. Calculou-se a razão entre a taxa de incidência de TB por bairro utilizando o bairro declarado e a taxa de TB por bairro utilizando o bairro georreferenciado. = !"#" %& '()'%ê()'" (* +"',,* %&)-","%* !"#" %& '()'%ê()'" (* +"',,* .&*,,&/&,&()'"%* Quanto mais o indicador I se aproxima da unidade, mais próximos estão os valores dos casos nos bairros declarados em relação aos bairros georreferenciados. Se I > 1, existem mais casos no bairro declarado que no bairro georreferenciado; e, se I< 1, existem mais casos georreferenciados no bairro do que no declarado. A análise desse resultado possibilitará fazer uma avaliação mais criteriosa e detalhada da perda do georreferenciamento e ainda identificar a percepção do que é o bairro na visão do paciente. 3.2.2. Artigo 2 3.2.2.1. Análise espacial dos dados com modelos com efeitos espaciais globais A unidade espacial escolhida foi o setor censitário que é uma unidade territorial criada pelo IBGE para organização e execução dos censos e pesquisas. O setor censitário é a menor unidade de agregação nas quais os dados coletados nos Censos Demográficos são divulgados. Os casos de tuberculose foram georreferenciados por endereço de residência conforme metodologia descrita no item 3.2.1. Foram excluídos do estudo os casos em que a residência se referia a presídios e hospitais. Inicialmente, foi feita uma análise exploratória a partir da identificação da ocorrência da doença nos setores censitários considerando a quantidade de casos em cada setor e a seguir calculou-se a taxa de incidência do período para cada 1.000 33 habitantes por setor censitário. A contagem dos pontos em cada setor foi feita a parir de ferramentas disponibilizadas no programa de SIG utilizado. Dos 10.504 setores, foram excluídos do estudo 314 que não tinham população (em sua maioria áreas ocupadas por maciços, lagoas, áreas verdes etc.) ou que, por terem poucos domicílios particulares permanentes, tiveram seus dados omitidos pelo IBGE a fim de manter o sigilo dos dados. Buscou-se explicar a variável referente à taxa de incidência de TB do período a partir dos indicadores: Número de pessoas por domicílios, Renda média do domicílio (RM_DOM); Proporção de responsável com renda mensal menor que 1 salário-mínimo (P_R_1SM); Proporção de responsável com renda entre 1 e 2 salários-mínimos (P_R_2SM); Proporção de analfabetos (P_ANALF); Proporção de domicílio com abastecimento de água da rede geral (P_DOM_AG); Proporção de domicílio com banheiro de uso exclusivo dos moradores ou sanitário e esgotamento sanitário via rede geral de esgoto ou pluvial (P_DOM_SA); Proporção de domicílio com coleta de lixo por serviço de limpeza (P_DOM_CL); Proporção de domicílios com banheiro de uso exclusivo dos moradores ou sanitário (P_DOM_BA); Proporção de cor de pele declarada branca (P_P_BRA); Proporção de cor de pele declarada preta (P_P_PRE); Proporção de cor de pele declarada parda (P_P_PAR); Proporção de domicílios com pessoas que moram sozinhas (P_DOM_MS); Renda média do responsável (RM_RESP). Por se tratar de um evento raro e a população do setor censitário ser pequena detectouse alta instabilidade nas taxas brutas que poderiam expressar o risco de TB de maneira equivocada. Segundo Santos (2005), as variações bruscas que ocorrem com estas taxas podem não ser inerentes ao fenômeno e sim estar associadas a uma grande variabilidade das observações. Numa população pequena, flutuações aleatórias casuais, como a ocorrência de um ou dois casos do evento a mais ou a menos numa localidade, causam variações importantes nas taxas brutas, o que não acontece quando a população é grande. Visando minimizar a instabilidade das taxas brutas e eliminando a flutuação aleatória foi aplicado o alisamento das taxas de incidência usando o método Bayesiano Empírico Local que inclui efeitos espaciais, calculando a estimativa localmente, utilizando os setores censitários vizinhos do setor censitário no qual se deseja estimar a taxa, convergindo em direção a uma média local em vez de uma média global (Bailey & Gatrell, 1995). As taxas corrigidas são menos instáveis, pois levam em conta no seu cálculo não só a informação da área, mas também a informação de sua vizinhança (Assunção et al., 1998; Santos, 2005). 34 Foi empregada a transformação do tipo logaritmo neperiano (Ln) na variável dependente - taxa de incidência bayesiana, para aproximá-la a uma distribuição normal (LogTXBAY). A elaboração de mapas temáticos permite visualizar a distribuição da taxa de incidência bayesiana normalizada pelo logaritmo ao longo do município. Invariavelmente a análise espacial se divide em duas etapas, a primeira, envolve análise exploratória que “permite descrever as distribuições das variáveis e seus padrões de associação, bem como fornece indicadores sobre possíveis modelos que serão analisados através de procedimentos de estimação e validação” (Ponciano & Scalon, 2010). A segunda etapa consiste na modelagem propriamente dita dos dados, que a partir dos resultados da análise exploratória vai definir o melhor modelo a ser adotado. Várias técnicas podem ser aplicadas para detecção de autocorrelação espacial entre áreas (Câmara et al., 2002). Neste trabalho foram utilizados o índice de Moran Global e Local para verificar a presença de aglomerados ou “bolsões” de não-estacionaridade, isto é, áreas com dinâmica espacial própria e que merecem uma análise detalhada. O índice Global de Moran descreve espacialmente o relacionamento entre os valores observados e os valores das médias locais pela equação: = 9 0 ∑9 3:; ∑4:; 234 (63 76̅ )(64 76̅ ) > (∑9 3:;(63 76̅ ) )(∑ ∑3@4 ? AB) , para i≠j Onde: n é o número de áreas; zi é o valor do atributo na área i; z é o valor médio do atributo na área de estudo; e wij é o elemento na matriz normalizada de vizinhança para o par i e j. De maneira geral, esse índice testa a hipótese nula que é a de independência espacial, portanto seu valor deve ser muito próximo de zero. Caso contrário, se o valor for positivo, há indicação de correlação direta e se for negativo, há indicação de correlação inversa. Neste teste, várias combinações dos valores de atributos associados às áreas são geradas, calculando-se os seus índices e verificando se o índice do arranjo que representa a situação observada está nas caudas, fora do intervalo de confiança. A hipótese subjacente na operação do índice global de Moran é a estacionariedade de primeira e segunda ordem, perdendo sua validade caso os dados não sejam estacionários. Ou seja, se não houver estacionariedade de primeira ordem, seus vizinhos tendem a ser similares a áreas distantes, por causa da comparação com a média global. Além disso, se a variância 35 não é constante, nos locais de maior variância, o índice é menor, e vice-versa. (Câmara et al., 2002). Quando se trabalha com número grande de áreas é melhor examinar os dados com mais detalhamento, pois é provável que existam diferentes padrões de autocorrelação espacial, sendo assim é necessária a utilização de indicadores que possam ser associados a diferentes localizações, já que fornecem um valor local para cada área, permitindo a identificação de agrupamentos estatisticamente significantes (Câmara, 2002) em nível local. Para este trabalho foi utilizado o Indicador Local de Associação Espacial (LISA – Local Indicator of Spatial Association) baseado na matriz de vizinhança gerada com os vizinhos de primeira ordem. Esse indicador possibilita a identificação de padrões significativos de associação espacial e permite representar uma decomposição do índice global. Assim, o índice local de Moran, estimado a partir de valores normalizados, pode ser calculado para cada área i pela expressão: A CA ∑0BEF DAB CB = ∑0BEF DB G onde o valor de significância estatística é calculado da mesma forma que no caso global. Calculando-se o índice de Moran local (LISA) foi possível classificar os setores censitários em função do nível de significância dos valores de seus índices locais em: alta/alta, baixa/baixa, significa que possuem associação positiva, isto é a localização possui vizinhos com valores próximos, e alta/baixa e baixa/alta, indicam associação negativa, ou seja, que a localização possui vizinhos com valores distintos. Constatada a autocorrelação espacial, partiu-se para a escolha do melhor modelo de regressão espacial para as variáveis estudadas. A regressão apenas deve ser utilizada se a correlação entre as variáveis for significativa. Para isso foi construída a matriz de correlação de Spearman e sob um olhar estatístico e epidemiológico, as variáveis independentes com correlação estatisticamente significativas a 5% com a variável dependente e as variáveis não colineares, isto é, com correlação < 0,7 foram utilizadas na análise das regressões clássica e espacial. As variáveis independentes selecionadas através da matriz de correlação foram analisadas a partir do modelo de regressão linear multivariada (Ordinary Least Squares Estimation - OLS) e, utilizando em um primeiro momento o método backward, buscou-se identificar variáveis que melhor explicassem a ocorrência de TB. A esse resultado, com 36 objetivo de incorporar os efeitos espaciais, aplicou-se os chamados modelos com efeitos espaciais globais que tratam a estrutura espacial de forma global, isto é, supõe que é possível capturar a estrutura de correlação espacial num único parâmetro, que é adicionado ao modelo de regressão tradicional. Com intuito de verificar qual melhor modelo se encaixaria nas variáveis estudadas foram aplicadas as duas alternativas. O primeiro utilizado foi o modelo espacial autoregressivo misto (Spatial Autoregressive ou Spatial Lag Model) que atribui à variável resposta Y a autocorrelação espacial ignorada. Dado que se considera a dependência espacial através da adição ao modelo de regressão de um novo termo na forma de uma relação espacial para a variável dependente. Formalmente, tem-se: H = IJ + LMH + N onde: W é a matriz de proximidade espacial; MH expressa a dependência espacial em Y; e L é o coeficiente espacial autoregressivo (Bailey & Gatrell, 1995). Neste modelo a autocorrelação espacial é incorporada como componente do modelo. O segundo modelo utilizado foi o do erro espacial (Spatial Error Model), que considera os efeitos espaciais como um ruído, isto é, como um fator a ser removido. Esse modelo parte do princípio de que não é possível modelar todas as características de uma unidade geográfica que podem influenciar as regiões vizinhas. Assume que, se fosse possível adicionar as variáveis certas para remover o erro do modelo, o espaço não importaria mais. Neste caso, os efeitos da autocorrelação espacial são associados ao termo de erro ε e o modelo é descrito por: H = IJ + N, N = PMQ + R onde: MQ é a componente do erro com efeitos espaciais; P é o coeficiente autoregressivo; R é a componente do erro com variância constante e não correlacionada. A hipótese nula para a não existência de autocorrelação é que λ= 0, ou seja, o termo de erro não é espacialmente correlacionado (Câmara, 2002). Na avaliação de qual modelo melhor se ajustaria às variáveis disponíveis foram calculadas as estatísticas: log da verossimilhança: valor do logaritmo da função de verossimilhança e os valores estimados dos coeficientes: critério de informação de Akaike (AIC) e critério bayesiano Schwarz (SBC). Sendo preferido aquele que apresenta maior valor do log da verossimilhança e menores valores do critério de informação de Akaike e do critério 37 bayesiano. Para avaliar os modelos de efeitos espaciais globais, foram analisados os resíduos nos modelos Spatial Lag e Spatial Error. Uma alta concentração de resíduos positivos ou negativos em uma parte do mapa indica a presença de autocorrelação espacial. Foi utilizado também o teste de índice de Moran sobre os resíduos para verificar quantitativamente se a autocorrelação espacial foi eliminada com a aplicação do modelo. 3.2.3. Artigo 3 3.2.3.1. Análise espacial dos dados com modelos de Regressão Ponderada Geograficamente Quando o processo espacial estudado é considerado não-estacionário, os coeficientes de regressão precisam refletir a heterogeneidade espacial. O relacionamento entre as variáveis pode ser melhor explorado, quando a análise é local, permitindo mais detalhamento dos resultados e consequentemente, conduzindo para uma maior compreensão do fenômeno. Considerando a importância da heterogeneidade da distribuição dos dados, para diferentes culturas, hábitos e dinâmicas sociais, condições socioeconômicas, entre outros fatores de risco, reforça-se a necessidade de se fazer análises espaciais cada vez mais regionalizadas (Fischer et al., 2008; Cunha, 2012). Para tanto, há duas grandes alternativas: modelar a tendência espacial de forma contínua, com parâmetros variantes no espaço (modelos de regressão com efeitos espaciais contínuos), ou modelar a variação espacial de forma discreta, ao dividir o espaço em subregiões estacionárias (modelos de regressão com regimes espaciais). Nesse estudo foi utilizado o segundo método considerando a existência de variações locais contínuas, sem uma forte tendência global. Nesse caso, a ideia é ajustar um modelo de regressão a cada ponto observado, ponderando todas as demais observações como função da distância a este ponto. Assim, são feitos tantos ajustes quantas observações existam e o resultado é um conjunto de parâmetros, onde cada ponto considerado terá seus próprios coeficientes de ajuste. Estes parâmetros podem ser apresentados visualmente para identificar como se comportam espacialmente os relacionamentos entre as variáveis. Esta técnica é denominada Regressão Ponderada Geograficamente (Geographically Weighted Regression – GWR). O GWR considera no seu modelo a variação do fenômeno ao longo do espaço geográfico, com uma visão distinta nas várias subáreas. Considera-se que o fenômeno nas localidades mais próximas sejam mais semelhantes e, conforme vão se distanciando vão se 38 tornando menos parecidas (Tobler, 1970). Através de mapeamento dos parâmetros estimados, essa técnica permite avaliar a dependência espacial de uma forma mais complexa, considerando relacionamento multivariado (Charlton et al, 2005). Os modelos de regressão ponderados geograficamente podem ser considerados como uma extensão direta de modelos de regressão linear ajustados por mínimos quadrados ponderados (Cunha, 2012). Portanto para aplicar esse modelo, usa-se o modelo padrão de regressão: H(S) = J (S)I + N onde, Y(s) é a variável aleatória representando o processo no ponto s, e β (s) indica que os parâmetros são estimados no ponto s. A estimação dos parâmetros deste modelo para a solução padrão por mínimos quadrados no caso não-espacial, é dada por: J = (I T I)7F I T H onde XT é uma matriz que contém valores das variáveis independentes e Y o vetor dos valores observados da variável dependente. Usando um método de ajuste local, ao estimador β é incluído um peso W que é uma matriz diagonal de peso local. Desta forma, temos: J(S) = (I T M(S) I)7F I T M(S) H O ajuste local é feito de forma a garantir uma influência maior dos pontos mais próximos, de forma semelhante aos estimadores de densidade por Estimador Kernel (com raio adaptativo). Esta técnica foi desenvolvida para ser aplicada aos fenômenos com processos observados em pontos fixos. Nessa técnica, considera-se o centróide do polígono como pontos fixos e o fenômeno observado como sendo alguma medida realizada nestes polígonos (Fotheringham et al., 2002). Recomenda-se que na utilização do modelo GWR se faça anteriormente uma análise da associação entre as variáveis através do modelo clássico de regressão linear (OLS) com intuito de melhor definir as variáveis que irão compor o modelo espacial. Sendo assim, a seleção das variáveis a serem utilizadas nesse modelo seguiu a mesma metodologia aplicada no artigo 2, isto é, a partir da matriz de correlação de Spearman as variáveis independentes 39 com correlação estatisticamente significativas a 5% com a variável dependente e as variáveis não colineares, isto é com correlação < 0,7 foram utilizadas no OLS. Utilizando o método backward a partir do critério de significância de 5% e critério epidemiológico, as variáveis que se mantiveram no modelo foram inseridas no modelo GWR. O GWR foi rodado utilizando o ArcGis 10 e a partir dos resultados foi feita uma comparação entre o modelo GWR e o OLS através dos parâmetros de critério de informação de Akaike (AIC); e critério bayesiano Schwarz (SBC). Também foi calculado o índice de Moran I para os resíduos para os dois modelos. Os mapas gerados com GWR desempenham um papel central na interpretação dos resultados. No entanto, na elaboração desses mapas pelos parâmetros obtidos pelo modelo podem gerar problemas que tendem a subestimar ou superestimar a influência de algumas variáveis independentes na variável dependente. Alguns trabalhos que usaram GWR apresentaram mapas apenas com as estimativas dos parâmetros sem apresentarem os t-valores das áreas (Fotheringham et al., 1998; Huang & Leung, 2002; Lee, 2004), fato que pode dar uma falsa interpretação dos resultados, pois pode enfatizar visualmente as áreas de maior ou menor (se a relação é negativa) coeficientes, independentemente do significado da estimativa (Mennis, 2006). Numa primeira análise exploratória dos resultados fornecidos pelo modelo GWR, optou-se por analisar os mapas coropléticos com a distribuição espacial das estimativas dos parâmetros separadamente dos mapas com a significância estatística, calculadas pela estatística t (β/desvio-padrão (β)) que possui distribuição normal, e com nível de significância de 95%. Foram considerados significativos os valores de | t | > 1,96. Esta análise foi realizada no software SPSS v.19. O esquema de cores escolhido para apresentar os mapas das estimativas dos parâmetros foi um esquema de cores divergentes, que indica a magnitude de saída a partir de um ponto médio, ou seja, os valores negativos são representados em tonalidades de verde e valores positivos em tonalidades de roxo. Os mapas dos valores t são apresentados em tons de cinza mostrando as diferentes faixas de significância estatística. Após essa análise exploratória, com melhor entendimento dos resultados, partiu-se para uma tentativa de melhorar a apresentação dos resultados, juntando em um único mapa os valores dos parâmetros e dos valores de t de cada variável. Considerando o mesmo padrão de cores apresentados anteriormente. 40 5. RESULTADOS 5.1. ARTIGO 1 Avaliação do dado sobre endereço no SINAN utilizando georreferenciamento a nível local de casos de TB* *Artigo enviado para Cadernos de Saúde Coletiva. 41 RESUMO O trabalho objetivou avaliar a qualidade do dado referente ao endereço do caso notificado ao Sinan-TB de 2005 a 2008 no município do Rio de Janeiro. Criou-se um indicador (I) a partir da razão entre a taxa de incidência da tuberculose calculada a partir do bairro de moradia declarado pelo paciente e a taxa de incidência do bairro obtido após o georreferenciamento do endereço do mesmo indivíduo com intuito de medir possíveis impactos que inconsistências no endereço podem causar nos cálculos de indicadores da doença no nível do bairro. Foram utilizadas duas técnicas de georreferenciamento de dados a partir do endereço de residência. Foi realizada uma correção no campo endereço que modificou 27% dos registros. Houve uma diferença no resultado do georreferencimento entre os dois métodos de 64% e 69%. Com o processo manual chegou-se a 88% de localização. A partir do indicador criado, nota-se que apenas 28% dos bairros apresentaram um valor entre 0,85 e 1,15, considerado como razoável já que o valor ideal é igual a 1. O processo de localização pode ser mais rápido e eficaz com maior conscientização e treinamento dos profissionais responsáveis e da utilização de algum cadastro de logradouros oficial. As diferenças apresentadas no indicador I podem auxiliar na tomadas de decisões mais acertadas. PALAVRAS-CHAVES: Tuberculose, georreferenciamento, indicador de saúde. 42 Abstract The study aimed to evaluate the quality of data concerning the address of TB cases notified to the Sinan-TB from 2005 to 2008 in the city of Rio de Janeiro. Were created a indicator from the ratio between the incidence rate of tuberculosis calculated from the neighborhood declared by the patient and the incidence rate of the neighborhood obtained after georeferencing address the same subject with a view to measure the possible impacts that inconsistencies in address may cause the calculation of disease´s indicators in the district level. Two techniques of georeferencing data were used from the home address. A correction in the address field which changed 27% of the records was performed. There was a difference in the outcome between the two methods georeferencing 64% and 69%. With the manual process was reached 89% location. From the indicator created, it is noted that only 28 % of districts with a value between 0.85 and 1.15, considered reasonable since the optimal value is equal to 1. The localization process can be faster and more efficient with greater awareness and training for professionals responsible and use of any official record of register streets. The differences in the indicator I can assist in decision making more correct decisions. KEYWORDS: Tuberculosis, geocoding, health indicator 43 INTRODUÇÃO O Sistema de Informação de Agravos de Notificação (Sinan) foi desenvolvido entre 1990 e 1993 com o objetivo de registrar e processar dados sobre agravos de notificação gerados pelo Sistema de Vigilância Epidemiológica em todo o território nacional, desde o nível municipal. É alimentado por informações de casos de doenças constantes da lista nacional de doenças de notificação compulsória1,2. Nesse sistema, a entrada de dados ocorre principalmente pela Ficha Individual de Notificação (FIN) preenchida no momento que o paciente chega a uma unidade de saúde e existe a suspeita da ocorrência de um agravo de saúde de notificação compulsória. Depois essas fichas são encaminhadas pelas unidades assistenciais aos níveis centrais onde o processamento eletrônico é feito1. Apesar dos esforços, os dados disponibilizados pelo Sinan ainda apresentam problemas em sua qualidade limitando alguns tipos de análises e comprometendo o processo decisório3. O Sinan é a principal fonte de dados para a tuberculose (TB) e a notificação se baseia na definição de caso confirmado, na investigação e no acompanhamento dos casos3. A tuberculose tem como agente etiológico o Mycobacterium tuberculosis (bacilo de Koch). E a transmissão acontece quando um paciente bacilífero lança o bacilo no ar quando fala, espirra ou tosse. É uma doença diretamente ligada a condições precárias de vida4. Desigualdade social, advento da AIDS, envelhecimento da população e grandes movimentos migratórios são alguns dos fatores apontados por Ruffino-Neto5 como sendo as principais causas para a gravidade da situação atual da tuberculose no mundo. É a segunda principal causa de morte por doenças infecciosas no mundo perdendo apenas para o HIV6. No Brasil, a tuberculose atualmente ainda é um problema tão importante quanto no início do século passado7. O Brasil ocupa o 17º lugar entre os 22 países responsáveis por 89% do total de casos de tuberculose no mundo8. A maior concentração de casos acontece na Região Sudeste com São Paulo liderando o número de casos brutos, mas com o Rio de Janeiro com a maior taxa de incidência. No ano de 2012, o Estado do Rio de Janeiro notificou 14.309 casos de tuberculose e o município do Rio de Janeiro era o que se posicionava com o maior número de notificações – 7.432 casos9. No município do Rio de Janeiro, a tuberculose não acontece igualmente distribuída. A incorporação da dimensão espacial nas análises dessa doença pode extrair significados adicionais às análises convencionais, auxiliando na compreensão da dinâmica deste agravo. 44 Na saúde pública, diversos trabalhos vêm utilizando os sistemas de informações de saúde para análise e avaliação de riscos. Nestas análises utiliza-se, na maioria dos casos, o município ou o bairro informado, para avaliar a distribuição espacial dos eventos a serem estudados. Em outros casos faz-se necessário um maior detalhamento do local de ocorrência podendo ser utilizado o endereço de residência ou ocorrência, coordenadas levantadas em campo com GPS ou ainda os setores censitários10. Endereços urbanos são os recursos mais utilizados por habitantes de cidades para indicar localizações geográficas. Estima-se que 80% da informação utilizada por governos locais na área de saúde, segurança, educação e arrecadação, esteja associada à localização geográfica, e a maior parte delas relacionada com endereços11. Porém, quando o georreferenciamento dos dados é feito através do endereço, em muitas cidades brasileiras, esbarra-se em outras dificuldades: o mal preenchimento desse campo (muitos erros de digitação, grafias diferentes, erros ortográficos), a falta de mapeamento em escala cadastral principalmente nas áreas mais carentes e a falta de cadastros oficiais de endereços12. Neste caso, a eficiência do georreferenciamento depende tanto da qualidade dos dados de endereço captados nos sistemas de informações em saúde, quanto da atualização do mapeamento utilizado como base. O trabalho teve como objetivo avaliar a qualidade do dado referente ao endereço do caso notificado ao Sinan-TB. Criou-se um indicador a partir da razão entre a taxa de incidência da tuberculose calculada a partir do bairro de moradia declarado pelo paciente e a taxa de incidência do bairro obtido após o georreferenciamento do endereço do mesmo indivíduo com intuito de medir possíveis impactos que inconsistências no endereço podem causar nos cálculos de indicadores da doença no nível do bairro. MÉTODO Trata-se de um estudo ecológico realizado no município do Rio de Janeiro. Com uma população de 6.323.03713, o município é composto por 160 bairros e 763 favelas, onde vivem 22 % da população14. Os dados de tuberculose estudados foram os casos novos notificados à Vigilância Epidemiológica do município do Rio de Janeiro através do Sinan entre os anos de 2005 e 2008, disponibilizados pela Secretaria Municipal de Saúde e Defesa Civil do Rio de Janeiro 45 (SMSDC-RJ). Foram utilizados os registros cuja informação sobre o município de residência e o município de atendimento referenciavam o Rio de Janeiro. A SMSDC-RJ disponibilizou à pesquisa o banco de dados completo, porém sem as informações de identificação dos pacientes: NOME e NOME DA MÃE. O banco estava consolidado sem duplicidades e com os casos encerrados. O dado sobre bairro que se encontra no banco de dados refere-se ao bairro declarado pelo paciente no momento do preenchimento da Ficha Individual de Notificação. Foi utilizada a base cartográfica digital na escala 1:2.000 do ano de 2000 referente ao município do Rio de Janeiro contendo os logradouros com a numeração dos trechos de cada arruamento. A base foi comprada pelo Núcleo de Geoprocessamento - ICICT/FIOCRUZ de uma empresa de Cartografia e Geoprocessamento. Essa base cartográfica contém os eixos dos logradouros integrados com uma tabela que contem a numeração de cada trecho das ruas, com o número do início e do final de cada lado (par e ímpar). Os dados sobre população residente e as variáveis socioeconômicas foram retirados do Censo Demográfico de 201014. Através da base de setores foi possível construir a base de bairros. O georreferenciamento foi realizado de duas formas diferentes visando a comparação dos métodos e apresentação de maneiras diferentes de utilizar a técnica. No primeiro método, essa etapa consistiu basicamente em procurar o endereço de cada evento do banco do Sinan e compará-los aos endereços contidos na base de ruas disponibilizada pelo Núcleo de Geoprocessamento – ICICT/FIOCRUZ. O processo foi realizado no programa comercial ArcGis 10 utilizando apenas o processo automático, que consiste na busca de cada endereço de TB na base cartográfica de logradouros escolhida. O sistema encontra o logradouro através do nome, interpola o número da casa no trecho do logradouro e retorna ao usuário o par de coordenadas. Esse processo é disponibilizado pela maioria dos programas comerciais ou livres de SIG. O segundo método de georreferenciameto consistiu em utilizar um programa elaborado no Núcleo de Geoprocessamento – ICICT/FIOCRUZ desenvolvido em Javascript utilizando as APIs do Google (as APIs do Google Maps/Google Earth são uma coleção de serviços que permitem incluir mapas, a geocodificação e outros conteúdos do Google nas suas páginas web ou aplicativos) e PHP (Personal Home Page é uma linguagem que permite criar sites web dinâmicos, possibilitando uma interação com o usuário através de formulários, parâmetros da URL e links). 46 O programa confronta cada endereço do banco com os endereços da base cartográfica e retorna o par de coordenadas. Incialmente, quando o programa não encontrava o nome da rua, ele retornava ao usuário a coordenada do bairro e se também não achava o bairro, retornava ao usuário a coordenada do município e assim por diante até chegar ao nível de país. Isso gerava um problema porque não era avisado ao usuário qual das referências havia sido utilizada. O problema foi solucionado fazendo com que o programa retornasse uma tabela com o seguinte score: 0 - Não localizado 1 - Localizado no país 2 - Localizado no estado, província 3 - Localizado na sub-região 4 - Localizado no bairro 5 - Localizado no CEP 6 - Localizado na rua 7 - Localizado na interseção de rua 8 - Localizado no endereço 9 - Localizado no prédio pelo nome da construção Assim, pode-se escolher entre utilizar ou não o par de coordenadas fornecido dependendo do objetivo do estudo. Como o objetivo do estudo era avaliar a qualidade do endereço do Sinan-TB, o georreferenciamento foi feito, nos dois métodos, com o banco original de TB, isto é, sem nunhuma interferência/correção no campo relacionado ao endereço (banco original) e com o banco após uma criteriosa adequação/correção do endereço (banco corrigido), principalmente no que diz respeito ao nome da rua com o objetivo de corrigir os erros. Cada processo de georreferenciamento gerou um nível de informação que foram comparados entre si para avaliar qual o processo mais efetivo e adequado ao estudo. Com intuito de minimizar ao máximo a perda no georreferenciamento, esses dois níveis de informação foram integrados e depois ainda foi feito o georreferenciamento manual que consite em selecionar todos os endereços não encontrados na etapa anterior e através de sites, procurar endereço a endereço. Após todas essas tentativas de melhorar o georreferenciamento, os registros não localizados ainda foram enviados para a Assessoria de Informação Geográfica (AIG) da SMSDC-RJ na tentativa de diminuir a perda. Nesse caso o georreferenciamento foi realizado pelo programa desenvolvido pela AIG que usa a base do 47 Instituto Pereira Passos (IPP) e do setor censitário. Foi realizado por seleção automática de endereço (por pesquisa simples e fonética). A integração da base de bairros com os níveis de informação dos casos de TB permitiu quantificar o número de casos por bairros (tanto o declarado na FIN quanto o bairro onde o endereço foi georreferencido) e a partir daí, mostrar as diferenças que esses números podem gerar no cálculo das taxas de incidência e consequentemente em outros indicadores de saúde. Com intuito de medir possíveis impactos que inconsistências no endereço podem causar nos cálculos de indicadores da doença no nível do bairro, criou-se um indicador a partir da razão entre a taxa de incidência de TB do bairro de moradia declarado pelo paciente e a taxa de incidência do bairro obtido após o georreferenciamento do endereço do mesmo indivíduo. = !"#" %& '()'%ê()'" (* +"',,* %&)-","%* !"#" %& '()'%ê()'" (* +"',,* .&*,,&/&,&()'"%* Quanto mais I se aproxima da unidade, mais próximos estão os valores dos casos nos bairros declarados dos bairros georreferenciados. Se I > 1, existem mais casos no bairro declarado que o georreferenciado; e, se I < 1, existem mais casos georreferenciados no bairro do que o declarado. A análise desse resultado possibilitará fazer uma avaliação mais criteriosa e detalhada do georreferenciamento e ainda identificar a percepção do que é o bairro na visão do paciente. RESULTADOS O período estudado somou 28.045 casos de TB, divididos nos quatro anos de estudo conforme mostra a tabela 1. Pode-se observar que o número de casos notificados e os casos georreferenciados se mantêm estável durante os quatro anos. Observando a tabela 2, pode-se verificar as diferenças entre o número de casos entre homens e mulheres e entre as faixas etárias. 48 Tabela 1: Número total de casos de TB notificados e georreferenciados segundo ano de notificação. Casos de TB Ano 2005 2006 2007 2008 Total Casos 7096 6905 6853 7191 28045 Georreferenciados 6343(89%) 6219 (90%) 6085 (89%) 6313 (88%) 24960 (89%) Tabela 2: Número de casos segundo faixa etária e sexo. Casos de TB segundo gênero e faixa etária Faixa etária Masculino Feminino < 15 nos 399 (1.4%) 419 (1,5%) 15 – 29 anos 6042 (21.5%) 3248 (11.6%) 30 – 59 anos 10105 (36%) 4714 (16.8%) >= 60 anos 2004 (7.2%) 1024 (3.7%) Ignorado 60 (0.2%) 30 (0.1%) Total 18610 (66.3%) 9435 (33.7%) Na correção do banco de dados foram modificados 7.638 endereços, o que representa 27% dos registros. Vários tipos de erros foram encontrados, dos mais simples como nomes de ruas com uma letra trocada ou faltando o título do nome, aos mais complexos, com nomes escritos totalmente diferente do correto: Rua Olímpio Bingo no lugar de Rua Soldado Olímpio Bingo; Rua Otto Longa no lugar de Altolândia; Rua Oliveira Ravasso no lugar de Rua Vieira Ravasco; Rua Jenival Severiano no lugar de Rua General Severiano; Rua Bordoneta Amanera no lugar de Rua Borboleta Amarela, entre muitos outros. Esse trabalho de modificação de endereços demandou 6 meses de trabalho integral. 49 O resultado do georrefereciamento automático e a comparação entre os métodos são apresentados na tabela 2. A tabela 2A mostra o resultado quando utilizado o ArcGis com a base comercial. A tabela 2B mostra o resultado utilizando o programa desenvolvido com base no Google Maps. Vale ressaltar que os endereços apresentados nos resultados foram apenas os que o programa classificou como “8 – registro localizado no endereço”. No primeiro caso podemos observar que com o banco original o programa georreferenciou 50% dos casos e com a correção do banco, o resultado melhorou para 64%. O segundo caso foi o que obteve melhor êxito, com o banco original foram georreferenciados 62% dos casos e com o banco limpo, esse resultado subiu para 69%. Esse resultado mostra que o georreferenciamento feito com bases no Google Maps teve a melhor performace. Tabela 2: Georreferenciamento automático dos casos de TB 2A 2B Original Corrigido Original Corrigido Casos % Casos % Casos % Casos % Localizados 13998 50 18029 64 17334 62 19321 69 Não localizados 14047 50 10016 36 10711 38 8724 31 Dos registros não localizados, muitos não têm nunhuma chance de serem georreferencidos nem na maneira manual: 256 registros sem nenhuma informação sobre o endereço; 162 moradores de rua; 5 registros como “não informado”; 2130 registros sem numeração. Ao final do processo de georreferenciamento, considerando o processo automático, o manual e ainda o realizado pela AIG, obteve-se 89% de endereços localizados. As figuras 1A, 1B, 1C e 1D mostram mapas de Kernel feito a partir dos pontos georreferenciados pelos anos de notificação, 2005, 2006, 2007 e 2008, respectivamente. Numa primeira análise visual pode-se observar que não houve muita mudança no padrão espacial dos casos durante os anos. 50 A B C D Figura 1: Mapa de Kernel a partir do georreferenciamento dos casos de TB por ano de notificação. A figura 2 mostra o cálculo das taxas de incidência utilzando o bairro declarado (2A) e utilizando o bairro georreferenciado (2B). Pode-se observar que o padrão espacial se apresenta diferente nos dois mapas, podendo levar em uma primeira análise a uma distorção dos resultados. Os bairros Gericinó, Vasco da Gama, Parque Columbia, Joá e Grumari não foram declarados por nenhum paciente. Os três primeiros provavelmente por serem bairros novos e ainda não incorporados pela população. Mas observando a taxa a partir do bairro georreferenciado percebe-se que apenas o bairro Grumari permanece com taxa zero o que significa que nos outros existem casos da doença. Tese Completa: http://objdig.ufrj.br/96/teses/813739.pdf