Implementações de Data Warehouse na Área da Saúde
Transcrição
Implementações de Data Warehouse na Área da Saúde
Implementações de Data Warehouse na Área da Saúde Ricardo S. Santos1, Marco Antônio Gutierrez2 1 Departamento de Informática em Saúde (DIS), Universidade Federal de São Paulo (UNIFESP), Brasil 2 Serviço de Informática, Instituto do Coração (INCOR), Universidade de São Paulo (USP), Brasil Resumo – As técnicas de data warehousing para produção de informações gerenciais são utilizadas desde o início dos anos 90 em diversos setores da economia. Na área da saúde, também existem iniciativas para a adoção desta tecnologia. O sucesso ou fracasso no processo de implementação de uma nova tecnologia depende de uma série de fatores, mas, o conhecimento prévio de casos similares, pode evitar vários problemas ou situações desastrosas. O objetivo deste trabalho é apresentar uma revisão dos esforços na implementação de um data warehouse na área da saúde. A contribuição deste estudo é a experiência transmitida através da demonstração dos problemas encontrados, metodologias adotadas, procedimentos e ferramentas utilizadas. A conclusão do artigo mostra os fatores que constituem os principais desafios e apresenta alguns procedimentos que podem contribuir para o êxito na implementação de um data warehouse no segmento da saúde. Palavras-chave: Data Warehouse, Gestão da Saúde, OLAP, Banco de Dados, Informática Médica. Abstract – The date warehousing techniques for delivery management information have been applied since 1990’s in many economy’s areas. In the healthcare organizations, also there are initiatives for the adoption of this technology . The success or failure in the process of implementation of a new technology depends on many things, and the previous knowledge of similar cases can help to avoid disasters in this process. The objective of this work is to present the efforts in to implement a Data Warehouse in the health organizations. The contribution of this survey is the experience transmitted through the demonstration of the problems, methodologies, procedures and tools used in development. The conclusion of this paper shows the peculiar challenges of the health’s area and also it presents some procedures that can contribute for the success of a data warehouse project for the health world. Key-words: Data Warehouse, Health Management, OLAP, Databases, Medical Informatics. 1. Introdução O trabalho não pretende efetuar uma revisão sistemática sobre o assunto, mas, apenas apresentar alguns exemplos de aplicação das técnicas de DW na área da saúde. Não serão efetuadas comparações ou correlações entre os casos. Avaliações ou mensurações de resultados para os casos apresentados também estão fora do escopo do estudo. O sucesso ou fracasso no processo de implementação de uma nova tecnologia depende de uma série de fatores, porém, o conhecimento prévio de casos similares, pode evitar vários problemas ou situações desastrosas no processo de introdução da tecnologia. Diversos setores da economia utilizam desde os anos 90 as técnicas de data warehouse (DW) para a produção de informação gerencial e estratégica. Na área da saúde, também existem várias iniciativas para a adoção desta tecnologia. O objetivo deste trabalho é apresentar uma revisão de artigos publicados em periódicos indexados, mostrando casos de implementação de data warehouse na área da saúde. Isto fornece um panorama geral das iniciativas existentes, evidenciando os problemas encontrados, metodologias adotadas, os procedimentos e as ferramentas utilizadas. 2. Metodologia Os critérios para seleção dos artigos foram simples. Apenas estar catalogado em um periódico indexado, apresentar um conceito ou técnica de DW aplicado ao setor da saúde, e demonstrar uma implementação. Para o levantamento dos artigos foram utilizadas as bases de dados: “WebofScience”; “Pubmed”; “MedLine”; “Lilacs” e o portal da Capes nos itens “Periódicos” e “Banco de Teses”. 1 Os trabalhos encontrados foram divididos em dois grupos de acordo com o nível de abrangência gerencial atendido pelo DW. Os níveis são: “Nível Comunitário”, quando os dados abrangem a gestão da saúde comunitária, e “Nível Institucional”, quando os dados abrangem apenas uma instituição e são utilizados por executivos de um centro de saúde, como um hospital, um posto ambulatorial, etc. Sempre que possível, a apresentação de cada artigo, neste texto, tentará evidenciar os principais desafios encontrados, os procedimentos e as ferramentas utilizadas no processo de implementação. 3.1.2. Outra iniciativa de implementação de um DW para proporcionar informação analítica na gestão da saúde pública é o projeto do “Instituto de Saúde Pública da República da Eslovênia” (PHIRS – Public Health Institute of the Republic of Slovenia). O escopo do DW, na época do artigo (2000), contemplava apenas os atendimentos ambulatoriais. O projeto foi relativamente simples e seguiu as seguintes etapas: - Os dados de origem, recebidos dos centros regionais, são consistidos e devolvidos, com um relatório, em caso de erros; - Sem erros, o arquivo de origem é processado através de rotinas desenvolvidas em AWK, para adquirir um formato mais adequado para a carga; - O modelo dimensional é definido e posteriormente carregado; - Finalmente as interfaces do usuário são desenvolvidas implantadas. As ferramentas de desenvolvimento utilizadas no projeto foram o “Oracle Express 6.2” como servidor OLAP e o “Oracle Express Analyzer Tool” para desenvolvimento das interfaces do usuário. 3. DW para Gestão da Saúde Comunitária 3.1.1. República da Eslovênia [2] Catch [1] [3] Um dos projetos para a saúde pública de maior destaque é o DW para o CATCH (Comprehensive Assessment for Tracking Community Health) desenvolvido pela USF (University of South Florida’s). O DW fornece informação para análise sobre mais de 250 indicadores. O artigo [1] cita alguns desafios peculiares para a implementação de um DW na saúde pública. São eles: dados provenientes de diferentes fontes em diferentes formatos; pouca padronização para os dados da saúde; relatórios disseminados para diversas localidades geograficamente separadas, e um modelo de dados que suporte a elaboração de políticas públicas para a saúde; Um ponto que merece destaque no projeto é a introdução de duas técnicas inovadoras para o processo carga do DW (ETL - Extracting, Transformation and Loading). São elas: “Estrelas Gêmeas” e “Filtros de Qualidade dos Dados” O processo de Estrelas Gêmeas consiste, basicamente, em utilizar um modelo de dados temporário, idêntico ao modelo de dados do DW, o qual será carregado num primeiro estágio onde serão aplicadas todas a regras de validações e testes, e a partir dele será carregado o modelo permanente. Os “Filtros de Qualidade dos Dados” são rotinas inseridas no processo de carga (ETL), para efetuar validações no conteúdo dos dados. Estas verificações analisam: “fatos”; “agregados” e “dimensões”. As ferramentas utilizadas no projeto foram: Oracle Enterprise Server como SGBD (Sistema Gerenciador de Banco de Dados), e as ferramentas de desenvolvimento Oracle para a implementação da interface do usuário [3]. 3.1.3. DW em Gerenciamento de Doenças [4] Programas de gerenciamento de doenças têm proliferado com o advento do “managed care” e as tecnologias para gerenciamento de dados. O objetivo destes programas é a identificação de indivíduos doentes ou com potencial de contrair doenças, e assim aplicar programas preventivos. Neste contexto, sistemas DW encaixam-se perfeitamente. O trabalho de Ramick [4], cita alguns casos de aplicação de DW em programas de gerenciamento de doenças. Dentre os casos apresentados, destaca-se o projeto da companhia de seguros “Empire Blue Cross –Blue Shield” denominado SARA (Systematic Analysis Review and Assistance system), que utiliza um software desenvolvido pela empresa “Active Health Management” para sinalizar pacientes com valores que indicam uma situação médica indesejada. Outro caso citado foi o da companhia “Aetna US HealthCare”, que utiliza um programa próprio (US Quality Algorithms) que atua sobre um DW contendo dados administrativos e clínicos. O programa identifica membros com determinadas doenças e estes são incluídos automaticamente em um programa de gerenciamento. Mais um exemplo de aplicação de DW em programas de gerenciamento de doenças é o do “Horizon Mercy Health Plan” que descobriu através de seu DW que o diagnóstico mais comum entre os pacientes da pediatria era asma. Foi desenvolvido 2 um programa de gerenciamento para asma que permitiu intervenções eficazes e campanhas educacionais preventivas, objetivando redução dos casos. 3.1.4. 4.1.2. O CDR (Clinical Data Repository), é um DW cujo propósito é fornecer dados para as atividades educacionais e de pesquisa ao centro médico da Universidade de Virgínia, além de suprir dados gerentes e administradores. O CDR foi implementado no SGDB Sybase , tendo o processo de carga realizado através de rotinas desenvolvidas em Pearl. A interface do usuário consiste em um conjunto de programas CGI (Common gateway interface) implementados em linguagem “C”, e JavaScript. O volume do banco de dados em Outubro de 2000 era de 23 GB, e o custo de desenvolvimento foi de aproximadamente 200.000,00 U$ por ano. Protótipo para o SUS [5] Foi desenvolvido um protótipo de um DW para atender o sistema de informação ambulatorial do SUS como parte integrante de uma dissertação de mestrado da Universidade Federal do Rio Grande do Sul (UFRGS). O protótipo foi desenvolvido com o objetivo de apresentar ao usuário final, num curto espaço de tempo, as vantagens obtidas no processo decisório com a implementação de um DW. Para desenvolvimento do protótipo foram utilizadas as seguintes ferramentas: MS-SQL Server 6.5 como “Sistema Gerenciador de Banco de Dados” (SGBD); Warehouse Architect da Sybase como “Ferramenta Case”; WizRule 3.0 da Wizsoft para auxiliar na limpeza dos dados; Star Trecker (exemplar do livro de Kimball) e db Probe 2.0 da InterNetivity para implementação da interface do usuário e, finalmente, o Microsoft Access 97 como o repositório e gerenciador de “Metadados”. 4.1.3. William Beaumont Hospital [8] O artigo mostra a experiência obtida no desenvolvimento de um “Data Mart” (DM) para o hospital Willian Beaumont. O DM, desenvolvido em meados de 90, foi implementado em MS-ACCES. Dois fatores contribuíram para a escolha do MSAccess: o custo e o baixo volume de dados. O objetivo era que o DM ganhasse visibilidade na organização e proporcionasse a sua substituição por um sistema maior e com tecnologia de banco de dados mais sofisticada. As rotinas para carga e a interface do usuário foram desenvolvidas em VBA (Visual Basic Aplication), linguagem de programação nativa do MS-Acess. 4. Aplicações para Gestão Institucional 4.1.1. CDR - Universidade de Virgínia [7] Inglis Innovative Services [6] Esta organização, destinada ao atendimento de deficientes físicos, percebeu a necessidade de implementação de um DW devido à proliferação de aplicações MS-Access na organização. Os dados de origem para o DW eram provenientes de duas aplicações: Um sistema de recursos humanos, denominado “VISTA”, com dados em MS-SQL Server, e um sistema clínico e financeiro denominado “SOS”, com dados em Progress. O IIS escolheu o MS-SQL Server para implementação do DW, e, como interface do usuário, foram desenvolvidas algumas aplicações Web. Breen et. al., citou em seu artigo [6] uma lista de pontos que devem ser observados na implementação de um DW, entre eles: a preparação prévia da infra-estrutura; a identificação de um profissional com disponibilidade integral para o projeto; a identificação dos dados, dos respectivos proprietários e dos problemas que o DW pode resolver; e finalmente, implementar algo rapidamente para que os usuários possam visualizar os benefícios; 4.1.4. CHC - [9] [13] O Commonwealth Health Corporation, em 1997, decidiu implementar um DW. Optou por adotar uma solução “pronta”, disponível no mercado: “TSG’s Galaxy”. A solução compreende além do repositório de dados, a aquisição, transformação e visualização, todos inseridos em um produto único. A solução utiliza como SGBD o MS-SQL Server. [13]. O artigo cita que nos dois primeiros anos de utilização, o CHC economizou mais de 1,5 milhões de dólares devido ao melhor gerenciamento de recursos. [9]. 4.1.5. Horizon Mercy [10] “Horizon Mercy of Trenton”, uma empresa de seguros de saúde responsável pela assistência à saúde de 170.000 associados, em 1997, através de 3 seu médico chefe Robert N. Robinson, decidiu procurar no mercado uma solução DW. A principal preocupação de Robinson não era a árdua tarefa de integração e limpeza dos dados, mas, o desenho do modelo clínico. As soluções apresentadas possuíam, basicamente, três aspectos negativos: extremamente caras; tecnologia ultrapassada, e os fornecedores não compreendiam os desafios específicos da área. Após uma extensa busca, optou pela solução de uma pequena empresa, na época, denominada Infominers. A solução combina uma interface simples (desenvolvida com Cognos), utiliza o SGBD Oracle, e apresenta o seu próprio modelo clínico baseado em sua vasta experiência. Isto permitiu iniciar o processo de implementação e quase que imediatamente, apresentar alguns resultados. 4.1.6. na instituição. Como SGBD para implementar o DW foi utilizado o MS-SQL Server. O processo de extração e carga foi implementado através de rotinas desenvolvidas em Power Builder. A ferramenta OLAP de visualização, denominada FBCDataWare, também foi desenvolvida utilizando Java, ASP e HTML. 5. Discussão Embora o objetivo do trabalho não seja uma análise comparativa, alguns aspectos sobre os estudos de casos apresentados, podem ser discutidos. Os dois níveis de aplicação na área da saúde Inicialmente, pode-se notar a existência de dois níveis bem distintos de gerência no segmento saúde. O primeiro refere-se à gestão da saúde de uma comunidade, enquanto o segundo dedica-se ao gerenciamento de uma organização que presta serviços em saúde. Os dois tipos de gestores possuem universos de atuação totalmente diferentes, e isto significa que a visão de cada dirigente sobre os seus dados muda drasticamente. COSTAR [11] Esse trabalho apresenta, basicamente, uma metodologia para modelagem de um DW, baseando-se no histórico das consultas efetuadas a uma base de dados de um sistema clínico: o COSTAR (Computer Stored Ambulatory Record); sistema desenvolvido há quase trinta anos pelo Laboratório de Ciência da Computação do “Massachusetts General Hospital” Foram extraídas 5995 consultas, no período de 13/07/82 a 26/08/98. Inicialmente foram eliminadas as consultas destinadas à tarefas de manutenção de sistema, restando 2158 consultas. Eliminando as consultas duplicadas, sobraram 642 consultas para analisar. O resultado da análise permitiu a elaboração de um modelo estrela que foi implementado em duas fases. A primeira estrela abrangeu 79% dos requisitos do usuário e implementando o segundo conjunto de tabelas, foi possível atingir 90%. 4.1.7. Desafios da área Os casos apresentados também mostraram uma série de desafios próprios da área da saúde. Berndt et al.[1], comenta sobre a diversidade de fontes e formatos dos dados origem, DeJesus [10] transcreve a visão do Dr. Robinson, que considera como maior problema a falta de compreensão dos fornecedores de solução DW dos desafios específicos da área, e Isken et al. [8] comenta a limitação de recursos financeiros. Outro fato marcante é a existência de um grande volume de dados que não estão representados em forma de texto. Por exemplo: as imagens. Wong et al. [15] e Oyama et. al. [14], apresentam iniciativas para o desenvolvimento de DW contemplando imagens. A tabela 1 reúne os principais desafios. Fundação Baiana de Cardiologia [12] Desafios na implementação de um DW na área da saúde. - Dados provenientes de muitas fontes - Diversidade de formatos de dados, principalmente devido às diversas aplicações específicas da área - Grande volume de informação armazenado em imagens - Pouca padronização - Relatórios (saídas) devem ser disseminados para diversas localidades separadas geograficamente - Fornecedores de soluções não compreendem os desafios específicos da área - Limitação de recursos financeiros Protótipo implementado em ambiente experimental, como parte integrante de uma dissertação de mestrado da UFRJ (Universidade Federal do Rio de Janeiro). O DW contemplou dados provenientes de 8 aplicativos, cada um com base de dados própria, sendo que os SGBD utilizados por estas aplicações eram o MS-Access, Sybase e Unify. A escolha das ferramentas foi efetuada por conveniência, aproveitando o que havia disponível Tabela 1 – Desafios de um DW na área da saúde 4 Analisando as ferramentas ETL e OLAP, é marcante a predominância de soluções desenvolvidas internamente, em detrimento da utilização de soluções consagradas no mercado. O gráfico 2 mostra a relação entre as interfaces baseadas em soluções OLAP comerciais e as desenvolvidas internamente. Ferramentas De forma simplificada, poderíamos classificar as ferramentas necessárias em um projeto DW em três tipos: um SGBD para armazenamento; uma ferramenta ETL para limpeza e carga dos dados; e uma ferramenta OLAP para visualização. Uma característica curiosa observada nos casos apresentados é a utilização de ferramentas mais simples e, principalmente, desenvolvidas internamente. Apesar de não estar explicitamente citado, pode-se deduzir que isto acontece em função dos desafios anteriormente mencionados. A tabela 2 apresenta uma relação das ferramentas utilizadas nos casos estudados. Caso Estudado CATCH SGBD Ferramenta ETL Interna (AWK e Pearl) Internas (AWK) Oracle Eslovênia Oracle Protótipo SUS IIS SQL Server Internas + WizRule SQL Server Internas CDR Virgínia William CHC Horizon FBC Sybase Interna (Pearl) Access Interna (VBA) SQL Server TSG’s Galaxy Oracle Infominers SQL Server Interna (PB) Relação entre as ferramentas OLAP adotadas Soluções Comerciais Soluções Internas Ferramenta OLAP Ferramentas Oracle Oracle Express Analyzer Tool DB Probe + Access Gráfico 3.2 – Relação entre a solução OLAP Interna – Aplicação Web Interna (“C”/ JavaScript) Interna (VBA) TSG’s Galaxy Infominers-Cognos Interna (Java/ASP) Procedimentos na Implementação Alguns casos estudados mostraram, além das dificuldades específicas da área, alguns procedimentos importantes que contribuíram para o sucesso do projeto. A tabela 3 apresenta uma lista desses procedimentos. Procedimentos que contribuem para o sucesso do projeto - Uma boa estratégia para o processo de carga é a utilização de “Estrelas Gêmeas” - Para garantir a consistência dos dados, uma boa técnica é a aplicação de “Filtros para Qualidade Dados”. Os filtros analisam fatos, agregados e dimensões. Disponibilizar toda a infra-estrutura antes de implementar um DW - Identificar um profissional, da instituição, competente e com disponibilidade integral para o projeto - Identificar os dados importantes da corporação e os proprietários destes dados - Identificar os problemas que o DW pode resolver - Elaborar cuidadosamente o desenho do modelo clínico - Se possível, elaborar os requisitos do usuário, através de um histórico de consultas efetuadas nos sistemas existentes - Implementar alguma coisa rapidamente para que os usuários possam visualizar os benefícios Tabela 2– Ferramentas utilizadas. A tabela mostra que predominam, como SGBD, o Oracle e SQL Server. Não foi observada a utilização de SGBD’s como o Teradata da NCR e o DB2 da IBM, amplamente utilizados em outros segmentos. Em nenhum artigo estudado o volume de dados foi citado como um desafio. O gráfico 1 mostra a relação entre os SGBD’s utilizados . Distribuição dos SGBD's utilizados Tabela 3 – Procedimentos na implantação do DW Oracle MS-SQL Server 6. Conclusões Sybase MS-Access O objetivo desta revisão foi mostrar o estado da arte em projetos DW na área da saúde através da apresentação de casos reais publicados em periódicos indexados. A contribuição do trabalho é a experiência transmitida através da explicitação dos Gráfico 1 – Relação entre os SGBD’s. 5 desafios encontrados, metodologias, procedimentos e ferramentas utilizadas. O estudo mostrou que existem alguns desafios peculiares, que constituem os principais problemas para implementação de um DW na área da saúde. Entre eles destaca-se a diversidade de fontes e formatos de dados; a complexidade do desenho de um modelo clínico e a falta de compreensão dos fornecedores sobre a área. Também foi observada a preferência pelo desenvolvimento interno de rotinas para carga e análise dos dados. Em 78% dos casos, não foi utilizada nenhuma ferramenta ETL para auxílio no processo de carga, e apenas 67% optaram por ferramentas OLAP existentes. O SGBD mais utilizado, nos casos estudados, é o SQL Server com 45% , seguido do Oracle com 34%. Pelos números apresentados, pode-se concluir que as implementações de DW na área da saúde, geralmente, não utilizam as ferramentas sofisticadas existentes no mercado. Isto induz à hipótese que o universo da saúde é razoavelmente diferente dos demais setores da economia e a metodologia para implementação de um DW com sucesso em outras áreas, pode não garantir o êxito na área da saúde. Naturalmente, existem muitos outros casos de implementação de DW na saúde, que não foram publicados em nenhuma base bibliográfica. Em um trabalho futuro, pretende-se catalogá-los, analisalos e apresenta-los. Ainda, como estudo posterior deve-se pesquisar a situação atual dos casos apresentados, e efetuar uma análise comparativa entre um projeto DW para a área da saúde e para outros setores da economia. [4] Ramick D.C. (2001), “Data Warehousing in Disease Management Programs., Journal of Healthcare Information Management, Summer, v. 15, n. 2, p. 99-105. [5] Rodrigo Leal de Moraes (1998), “Sistemas de Data Warehouses: Estudo e Aplicação na Área da Saúde”, Dissertação de Mestrado, UFRGS. [6] Breen C., Rodrigues L.M. (2001), “Implementing a Data Warehouse at Inglis Innovative Services”, Journal of Healthcare Information Management, v. 15, n. 2, p. 87-97. [7] Einbinder J.S., Scully K.W., Pates R.D., Schubart J.R., Reynolds R.E. (2001), “Case study: A Data Warehouse for an Academic Medical Center”, Journal of Healthcare Information Management, v. 15, n. 2, p. 165-75. [8] Isken M.W., Littig S.J., West M. (2001), “A Data Mart for Operations Analysis”, Journal of Healthcare Information Management, 2001 v.15, n.2, p.14353. [9] Shams K., Farishta M. (2001), “Data warehousing: Toward knowledge Management”, Topics in Health Information Management, v.21, n.3, p.24-32. [10] DeJesus E.X. (1999), “Disease Management in a Warehouse: Data Warehouse Technology Makes a Good Fit for Disease Management Programs”, Healthcare Information, v.16, n.9, p.33-6, 38-9. [11] Murphy S.N., Morgan M.M., Barnett G.O., Chueh H.C. (1999), “Optimizing Healthcare Research Data Warehouse Design Through Past COSTAR Query Analysis”., Proceedings AMIA Symposium, p. 892896. [12] Ana Claudia Oliveira Garcia Dos Santos (2001), “Organização de um Data Warehouse Clinico”, Dissertação de Mestrado, UFRJ. [13] The Shams Group (TSG). Disponível em: www.shamsgroup.com/pgalaxy.htm. Acesso em 18 mai 2003. [14] Oyama H., Wakao F., Mishina T., Lu Y., Honjo A. (1997), “Virtual Cancer Image Data Warehouse”, Stud Health Technologies Informormation. v. 39, p. 151-154. [15] Wong S.T., Hoo K.S Jr., Knowlton R.C., Laxer K.D., Cao X., Hawkins R.A., Dillon W.P., Arenson R.L. (2002), “Design and Applications of a Multimodality Image Data Warehouse Framework”, JAMIA, v. 9, n.3, p. 239-54 7. Referências [1] Berndt D.J., Hevner A.R., Studnicki J. (2003), “The Catch Data Warehouse: Support for Community Health Care Decision-Making”, Decision Support Systems, v. 35, n. 3, p. 367-384. [2] Hristovski D., Rogac M., Markota M. (2000), “Using Data Warehousing and OLAP in Public Health Care”, Journal Of The American Medical Informatics Association, Suppl. p. 369-373. [3] Berndt D.J., Hevner A.R. (1998), “CATCH/IT: A Data Warehouse to Support Comprehensive Assessment for Tracking Community Health, Journal Of The American Medical Informatics Association, Suppl. p. 250-254. Contato [email protected] 6