Baixar o PDF
Transcrição
Baixar o PDF
Simpósio Brasileiro de Bancos de Dados - SBBD 2012 Workshop de Teses e Dissertações Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem payasyougo para a Descoberta de Correspondências Danusa Ribeiro B. da Cunha, Bernadette Farias Lóscio Centro de Informática (CIn) Universidade Federal de Pernambuco (UFPE) Recife – Pernambuco – Brasil {drbc, bfl}@cin.ufpe.br Nível: Mestrado Ano de Ingresso no programa: 2012 Época esperada de conclusão: Março de 2014 Resumo De uma maneira geral, podemos dizer que a Web de Dados consiste de vários conjuntos de dados de domínios diversos passíveis de serem acessados por consultas SPARQL e interligados por meio de links RD F. Na Web de Dados, cada conjunto de dados pode estar associado a uma ontologia que, em geral, desempenha o papel do esquema da fonte de dados. Neste ambiente, se uma aplicação necessita consultar diferentes conjuntos de dados sem ter que formular uma nova consulta para cada um deles, pode ser necessário lidar com o problema de reescrita de consultas entre conjuntos de dados distintos e heterogêneos. Para realizar a reescrita entre os diversos conjuntos é necessário estabelecer correspondências entre eles levando-se em consideração os diversos tipos de heterogeneidade existentes. Neste contexto, nosso trabalho se propõe a realizar a reescrita de consultas em federações de dados interligados, onde as correspondências entre os esquemas (ontologias) dos conjuntos participantes da federação serão descobertas de forma incremental. Especificamente, fazemos uso de uma abordagem pay-as-you-go para descoberta de correspondências, a qual utiliza propriedades como owl:equivalentClass, owl:equivalentProperty e owl:sam eAs encontradas nas ontologias dos conjuntos de dados para a identificação das correspondências . Palavras-Chave Web Semântica, Linked Data, Web de Dados, Reescrita de Consulta, Pay-asyou-go, Dados interligados 27 Simpósio Brasileiro de Bancos de Dados - SBBD 2012 Workshop de Teses e Dissertações 1. Introdução e Motivação Ao longo dos anos, diferentes abordagens para integração de dados tem sido propostas, incluindo sistemas convencionais de integração de dados [Halevy et al. 2006a; Lóscio 2003], Sistemas de Gerenciamento de Dados P2P (PDMS) [Herschel & Heese 2005] e Dataspaces [Franklin et al. 2005]. Os sistemas de integração de dados convencionais, baseados na arquitetura de mediadores ou na arquitetura de Data Warehouse, caracterizam-se por ter um elevado custo nos estágios iniciais de implantação, uma vez que sua utilização requer a definição do esquema global (esquema de integração ou esquema de mediação) e do conjunto de correspondências (mapeamentos) entre o esquema global e os esquemas locais a serem integrados. Os PDMSs e os Dataspaces, por outro lado, caracterizam-se por adotar uma abordagem mais flexível e de maior escalabilidade que os demais. Independente da abordagem adotada, um dos principais desafios a serem solucionados quando se deseja oferecer uma visão integrada de dados distribuídos em múltiplas fontes de dados diz respeito à reescrita de consultas. Em sistemas que fazem uso de um esquema de mediação, o problema de reescrita de consultas consiste em como decompor uma consulta definida de acordo com o esquema de mediação em uma ou mais consultas a serem executadas nas fontes de dados locais. Um componente fundamental para a reescrita de consultas em tais sistemas de integração de dados é o conjunto de mapeamentos entre o esquema global e os esquemas locais. Tendo em vista que os esquemas podem ser complexos e heterogêneos, um dos grandes gargalos das soluções convencionais de integração de dados consiste em descobrir esses mapeamentos, pois esse processo geralmente é feito de forma manual ou semiautomática, demandando um elevado custo durante a inicialização do sistema. Neste trabalho, estamos interessados no problema de reescrita de consultas no contexto de integração de dados na Web de Dados [Bizer et al. 2009], onde as fontes de dados são conjuntos de dados RDF, os quais podem ser acessados a partir de consultas SPARQL e podem estar associados a uma ontologia que, em geral, desempenha o papel do esquema da fonte de dados. Em outras palavras, a integração de dados na Web de Dados diz respeito a prover uma visão integrada de dados distribuídos em diferentes conjuntos de dados RDF, interligados entre si e acessíveis por meio de consultas SPARQL. É importante destacar que, dada a natureza do ambiente, não devemos esperar que uma estratégia de reescrita seja aplicada sobre toda a Web de Dados, por questões de escalabilidade. Especificamente, neste trabalho propomos uma solução para o problema de reescrita de consultas em federações de conjuntos de dados interligados disponíveis na Web, ou seja, conjuntos de dados publicados de acordo com os princípios de Linked Data [Bizer et al. 2009]. De acordo com [Lóscio 2003], uma federação de dados é uma coleção de sistemas de bancos de dados cooperantes e autônomos que participam da federação para permitir um compartilhamento parcial e controlado de seus dados. Neste tipo de ambiente, se uma aplicação necessita consultar diferentes conjuntos de dados sem ter que formular uma nova consulta para cada um deles, pode ser necessário lidar com o problema de reescrita de consultas entre conjuntos de dados distintos e heterogêneos. Para solucionar tal problema, o foco do nosso trabalho é propor, implementar e validar uma abordagem para reescrita de consultas em federações de dados interligados, onde as correspondências entre os esquemas dos conjuntos de dados participantes da federação serão geradas de forma incremental, podendo, além disso, sofrer refinamentos em tempo de execução. 28 Simpósio Brasileiro de Bancos de Dados - SBBD 2012 Workshop de Teses e Dissertações 2. Fundamentação Teórica O termo Linked Data refere-se ao conjunto de melhores práticas para a publicação de dados estruturados na Web com o objetivo de criar uma Web de Dados. Tais práticas foram introduzidas por Tim Berners-Lee em [Bizer et al. 2009], são elas: (i) o uso de URIs para identificação dos recursos da Web; (ii) a utilização de tecnologias, tais como RDF e SPARQL, para descrição e realização de consultas sobre estes recursos, respectivamente; (iii) o reaproveitamento de URIs, de forma que seja possível estabelecer ligações entre os dados e facilitar a navegação entre eles. De acordo com [Bizer et al. 2009], a adoção das melhores práticas de publicação de dados ligados facilita a descoberta de informações relevantes para a integração de dados entre diferentes fontes, onde a integração destas fontes, expressas em RDF, é possível através da reescrita de consultas utilizando a linguagem SPARQL. 3. Caracterização da Contribuição Neste trabalho, propomos uma solução para o problema de reescrita de consultas no contexto de aplicações que oferecem acesso integrado a múltiplos conjuntos de dados interligados disponíveis na Web. Em nossa abordagem, consideramos a existência de um esquema de mediação, o qual deverá fornecer uma visão integrada dos dados, independente da localização e representação dos mesmos. Tanto o esquema de mediação quanto os conjuntos de dados têm uma ontologia representando seu esquema. A primeira é chamada de ontologia de mediação e as demais de ontologias locais. Além disso, assumimos a existência de correspondências entre o esquema de mediação e os esquemas dos conjuntos de dados participantes da federação. Estas correpondências são necessárias para permitir que dados, existentes nas múltiplas fontes de dados, sejam consultados por meio do esquema de mediação. Especificamente, propomos uma solução de reescrita que adota uma abordagem pay-as-you-go, ou seja, uma abordagem incremental, para a descoberta de correspondências entre os conjuntos de dados e o esquema de mediação da aplicação. Sendo assim, as correspondências necessárias para o processo de reescrita de uma consulta Q serão identificadas no momento da execução da consulta e de acordo com os conceitos que estão sendo consultados por Q . Neste caso, não será necessário conhecer previamente todas as correspondências entre os esquemas. O processo de descoberta de correspondências adotado neste trabalho consiste em realizar uma busca nas ontologias da federação (ontologias locais e de mediação) a fim de identificar propriedades como owl:equivalentClass, owl:equivalentProperty, rdfs:subClassOf , rdfs:subPropertyOf e owl:sa meAs, pois a partir destas poderemos estabelecer correspondências entre classes, propriedades e recursos dos conjuntos de dados com o esquema de mediação, utilizando-as no processo de reescrita de consultas. Dessa forma, reduziremos a complexidade do processo de identificação de correspondências entre os esquemas, uma vez que faremos uso de correspondências já definidas nas próprias ontologias participantes da federação. Além disso, com o uso da propriedade owl:sa meAs será possível resolver conflitos como os de sobreposição de URIs, ou seja, diferentes URIs fazendo referência a uma mesma entidade do mundo real. Neste trabalho, definimos uma federação de dados interligados I como uma tripla I = {S, M, C }, onde, S = {s1 ,...,sn} é um conjunto de dados interligados; M é o esquema de mediação; C = {c1 ,...,cn} é um conjunto de correspondências entre M e cada um dos conjuntos de dados participantes da federação, tal que c i é o conjunto de correspondências entre os conceitos de si e os conceitos de M. Sendo assim, dada uma federação de dados interligados I = {S, M, C}, neste trabalho estamos interessados em propor uma solução para o seguinte problema: dada uma consulta Q submetida em I de acordo com o esquema 29 Simpósio Brasileiro de Bancos de Dados - SBBD 2012 Workshop de Teses e Dissertações de mediação M, como decompor Q em uma ou mais consultas a serem executadas sobre um ou mais conjuntos de dados c i considerando que nem todas as correspondências necessárias para a reescrita de Q estão disponíveis em C ? De maneira geral, o processo de reescrita de consultas proposto neste trabalho consiste das seguintes etapas: (i) ext ração dos termos da consulta: onde são extraídos os padrões de triplas da consulta submetida juntamente com os termos usados em cada padrão de tripla; (ii) busca de correspondências: de posse dos padrões de triplas, será realizada uma busca por correspondências existentes entre os termos da consulta e os termos das ontologias dos conjuntos de dados da federação; (iii) identificação de novas cor respondências: caso a etapa (ii) retorne vazia, será estabelecida, de maneira incremental, as correspondências entre o esquema de mediação e cada conjunto de dados que responde a consulta; iv) geração de subconsultas: feita a identificação das correspondências, novas consultas são criadas para serem submetidas aos conjuntos de dados que tiveram alguma correspondência identificada no passo anterior e v) integração dos resultados: será feita por meio do processo de fusão de dados, levando em consideração que esses dados serão apresentados de acordo com o esquema de mediação. Para ilustrar a abordagem proposta, considere o cenário descrito a seguir. Seja I uma federação de dados interligados construída sobre o domínio de dados bibliográficos, tal que S = {DBLP1, ACM2, DBpedia3}, M é uma ontologia de mediação onde parte dela está descrita em (a) da Figura 1 e cuja hierarquia de classes é apresentada em (b), e C é o conjunto de correspondências, inicialmente vazio, pois as correspondências serão identificadas em tempo de execução. C lasse Publication Person University Propriedades Identifier, Title, Abstract Name, Biography, HomePage, Author Name, Address, Country (a) (b) Figura 1. (a) Classes e Propriedades da ontologia de aplicação; (b) hierarquia de classes da ontologia de aplicação Seja a consulta q1 : “Retorne os títulos dos artigos publicados pelo autor Alon Y. Halevy. Além disso, recupere a homepage do autor bem como uma breve apresentação sobre o mesmo”. A consulta q1 , em SPARQL, de acordo com os termos da ontologia de mediação é apresentada a seguir: SELECT ?title, ?homepage, ?bio WHERE { ?publication Title ?title . ?publication Author ?author . ?author HomePage ?homepage . ?author Biography ?bio . ?author Name “Alon Y. Halevy” . } 1 http://dblp.rkbexplorer.com/ 2 http://acm.rkbexplorer.com/ 3 http://dbpedia.org/About 30 Simpósio Brasileiro de Bancos de Dados - SBBD 2012 Workshop de Teses e Dissertações O passo inicial do processo de reescrita consiste em extrair os termos da consulta q1. Neste caso, são extraídos os seguintes termos {Title, Author, HomePage, Biography e Name}. Em seguida, devem ser identificadas as correspondências entre estes termos e os termos presentes nas ontologias dos conjuntos de dados da federação. A Tabela 1 apresenta as correspondências que foram identificadas em tempo de execução a partir da análise das propriedades de equivalência de classes e propriedades da ontologia de mediação (esquema de mediação) e das demais ontologias da federação. Tabela 1. Correspondências entre Esquema de Mediação e Conjuntos de Dados da Federação Ontologia de Domínio Name Biography HomePage Title ACM akt:full‐name ‐ ‐ akt:has‐title DBLP akt:full‐name ‐ ‐ akt:has‐title DBpedia dbpedia:name, foaf:surname, foaf:givenName rdf:comment foaf:page, foaf:homepage ‐ Uma vez identificadas as correspondências, a consulta q1 é então reescrita em três consultas qr1 , qr2 e qr3 sobre os conjuntos de dados ACM, DBLP e DBpedia. A Tabela 2 apresenta as três consultas reescritas juntamente com os respectivos resultados. Tabela 2. Consultas Reescrita e seus respectivos resultados Consulta qr1 Resultado PREFIX akt:<http://www.aktors.org/ontology/portal#> PREFIX akts: <http://www.aktors.org/ontology/support#> SELECT DISTINCT ?title WHERE { ?publication akt:has‐title ?title . ?publication akt:has‐author ?author . ?author akt:full‐name "Alon Y. Halevy".}Limit 5 Consulta qr2 PREFIX akt: <http://www.aktors.org/ontology/portal#> PREFIX akts: <http://www.aktors.org/ontology/support#> SELECT DISTINCT ?title WHERE { ?publication akt:has‐title ?title . ?publication akt:has‐author ?author . ?author akt:full‐name "Alon Y. Halevy".}Limit 5 Consulta qr3 PREFIX foaf: http://xmlns.com/foaf/0.1/> PREFIX dbpedia: <http://dbpedia.org/resource/> SELECT DISTINCT ?homepage, ?bio WHERE { ?y foaf:page ?homepage . ?y rdf:comment ?bio . ?y foaf:givenName “Alon Y.”} Binding Value 1 2 3 4 ?title ?title ?title ?title Guest Editorial Answering queries using views Queries independent of updates Logic‐based techniques in data… 5 ?title MiniCon: A scalable algorithm … 1 2 3 4 Binding ?title ?title ?title ?title Resultado Value Equivalence, Query‐Reachability … Constraints and Redundancy in… Exploiting Irrelevance… Queries Independent of Updates. 5 ?title Query Optimization by… Binding Value 1 ?homepage ?bio http://en.wikipedia.org/wiki/Al on_Y._Halevy Alon Yitzchack Halevy is.. Resultado Por fim, os resultados serão integrados por meio de um processo de fusão de dados [Mendes et al. 2012]. Esse resultado será apresentado para o usuário de acordo com os termos do esquema de mediação. Parte do resultado integrado pode ser visto na Figura 2. Biography HomePage Title Alon Yitzchack Halevy is a renowned Israeli‐American computer scientist and a leading researcher in the area of data integration. … http://en.wikipedia.org/wiki/Alon_Y._Halevy Guest Editorial, Answering queries using views, Queries independent of updates… Figura 2. Resultado Final Integrado 4. T rabalhos Relacionados A literatura apresenta diversos trabalhos que abordam questões relacionadas a nossa proposta como, por exemplo [Markis et al. 2012] e [Lee et al. 2010]. O primeiro realiza a reescrita de consultas SPARQL entre duas ontologias com o objetivo de integrar dados RDF e o último aplica a reescrita de consultas SPARQL sobre conjuntos Linked Data. Ambos trabalham com mapeamentos homogêneos, sem funções e com operações de comparação sobre a ontologia fonte. Diferentemente dessas abordagens, nosso trabalho realizará a reescrita de consultas em federações de dados interligados, considerando a existência de múltiplas ontologias heterogêneas e distribuídas. Além disso, como principal 31 Simpósio Brasileiro de Bancos de Dados - SBBD 2012 Workshop de Teses e Dissertações diferencial, estamos estudando a viabilidade de utilizar uma abordagem pay-as-you-go para a geração de correspondências entre as ontologias para estabelecer os mapeamentos necessários que deverão ser utilizados na reescrita. 5. A valiação dos Resultados e Estado A tual do T rabalho A validação da abordagem proposta neste trabalho inclui a implementação de um protótipo, juntamente com a realização de um conjunto de experimentos, a fim de avaliar tanto a geração das correspondências sob demanda quanto a reescrita de consultas SPARQL aplicada ao cenário de federação de dados interligados. Atualmente, estamos investigando como será feita a geração de correspondências em tempo de execução, bem como o processo de reescrita propriamente dito. Além disso, estamos definindo o cenário para a realização de um estudo de caso aplicado no contexto de Linked Open Data . Ao final deste trabalho, as principais contribuições esperadas são: (i) um método para geração incremental de correspondências entre ontologias a partir do uso das propriedades owl:equivalentClass, owl:equivalentProperty, rdfs:subClassOf , rdfs:subPropertyOf ; (ii) a especificação do processo de reescrita de consultas SPARQL em federação de conjuntos de dados interligados e (iii) a implementação de um protótipo para validação das abordagens propostas. Referências [Bizer et al 2009] Bizer C., Heath T., Berners-Lee T. (2009) Linked data - the story so far. Int. J. Semantic Web Inf. Syst, 2009. [Franklin et al. 2005] Franklin, M., Halevy, A., Maier, D. “From Databases to Dataspaces: A New Abstraction for Information Management”. In: SIGMOD ’05: ACM SIGMOD international conference on Management of Data (2005) . [Halevy et al. 2006a] Halevy, A., Rajaraman, A., Ordille, J.: “Data integration: the teenage years”. In: VLDB’06: 32nd International Conference on Very Large Data Bases, ACM (2006). [Herschel & Heese 2005] Herschel, S., Heese, R. “Humboldt Discoverer: A Semantic P2P index for PDMS”. In: Proc. of the International Workshop Data Integration and the Semantic Web, Porto, Portugal, 2005. [Lee et al. 2010] Lee, J., Park, J. H., Park, M. J., Chung, C. W., Min, J. K. (2010). “An intelligent query processing for distributed ontologies”, Journal of Systems and Software, Volume 83, Issue 1, January 2010, Pages 85-95. [Lóscio 2003] Lóscio, B. F. “Managing the Evolution of XML-based Mediation Queries”. Ph.D. Thesis, Federal University of Pernambuco, Brazil, 2003. [Makris et al. 2012] Makris, K., Bikakis, N., Giodasis, N., Christodoulakis, S. (2012). “SPARQL-RW: Transparent Query Access over Mapped RDF Data Sources”. EDBT, 2012., Berlin, Germany. [Mendes et al. 2012] Pablo N. M., Hannes, M., Bizer, C. (2012). Sieve: linked data quality assessment and fusion. In Proceedings of the 2012 Joint EDBT/ICDT Workshops (EDBTICDT '12), ACM, New York, NY. 32