Baixar o PDF

Transcrição

Baixar o PDF
Simpósio Brasileiro de Bancos de Dados - SBBD 2012
Workshop de Teses e Dissertações
Reescrita de Consultas em Federações de Dados Interligados usando uma Abordagem pay­as­you­go para a Descoberta de Correspondências Danusa Ribeiro B. da Cunha, Bernadette Farias Lóscio
Centro de Informática (CIn) Universidade Federal de Pernambuco (UFPE) Recife – Pernambuco – Brasil {drbc, bfl}@cin.ufpe.br Nível: Mestrado Ano de Ingresso no programa: 2012 Época esperada de conclusão: Março de 2014 Resumo
De uma maneira geral, podemos dizer que a Web de Dados consiste de vários
conjuntos de dados de domínios diversos passíveis de serem acessados por
consultas SPARQL e interligados por meio de links RD F. Na Web de Dados,
cada conjunto de dados pode estar associado a uma ontologia que, em geral,
desempenha o papel do esquema da fonte de dados. Neste ambiente, se uma
aplicação necessita consultar diferentes conjuntos de dados sem ter que
formular uma nova consulta para cada um deles, pode ser necessário lidar com
o problema de reescrita de consultas entre conjuntos de dados distintos e
heterogêneos. Para realizar a reescrita entre os diversos conjuntos é necessário
estabelecer correspondências entre eles levando-se em consideração os diversos
tipos de heterogeneidade existentes. Neste contexto, nosso trabalho se propõe a
realizar a reescrita de consultas em federações de dados interligados, onde as
correspondências entre os esquemas (ontologias) dos conjuntos participantes da
federação serão descobertas de forma incremental. Especificamente, fazemos
uso de uma abordagem pay-as-you-go para descoberta de correspondências, a
qual utiliza propriedades como owl:equivalentClass, owl:equivalentProperty e
owl:sam eAs encontradas nas ontologias dos conjuntos de dados para a
identificação das correspondências . Palavras-Chave
Web Semântica, Linked Data, Web de Dados, Reescrita de Consulta, Pay-asyou-go, Dados interligados
27
Simpósio Brasileiro de Bancos de Dados - SBBD 2012
Workshop de Teses e Dissertações
1. Introdução e Motivação Ao longo dos anos, diferentes abordagens para integração de dados tem sido propostas,
incluindo sistemas convencionais de integração de dados [Halevy et al. 2006a; Lóscio
2003], Sistemas de Gerenciamento de Dados P2P (PDMS) [Herschel & Heese 2005] e
Dataspaces [Franklin et al. 2005]. Os sistemas de integração de dados convencionais,
baseados na arquitetura de mediadores ou na arquitetura de Data Warehouse,
caracterizam-se por ter um elevado custo nos estágios iniciais de implantação, uma vez
que sua utilização requer a definição do esquema global (esquema de integração ou
esquema de mediação) e do conjunto de correspondências (mapeamentos) entre o esquema
global e os esquemas locais a serem integrados. Os PDMSs e os Dataspaces, por outro
lado, caracterizam-se por adotar uma abordagem mais flexível e de maior escalabilidade
que os demais.
Independente da abordagem adotada, um dos principais desafios a serem
solucionados quando se deseja oferecer uma visão integrada de dados distribuídos em
múltiplas fontes de dados diz respeito à reescrita de consultas. Em sistemas que fazem uso
de um esquema de mediação, o problema de reescrita de consultas consiste em como
decompor uma consulta definida de acordo com o esquema de mediação em uma ou mais
consultas a serem executadas nas fontes de dados locais. Um componente fundamental
para a reescrita de consultas em tais sistemas de integração de dados é o conjunto de
mapeamentos entre o esquema global e os esquemas locais. Tendo em vista que os
esquemas podem ser complexos e heterogêneos, um dos grandes gargalos das soluções
convencionais de integração de dados consiste em descobrir esses mapeamentos, pois esse
processo geralmente é feito de forma manual ou semiautomática, demandando um elevado
custo durante a inicialização do sistema.
Neste trabalho, estamos interessados no problema de reescrita de consultas no
contexto de integração de dados na Web de Dados [Bizer et al. 2009], onde as fontes de
dados são conjuntos de dados RDF, os quais podem ser acessados a partir de consultas
SPARQL e podem estar associados a uma ontologia que, em geral, desempenha o papel do
esquema da fonte de dados. Em outras palavras, a integração de dados na Web de Dados
diz respeito a prover uma visão integrada de dados distribuídos em diferentes conjuntos de
dados RDF, interligados entre si e acessíveis por meio de consultas SPARQL.
É importante destacar que, dada a natureza do ambiente, não devemos esperar que
uma estratégia de reescrita seja aplicada sobre toda a Web de Dados, por questões de
escalabilidade. Especificamente, neste trabalho propomos uma solução para o problema de
reescrita de consultas em federações de conjuntos de dados interligados disponíveis na
Web, ou seja, conjuntos de dados publicados de acordo com os princípios de Linked Data
[Bizer et al. 2009]. De acordo com [Lóscio 2003], uma federação de dados é uma coleção
de sistemas de bancos de dados cooperantes e autônomos que participam da federação
para permitir um compartilhamento parcial e controlado de seus dados. Neste tipo de
ambiente, se uma aplicação necessita consultar diferentes conjuntos de dados sem ter que
formular uma nova consulta para cada um deles, pode ser necessário lidar com o problema
de reescrita de consultas entre conjuntos de dados distintos e heterogêneos. Para
solucionar tal problema, o foco do nosso trabalho é propor, implementar e validar uma
abordagem para reescrita de consultas em federações de dados interligados, onde as
correspondências entre os esquemas dos conjuntos de dados participantes da federação
serão geradas de forma incremental, podendo, além disso, sofrer refinamentos em tempo
de execução.
28
Simpósio Brasileiro de Bancos de Dados - SBBD 2012
Workshop de Teses e Dissertações
2. Fundamentação Teórica O termo Linked Data refere-se ao conjunto de melhores práticas para a publicação de
dados estruturados na Web com o objetivo de criar uma Web de Dados. Tais práticas
foram introduzidas por Tim Berners-Lee em [Bizer et al. 2009], são elas: (i) o uso de URIs
para identificação dos recursos da Web; (ii) a utilização de tecnologias, tais como RDF e
SPARQL, para descrição e realização de consultas sobre estes recursos, respectivamente;
(iii) o reaproveitamento de URIs, de forma que seja possível estabelecer ligações entre os
dados e facilitar a navegação entre eles.
De acordo com [Bizer et al. 2009], a adoção das melhores práticas de publicação
de dados ligados facilita a descoberta de informações relevantes para a integração de
dados entre diferentes fontes, onde a integração destas fontes, expressas em RDF, é
possível através da reescrita de consultas utilizando a linguagem SPARQL.
3. Caracterização da Contribuição Neste trabalho, propomos uma solução para o problema de reescrita de consultas no
contexto de aplicações que oferecem acesso integrado a múltiplos conjuntos de dados
interligados disponíveis na Web. Em nossa abordagem, consideramos a existência de um
esquema de mediação, o qual deverá fornecer uma visão integrada dos dados,
independente da localização e representação dos mesmos. Tanto o esquema de mediação
quanto os conjuntos de dados têm uma ontologia representando seu esquema. A primeira é
chamada de ontologia de mediação e as demais de ontologias locais. Além disso,
assumimos a existência de correspondências entre o esquema de mediação e os esquemas
dos conjuntos de dados participantes da federação. Estas correpondências são necessárias
para permitir que dados, existentes nas múltiplas fontes de dados, sejam consultados por
meio do esquema de mediação.
Especificamente, propomos uma solução de reescrita que adota uma abordagem
pay-as-you-go, ou seja, uma abordagem incremental, para a descoberta de
correspondências entre os conjuntos de dados e o esquema de mediação da aplicação.
Sendo assim, as correspondências necessárias para o processo de reescrita de uma consulta
Q serão identificadas no momento da execução da consulta e de acordo com os conceitos
que estão sendo consultados por Q . Neste caso, não será necessário conhecer previamente
todas as correspondências entre os esquemas.
O processo de descoberta de correspondências adotado neste trabalho consiste em
realizar uma busca nas ontologias da federação (ontologias locais e de mediação) a fim de
identificar
propriedades
como
owl:equivalentClass,
owl:equivalentProperty,
rdfs:subClassOf , rdfs:subPropertyOf e owl:sa meAs, pois a partir destas poderemos
estabelecer correspondências entre classes, propriedades e recursos dos conjuntos de dados
com o esquema de mediação, utilizando-as no processo de reescrita de consultas. Dessa
forma, reduziremos a complexidade do processo de identificação de correspondências
entre os esquemas, uma vez que faremos uso de correspondências já definidas nas próprias
ontologias participantes da federação. Além disso, com o uso da propriedade owl:sa meAs
será possível resolver conflitos como os de sobreposição de URIs, ou seja, diferentes URIs
fazendo referência a uma mesma entidade do mundo real.
Neste trabalho, definimos uma federação de dados interligados I como uma tripla I
= {S, M, C }, onde, S = {s1 ,...,sn} é um conjunto de dados interligados; M é o esquema de
mediação; C = {c1 ,...,cn} é um conjunto de correspondências entre M e cada um dos
conjuntos de dados participantes da federação, tal que c i é o conjunto de correspondências
entre os conceitos de si e os conceitos de M. Sendo assim, dada uma federação de dados interligados I = {S, M, C}, neste trabalho estamos interessados em propor uma solução
para o seguinte problema: dada uma consulta Q submetida em I de acordo com o esquema
29
Simpósio Brasileiro de Bancos de Dados - SBBD 2012
Workshop de Teses e Dissertações
de mediação M, como decompor Q em uma ou mais consultas a serem executadas sobre
um ou mais conjuntos de dados c i considerando que nem todas as correspondências
necessárias para a reescrita de Q estão disponíveis em C ?
De maneira geral, o processo de reescrita de consultas proposto neste trabalho
consiste das seguintes etapas: (i) ext ração dos termos da consulta: onde são extraídos os
padrões de triplas da consulta submetida juntamente com os termos usados em cada
padrão de tripla; (ii) busca de correspondências: de posse dos padrões de triplas, será
realizada uma busca por correspondências existentes entre os termos da consulta e os
termos das ontologias dos conjuntos de dados da federação; (iii) identificação de novas
cor respondências: caso a etapa (ii) retorne vazia, será estabelecida, de maneira
incremental, as correspondências entre o esquema de mediação e cada conjunto de dados
que responde a consulta; iv) geração de subconsultas: feita a identificação das
correspondências, novas consultas são criadas para serem submetidas aos conjuntos de
dados que tiveram alguma correspondência identificada no passo anterior e v) integração
dos resultados: será feita por meio do processo de fusão de dados, levando em
consideração que esses dados serão apresentados de acordo com o esquema de mediação.
Para ilustrar a abordagem proposta, considere o cenário descrito a seguir. Seja I
uma federação de dados interligados construída sobre o domínio de dados bibliográficos,
tal que S = {DBLP1, ACM2, DBpedia3}, M é uma ontologia de mediação onde parte dela
está descrita em (a) da Figura 1 e cuja hierarquia de classes é apresentada em (b), e C é o
conjunto de correspondências, inicialmente vazio, pois as correspondências serão
identificadas em tempo de execução.
C lasse
Publication
Person
University
Propriedades
Identifier, Title, Abstract
Name, Biography, HomePage,
Author
Name, Address, Country
(a)
(b)
Figura 1. (a) Classes e Propriedades da ontologia de aplicação; (b) hierarquia de classes da ontologia de
aplicação
Seja a consulta q1 : “Retorne os títulos dos artigos publicados pelo autor Alon Y. Halevy. Além disso, recupere a homepage do autor bem como uma breve apresentação
sobre o mesmo”. A consulta q1 , em SPARQL, de acordo com os termos da ontologia de
mediação é apresentada a seguir:
SELECT ?title, ?homepage, ?bio WHERE { ?publication Title ?title . ?publication Author ?author . ?author HomePage ?homepage . ?author Biography ?bio . ?author Name “Alon Y. Halevy” . }
1 http://dblp.rkbexplorer.com/ 2 http://acm.rkbexplorer.com/ 3 http://dbpedia.org/About 30
Simpósio Brasileiro de Bancos de Dados - SBBD 2012
Workshop de Teses e Dissertações
O passo inicial do processo de reescrita consiste em extrair os termos da consulta
q1. Neste caso, são extraídos os seguintes termos {Title, Author, HomePage, Biography e
Name}. Em seguida, devem ser identificadas as correspondências entre estes termos e os
termos presentes nas ontologias dos conjuntos de dados da federação. A Tabela 1
apresenta as correspondências que foram identificadas em tempo de execução a partir da análise das propriedades de equivalência de classes e propriedades da ontologia de mediação (esquema de mediação) e das demais ontologias da federação.
Tabela 1. Correspondências entre Esquema de Mediação e Conjuntos de Dados da Federação
Ontologia de Domínio Name Biography HomePage Title ACM akt:full‐name ‐ ‐ akt:has‐title DBLP akt:full‐name ‐ ‐ akt:has‐title DBpedia dbpedia:name, foaf:surname, foaf:givenName rdf:comment foaf:page, foaf:homepage ‐ Uma vez identificadas as correspondências, a consulta q1 é então reescrita em três
consultas qr1 , qr2 e qr3 sobre os conjuntos de dados ACM, DBLP e DBpedia. A Tabela 2
apresenta as três consultas reescritas juntamente com os respectivos resultados.
Tabela 2. Consultas Reescrita e seus respectivos resultados
Consulta qr1
Resultado PREFIX akt:<http://www.aktors.org/ontology/portal#> PREFIX akts: <http://www.aktors.org/ontology/support#> SELECT DISTINCT ?title WHERE { ?publication akt:has‐title ?title . ?publication akt:has‐author ?author . ?author akt:full‐name "Alon Y. Halevy".}Limit 5 Consulta qr2
PREFIX akt: <http://www.aktors.org/ontology/portal#> PREFIX akts: <http://www.aktors.org/ontology/support#> SELECT DISTINCT ?title WHERE { ?publication akt:has‐title ?title . ?publication akt:has‐author ?author . ?author akt:full‐name "Alon Y. Halevy".}Limit 5 Consulta qr3
PREFIX foaf: http://xmlns.com/foaf/0.1/> PREFIX dbpedia: <http://dbpedia.org/resource/> SELECT DISTINCT ?homepage, ?bio WHERE { ?y foaf:page ?homepage . ?y rdf:comment ?bio . ?y foaf:givenName “Alon Y.”} Binding Value 1 2 3 4 ?title ?title ?title ?title Guest Editorial Answering queries using views Queries independent of updates Logic‐based techniques in data… 5 ?title MiniCon: A scalable algorithm … 1 2 3 4 Binding ?title ?title ?title ?title Resultado Value Equivalence, Query‐Reachability … Constraints and Redundancy in… Exploiting Irrelevance… Queries Independent of Updates. 5 ?title Query Optimization by… Binding Value 1 ?homepage ?bio http://en.wikipedia.org/wiki/Al
on_Y._Halevy Alon Yitzchack Halevy is.. Resultado Por fim, os resultados serão integrados por meio de um processo de fusão de dados
[Mendes et al. 2012]. Esse resultado será apresentado para o usuário de acordo com os
termos do esquema de mediação. Parte do resultado integrado pode ser visto na Figura 2.
Biography HomePage Title Alon Yitzchack Halevy is a renowned Israeli‐American computer scientist and a leading researcher in the area of data integration. … http://en.wikipedia.org/wiki/Alon_Y._Halevy Guest Editorial, Answering queries using views, Queries independent of updates… Figura 2. Resultado Final Integrado
4. T rabalhos Relacionados
A literatura apresenta diversos trabalhos que abordam questões relacionadas a nossa
proposta como, por exemplo [Markis et al. 2012] e [Lee et al. 2010]. O primeiro realiza a
reescrita de consultas SPARQL entre duas ontologias com o objetivo de integrar dados
RDF e o último aplica a reescrita de consultas SPARQL sobre conjuntos Linked Data.
Ambos trabalham com mapeamentos homogêneos, sem funções e com operações de
comparação sobre a ontologia fonte. Diferentemente dessas abordagens, nosso trabalho
realizará a reescrita de consultas em federações de dados interligados, considerando a
existência de múltiplas ontologias heterogêneas e distribuídas. Além disso, como principal
31
Simpósio Brasileiro de Bancos de Dados - SBBD 2012
Workshop de Teses e Dissertações
diferencial, estamos estudando a viabilidade de utilizar uma abordagem pay-as-you-go
para a geração de correspondências entre as ontologias para estabelecer os mapeamentos
necessários que deverão ser utilizados na reescrita.
5. A valiação dos Resultados e Estado A tual do T rabalho
A validação da abordagem proposta neste trabalho inclui a implementação de um
protótipo, juntamente com a realização de um conjunto de experimentos, a fim de avaliar
tanto a geração das correspondências sob demanda quanto a reescrita de consultas
SPARQL aplicada ao cenário de federação de dados interligados. Atualmente, estamos
investigando como será feita a geração de correspondências em tempo de execução, bem
como o processo de reescrita propriamente dito. Além disso, estamos definindo o cenário
para a realização de um estudo de caso aplicado no contexto de Linked Open Data . Ao
final deste trabalho, as principais contribuições esperadas são: (i) um método para geração
incremental de correspondências entre ontologias a partir do uso das propriedades
owl:equivalentClass, owl:equivalentProperty, rdfs:subClassOf , rdfs:subPropertyOf ; (ii) a
especificação do processo de reescrita de consultas SPARQL em federação de conjuntos
de dados interligados e (iii) a implementação de um protótipo para validação das
abordagens propostas.
Referências
[Bizer et al 2009] Bizer C., Heath T., Berners-Lee T. (2009) Linked data - the story so far.
Int. J. Semantic Web Inf. Syst, 2009.
[Franklin et al. 2005] Franklin, M., Halevy, A., Maier, D. “From Databases to Dataspaces: A New Abstraction for Information Management”. In: SIGMOD ’05: ACM SIGMOD international conference on Management of Data (2005) .
[Halevy et al. 2006a] Halevy, A., Rajaraman, A., Ordille, J.: “Data integration: the teenage years”. In: VLDB’06: 32nd International Conference on Very Large Data Bases, ACM
(2006).
[Herschel & Heese 2005] Herschel, S., Heese, R. “Humboldt Discoverer: A Semantic P2P index for PDMS”. In: Proc. of the International Workshop Data Integration and the
Semantic Web, Porto, Portugal, 2005.
[Lee et al. 2010] Lee, J., Park, J. H., Park, M. J., Chung, C. W., Min, J. K. (2010). “An intelligent query processing for distributed ontologies”, Journal of Systems and
Software, Volume 83, Issue 1, January 2010, Pages 85-95.
[Lóscio 2003] Lóscio, B. F. “Managing the Evolution of XML-based Mediation Queries”. Ph.D. Thesis, Federal University of Pernambuco, Brazil, 2003.
[Makris et al. 2012] Makris, K., Bikakis, N., Giodasis, N., Christodoulakis, S. (2012).
“SPARQL-RW: Transparent Query Access over Mapped RDF Data Sources”. EDBT, 2012., Berlin, Germany.
[Mendes et al. 2012] Pablo N. M., Hannes, M., Bizer, C. (2012). Sieve: linked data quality assessment and fusion. In Proceedings of the 2012 Joint EDBT/ICDT Workshops (EDBT­ICDT '12), ACM, New York, NY. 32

Documentos relacionados