Enfrentando os Desafios da Interoperabilidade Semântica de Dados

Transcrição

Enfrentando os Desafios da Interoperabilidade Semântica de Dados
Enfrentando os
Desafios da
Interoperabilidade
Semântica de
Dados
Governamentais
Prof. Dr. João Paulo A. Almeida
([email protected])
http://nemo.inf.ufes.br
Departamento de Informática
Universidade Federal do Espírito Santo
Agenda
• Visão: Onde queremos chegar… ?
– Aprofundamento da
“sociedade da informação”
– Web
• Diagnóstico: Onde estamos… ?
– Dados governamentais
• Desafios: O que precisamos fazer…?
Visão: Onde queremos chegar…?
• Ter acesso a dados produzidos por uma enormidade de
fontes (inclusive governamentais, mas também da
sociedade civil, dos cidadão)
• Ligar ou combinar dados produzidos das várias fontes
• Produzir ou publicar dados
– sobre absolutamente qualquer coisa que seja do interesse
• Princípio básico:
• Uso dos dados muito além do propósito original para sua
coleção
• combinações de potencial “infinito”
Visão: Onde queremos chegar…?
• No caso de dados governamentais fomentar:
– Transparência ativa
– Pesquisa acadêmica e jornalismo de dados
– Formulação de políticas públicas e tomada de
decisão com base em evidências
– Participação de cidadãos e do setor privado
Visão: … queremos saber!
• Onde foi parar o meu dinheiro?
• Qual o melhor investimento para o recurso público?
• Os professores da educação básica em diferentes unidades
da federação tem salários diferentes?
– Isto leva a desempenho diferente em testes educacionais?
• Qual a relação entre criminalidade e iluminação pública?
• Qual a relação entre saúde e saneamento básico?
– Por doença?
– Por região geográfica?
– Por IDH?
• Etc., etc., etc.
Diagnóstico: Onde estamos?
• Uma infinidade de “ilhas” de sistemas de informação
• Só no caso governamental:
–
–
–
–
Diferentes esferas (federal, estadual, municipal)
Diferentes poderes (executivo, legislativo, judiciário)
Diferentes órgãos com complexa estrutura organizacional
Cada qual mantendo informações diferentes, porém
complementares
• Sobre saúde, segurança pública, economia, educação, mobilidade
urbana, etc. etc. e etc.
– Cada qual com seus “formatos” de dados
• Não padronizados
• Pouco ou mal documentados
• Desarticulados
Diagnóstico: …no meio do caminho!
• Lei de Acesso a Informação de 2011
“Os sítios [… ] deverão […] atender, entre outros, aos seguintes
requisitos:
I - conter ferramenta de pesquisa de conteúdo […]
II - possibilitar a gravação de relatórios em diversos formatos
eletrônicos, inclusive abertos e não proprietários, tais como
planilhas e texto, de modo a facilitar a análise das
informações;
III - possibilitar o acesso automatizado por sistemas externos
em formatos abertos, estruturados e legíveis por máquina;
IV - divulgar em detalhes os formatos utilizados para
estruturação da informação;“
Diagnóstico: …no meio do caminho!
• Não há um “formato de dados abertos”
• Há na verdade “meta-formatos”
•
•
•
•
•
CSV (Comma Separated Values)
XML (Extensible Markup Language)
JSON (JavaScript Object Notation)
RDF (Resource Description Framework)
OWL (Web Ontology Language)
Diagnóstico: …no meio do caminho!
• Integração é desafiadora dentro de uma organização
• E agora estamos cruzando fronteiras organizacionais,
culturais, políticas, …
• Esforço heróico de “hackers” especialistas
• Não “escalável”
• Pouca precisão no uso dos dados
– Potencialmente chegando a conclusões erradas!
• Enorme potencial pouco explorado
http://www.transparencia.es.gov.br
http://www.transparencia.es.gov.br
empenhado2015.csv
NumAnoExercicio;NumCodigoOrgao;NumCodigoOrgao;NumCodigoUnidadeGestora;NumC
odigoGestaoEmitente;numDocumentoEmpenho;NumCodigoFuncao;NumCodigoSubFunca
o;NumCodigoPrograma;NumCodigoAcao;NumCpfCnpjNis;StrNomeFavorecido;numTipoFav
orecido;NumCodigoElementoDespesa;NumCodigoSubelementoDespesa;NumProcesso;Nu
mTipoLicitacao;numValorEmpenho;datEmpenhoDocumento;NumCodigoGrupoDespesa;N
umCodigoModalidade;historicoDocumentoEmpenho;NumCategoriaEconomica;NumCodig
oSubtitulo;NumCodigoFonte;
2015;45;45;450101;1;;;;;;;;;14;;;;R$ 163,80;11/05/2015;3;;;3;;;
2015;10;10;100102;1;;;;;;;;;39;;;;R$ 6.196,00;03/02/2015;3;;;3;;;
2015;10;10;100102;1;;;;;;;;;15;;;;R$ 56,00;02/02/2015;3;;;3;;;
2015;45;45;450101;1;;;;;;;;;15;;;;R$ 56,00;04/02/2015;3;;;3;;;
tborgao2015.CSV
numCodigoOrgao; numAnoExercicio; strNomeOrgao; numTipoPoder
10; 2014; SECRETARIA DA CASA CIVIL ; 4
10; 2015; DESCRIÇÃO PENDENTE DE DEFINIÇÃO; 4
45; 2014; SECRETARIA DE ESTADO DA SEGURANCA PÚBLICA E DEFESA SOCIAL ; 4
45; 2015; DESCRIÇÃO PENDENTE DE DEFINIÇÃO; 4
http://www.portaltransparencia.gov.br
Para onde vamos???
Na essência um problema de comunicação
Premissa essencial: Não há telepatia…
Dados na web: comunicação entre pessoas
Dados
Desafio
Dados podem ser interpretados de diferentes formas
Salário = 5.000,00
Dados
O Problema: Interoperabilidade Semântica
<xsd:element name=”catalogo”>
<xsd:complexType>
<xsd:sequence>
<xsd:element name=”livro”
maxOccurs="unbounded">
<xsd:complexType>
<xsd:sequence>
Informação
<xsd:element
name=”titulo"
type="xsd:string"/>
<xsd:element
name=”autor"
type="xsd:string"/>
</xsd:complexType>
<catalogo>
</xsd:element>
<livro>
</xsd:sequence>
<titulo>Dom Casmurro</titulo>
</xsd:complexType>
<autor>Machado de Assis</autor>
</xsd:element>
</livro>
</catalogo>
O Problema: Interoperabilidade Semântica
Informação
Titulo;autor
Dom Casmurro;Machado de Assis
O Problema: Interoperabilidade Semântica
• Problema de interoperabilidade não é resolvido pela
interoperabilidade sintática
<livro> representa:
• Cópia (manifestação) específica do livro à disposição em
uma acervo/biblioteca?
– se houvesse 2 cópias teríamos 2 livros no catálogo?
• Cópia do livro à venda em um catálogo de loja online?
– uma entrada de <livro> representa muitas cópias
• Edição do livro (não a cópia física)?
• Livro como obra abstrata (aquilo que é preservado entre as
várias edições?)
Um problema sério de escala
i
i
Informação
i
i
Exacerbado na ligação
i
i1
?
i1'
?
?
i
i2
Dados se referem às
mesmas entidades do mundo real?
i2'
Papel dos “formatos” de dados
Convenções de
representação dos dados
Dados
Distância semântica tem que controlada
para comunicação eficaz
Distância semântica (δ)
QUALIDADE das
Convenções de
representação dos dados
Dados
Terminologia em Linguagem Natural Não é
Solução Suficiente
ÁRVORE
Uso de modelos conceituais para
comunicação
eats
plant
is-a
tree
herbivore
is-a
is-part-of
is-a
horse
is-a
canadian horse
leave
mapple
Diferentes níveis de “precisão”, “rigor”,
“estruturação”, “expressividade”
Adaptado de Alessandro Oltramari
Diferentes níveis de “precisão”, “rigor”,
“estruturação”, “expressividade”
Ainda diferentes níveis de “precisão”
-> riqueza “semântica”
Adaptado de Alessandro Oltramari
Diferentes níveis de “precisão”, “rigor”,
“estruturação”, “expressividade”
Ainda diferentes níveis de “precisão”
-> riqueza “semântica”
“Ontologias”
RDF(S)
OWL(S) OntoUML
Expectativas com relação à semântica
eats
plant
is-a
tree
herbivore
is-a
is-part-of
is-a
horse
is-a
canadian horse
leave
mapple
Expectativas com relação à semântica
eats
is-a
is-a
is-a
is-a
is-part-of
Expectativas com relação à semântica
• De qualquer forma, nós ainda estamos dependendo da
construção de consenso negociado através da linguagem
natural
• O objetivo é reduzir nossa dependência da informalidade
• E construir uma ferramenta que permita que:
– Aquele que crie o modelo conceitual expresse as distinções
conceituais relevantes para o domínio
– E aquele que leia o modelo consiga extrair as distinções
conceituais relevantes para o domínio
• Essencial para Dados Abertos
W3C ORG Ontology
Triplas e Grafos RDF na Web
http://www.w3.org/TR/rdf11-primer
Triplas e Grafos RDF na Web - IRIs
http://dbpedia.org/resource/Leonardo_d
a_Vinci
http://xmlns.com/foaf/0.1/maker
http://purl.org/dc/terms/creator
https://www.wikidata.org/wiki/Q12418
http://www.w3.org/TR/rdf11-primer
Estudo (Bassetti, Azevedo, Almeida, 2014)
• Servidores Civis (Servidores e Remuneração Novembro/2013)
– Autor: Ministério do Planejamento, Banco Central, Comandos Militares,
MRE, DPF, RFB, MAPA, DEST e Ministérios [Honorários (Jetons)]
– Disponível em:
http://www.portaltransparencia.gov.br/downloads/servidores.asp
• Sistema de Informações Organizacionais do Governo
Federal (SIORG)
– Autor: Ministério do Planejamento, Orçamento e Gestão (MP)
– Disponível em: http://dados.gov.br/dataset/siorg
• Unidade Federativas
– Autor: Instituto Brasileiro de Geografia e Estatística (IBGE)
– Disponível em:
http://www.ibge.gov.br/home/geociencias/areaterritorial/principal.shtm
Fontes em Formatos Diferentes
Abordagem
Representação Inconsistente
• Representação para Presidência da República na base de
dados de Servidores Civis
• 20101 – PRESIDENCIA DA REPUBLICA
• Representação para Presidência da República na base de
dados de Estruturas Organizacionais
• 26 – Presidência da República
Descrições Inadequadas
Falta de Identificação Única
Impacto dos Problemas das Bases de
Dados no Consumo
http://sws.geonames.org/3462386
http://sws.geonames.org/3462386
http://sws.geonames.org/3462386/about.rdf
Visão: Web de Dados
"Linking Open Data cloud diagram 2014, by Max Schmachtenberg, Christian Bizer, Anja Jentzsch
and Richard Cyganiak. http://lod-cloud.net/"
Outras informações
•
•
•
•
•
•
•
W3C Data on the Web Best Practices Working Group
W3C Government Linked Data Working Group
http://nemo.inf.ufes.br
http://vocab.e.gov.br
http://eping.governoeletronico.gov.br
Linked Open Data
Open Government Data
Conclusão
• Principais desafios são sócio-técnicos
• Coordenação de formatos, modelos conceituais subjacentes
– Técnicas “semânticas” ou baseadas em ontologias
– Processo aberto e colaborativo para construção destes
formatos
• Investimento na qualidade destes formatos
• Investimento na qualidade dos dados
• Esforços significativos são necessários por parte do governo
– Envolvendo necessariamente investimento em TI pelo seu
papel chave neste processo