Enfrentando os Desafios da Interoperabilidade Semântica de Dados
Transcrição
Enfrentando os Desafios da Interoperabilidade Semântica de Dados
Enfrentando os Desafios da Interoperabilidade Semântica de Dados Governamentais Prof. Dr. João Paulo A. Almeida ([email protected]) http://nemo.inf.ufes.br Departamento de Informática Universidade Federal do Espírito Santo Agenda • Visão: Onde queremos chegar… ? – Aprofundamento da “sociedade da informação” – Web • Diagnóstico: Onde estamos… ? – Dados governamentais • Desafios: O que precisamos fazer…? Visão: Onde queremos chegar…? • Ter acesso a dados produzidos por uma enormidade de fontes (inclusive governamentais, mas também da sociedade civil, dos cidadão) • Ligar ou combinar dados produzidos das várias fontes • Produzir ou publicar dados – sobre absolutamente qualquer coisa que seja do interesse • Princípio básico: • Uso dos dados muito além do propósito original para sua coleção • combinações de potencial “infinito” Visão: Onde queremos chegar…? • No caso de dados governamentais fomentar: – Transparência ativa – Pesquisa acadêmica e jornalismo de dados – Formulação de políticas públicas e tomada de decisão com base em evidências – Participação de cidadãos e do setor privado Visão: … queremos saber! • Onde foi parar o meu dinheiro? • Qual o melhor investimento para o recurso público? • Os professores da educação básica em diferentes unidades da federação tem salários diferentes? – Isto leva a desempenho diferente em testes educacionais? • Qual a relação entre criminalidade e iluminação pública? • Qual a relação entre saúde e saneamento básico? – Por doença? – Por região geográfica? – Por IDH? • Etc., etc., etc. Diagnóstico: Onde estamos? • Uma infinidade de “ilhas” de sistemas de informação • Só no caso governamental: – – – – Diferentes esferas (federal, estadual, municipal) Diferentes poderes (executivo, legislativo, judiciário) Diferentes órgãos com complexa estrutura organizacional Cada qual mantendo informações diferentes, porém complementares • Sobre saúde, segurança pública, economia, educação, mobilidade urbana, etc. etc. e etc. – Cada qual com seus “formatos” de dados • Não padronizados • Pouco ou mal documentados • Desarticulados Diagnóstico: …no meio do caminho! • Lei de Acesso a Informação de 2011 “Os sítios [… ] deverão […] atender, entre outros, aos seguintes requisitos: I - conter ferramenta de pesquisa de conteúdo […] II - possibilitar a gravação de relatórios em diversos formatos eletrônicos, inclusive abertos e não proprietários, tais como planilhas e texto, de modo a facilitar a análise das informações; III - possibilitar o acesso automatizado por sistemas externos em formatos abertos, estruturados e legíveis por máquina; IV - divulgar em detalhes os formatos utilizados para estruturação da informação;“ Diagnóstico: …no meio do caminho! • Não há um “formato de dados abertos” • Há na verdade “meta-formatos” • • • • • CSV (Comma Separated Values) XML (Extensible Markup Language) JSON (JavaScript Object Notation) RDF (Resource Description Framework) OWL (Web Ontology Language) Diagnóstico: …no meio do caminho! • Integração é desafiadora dentro de uma organização • E agora estamos cruzando fronteiras organizacionais, culturais, políticas, … • Esforço heróico de “hackers” especialistas • Não “escalável” • Pouca precisão no uso dos dados – Potencialmente chegando a conclusões erradas! • Enorme potencial pouco explorado http://www.transparencia.es.gov.br http://www.transparencia.es.gov.br empenhado2015.csv NumAnoExercicio;NumCodigoOrgao;NumCodigoOrgao;NumCodigoUnidadeGestora;NumC odigoGestaoEmitente;numDocumentoEmpenho;NumCodigoFuncao;NumCodigoSubFunca o;NumCodigoPrograma;NumCodigoAcao;NumCpfCnpjNis;StrNomeFavorecido;numTipoFav orecido;NumCodigoElementoDespesa;NumCodigoSubelementoDespesa;NumProcesso;Nu mTipoLicitacao;numValorEmpenho;datEmpenhoDocumento;NumCodigoGrupoDespesa;N umCodigoModalidade;historicoDocumentoEmpenho;NumCategoriaEconomica;NumCodig oSubtitulo;NumCodigoFonte; 2015;45;45;450101;1;;;;;;;;;14;;;;R$ 163,80;11/05/2015;3;;;3;;; 2015;10;10;100102;1;;;;;;;;;39;;;;R$ 6.196,00;03/02/2015;3;;;3;;; 2015;10;10;100102;1;;;;;;;;;15;;;;R$ 56,00;02/02/2015;3;;;3;;; 2015;45;45;450101;1;;;;;;;;;15;;;;R$ 56,00;04/02/2015;3;;;3;;; tborgao2015.CSV numCodigoOrgao; numAnoExercicio; strNomeOrgao; numTipoPoder 10; 2014; SECRETARIA DA CASA CIVIL ; 4 10; 2015; DESCRIÇÃO PENDENTE DE DEFINIÇÃO; 4 45; 2014; SECRETARIA DE ESTADO DA SEGURANCA PÚBLICA E DEFESA SOCIAL ; 4 45; 2015; DESCRIÇÃO PENDENTE DE DEFINIÇÃO; 4 http://www.portaltransparencia.gov.br Para onde vamos??? Na essência um problema de comunicação Premissa essencial: Não há telepatia… Dados na web: comunicação entre pessoas Dados Desafio Dados podem ser interpretados de diferentes formas Salário = 5.000,00 Dados O Problema: Interoperabilidade Semântica <xsd:element name=”catalogo”> <xsd:complexType> <xsd:sequence> <xsd:element name=”livro” maxOccurs="unbounded"> <xsd:complexType> <xsd:sequence> Informação <xsd:element name=”titulo" type="xsd:string"/> <xsd:element name=”autor" type="xsd:string"/> </xsd:complexType> <catalogo> </xsd:element> <livro> </xsd:sequence> <titulo>Dom Casmurro</titulo> </xsd:complexType> <autor>Machado de Assis</autor> </xsd:element> </livro> </catalogo> O Problema: Interoperabilidade Semântica Informação Titulo;autor Dom Casmurro;Machado de Assis O Problema: Interoperabilidade Semântica • Problema de interoperabilidade não é resolvido pela interoperabilidade sintática <livro> representa: • Cópia (manifestação) específica do livro à disposição em uma acervo/biblioteca? – se houvesse 2 cópias teríamos 2 livros no catálogo? • Cópia do livro à venda em um catálogo de loja online? – uma entrada de <livro> representa muitas cópias • Edição do livro (não a cópia física)? • Livro como obra abstrata (aquilo que é preservado entre as várias edições?) Um problema sério de escala i i Informação i i Exacerbado na ligação i i1 ? i1' ? ? i i2 Dados se referem às mesmas entidades do mundo real? i2' Papel dos “formatos” de dados Convenções de representação dos dados Dados Distância semântica tem que controlada para comunicação eficaz Distância semântica (δ) QUALIDADE das Convenções de representação dos dados Dados Terminologia em Linguagem Natural Não é Solução Suficiente ÁRVORE Uso de modelos conceituais para comunicação eats plant is-a tree herbivore is-a is-part-of is-a horse is-a canadian horse leave mapple Diferentes níveis de “precisão”, “rigor”, “estruturação”, “expressividade” Adaptado de Alessandro Oltramari Diferentes níveis de “precisão”, “rigor”, “estruturação”, “expressividade” Ainda diferentes níveis de “precisão” -> riqueza “semântica” Adaptado de Alessandro Oltramari Diferentes níveis de “precisão”, “rigor”, “estruturação”, “expressividade” Ainda diferentes níveis de “precisão” -> riqueza “semântica” “Ontologias” RDF(S) OWL(S) OntoUML Expectativas com relação à semântica eats plant is-a tree herbivore is-a is-part-of is-a horse is-a canadian horse leave mapple Expectativas com relação à semântica eats is-a is-a is-a is-a is-part-of Expectativas com relação à semântica • De qualquer forma, nós ainda estamos dependendo da construção de consenso negociado através da linguagem natural • O objetivo é reduzir nossa dependência da informalidade • E construir uma ferramenta que permita que: – Aquele que crie o modelo conceitual expresse as distinções conceituais relevantes para o domínio – E aquele que leia o modelo consiga extrair as distinções conceituais relevantes para o domínio • Essencial para Dados Abertos W3C ORG Ontology Triplas e Grafos RDF na Web http://www.w3.org/TR/rdf11-primer Triplas e Grafos RDF na Web - IRIs http://dbpedia.org/resource/Leonardo_d a_Vinci http://xmlns.com/foaf/0.1/maker http://purl.org/dc/terms/creator https://www.wikidata.org/wiki/Q12418 http://www.w3.org/TR/rdf11-primer Estudo (Bassetti, Azevedo, Almeida, 2014) • Servidores Civis (Servidores e Remuneração Novembro/2013) – Autor: Ministério do Planejamento, Banco Central, Comandos Militares, MRE, DPF, RFB, MAPA, DEST e Ministérios [Honorários (Jetons)] – Disponível em: http://www.portaltransparencia.gov.br/downloads/servidores.asp • Sistema de Informações Organizacionais do Governo Federal (SIORG) – Autor: Ministério do Planejamento, Orçamento e Gestão (MP) – Disponível em: http://dados.gov.br/dataset/siorg • Unidade Federativas – Autor: Instituto Brasileiro de Geografia e Estatística (IBGE) – Disponível em: http://www.ibge.gov.br/home/geociencias/areaterritorial/principal.shtm Fontes em Formatos Diferentes Abordagem Representação Inconsistente • Representação para Presidência da República na base de dados de Servidores Civis • 20101 – PRESIDENCIA DA REPUBLICA • Representação para Presidência da República na base de dados de Estruturas Organizacionais • 26 – Presidência da República Descrições Inadequadas Falta de Identificação Única Impacto dos Problemas das Bases de Dados no Consumo http://sws.geonames.org/3462386 http://sws.geonames.org/3462386 http://sws.geonames.org/3462386/about.rdf Visão: Web de Dados "Linking Open Data cloud diagram 2014, by Max Schmachtenberg, Christian Bizer, Anja Jentzsch and Richard Cyganiak. http://lod-cloud.net/" Outras informações • • • • • • • W3C Data on the Web Best Practices Working Group W3C Government Linked Data Working Group http://nemo.inf.ufes.br http://vocab.e.gov.br http://eping.governoeletronico.gov.br Linked Open Data Open Government Data Conclusão • Principais desafios são sócio-técnicos • Coordenação de formatos, modelos conceituais subjacentes – Técnicas “semânticas” ou baseadas em ontologias – Processo aberto e colaborativo para construção destes formatos • Investimento na qualidade destes formatos • Investimento na qualidade dos dados • Esforços significativos são necessários por parte do governo – Envolvendo necessariamente investimento em TI pelo seu papel chave neste processo
Documentos relacionados
João Paulo Andrade Almeida – Professor associado da
• No caso de dados governamentais fomentar:
– Transparência a