João Paulo Andrade Almeida – Professor associado da

Transcrição

João Paulo Andrade Almeida – Professor associado da
Interoperabilidade
Semântica de
Dados Governamentais
Prof. Dr. João Paulo A. Almeida
([email protected])
http://nemo.inf.ufes.br
Departamento de Informática
Universidade Federal do Espírito Santo
Em colaboração com
Archimedes A. Detoni (doutorando)
Lucas Bassetti (mestrando)
e Prof. Dr. Ricardo Falbo
Agenda
•  Visão:Ondequeremoschegar…?
– Aprofundamentoda
“sociedadedainformação”
•  Diagnós<co:Ondeestamos…?
– Dadosgovernamentais
•  Desafios:Oqueprecisamosfazer…?
– Atençãoàsemân<ca
Visão:Ondequeremoschegar…?
•  Aprofundamentoda
“sociedadedainformação”
Visão:Ondequeremoschegar…?
•  Aprofundamentoda
“sociedadedainformação”
21/06/1988
Visão:Ondequeremoschegar…?
•  Teracessoadadosproduzidosporumaenormidadede
fontes(inclusivegovernamentais,mastambémda
sociedadecivil,doscidadão)
•  Ligaroucombinardadosproduzidosdasváriasfontes
•  Produziroupublicardados
–  sobreabsolutamentequalquercoisaquesejadointeresse
•  Princípiobásico:
•  Usodosdadosmuitoalémdopropósitooriginalparasua
coleção
•  combinaçõesdepotencial“infinito”
Visão:Ondequeremoschegar…?
•  Nocasodedadosgovernamentaisfomentar:
–  Transparênciaa<va
–  Pesquisaacadêmicaejornalismodedados
–  FormulaçãodepolíFcaspúblicasetomadade
decisãocombaseemevidências
–  ParFcipaçãodecidadãosedosetorprivado
Visão:…queremossaber!
•  Ondefoipararomeudinheiro?
•  Qualomelhorinves<mentoparaorecursopúblico?
•  Osprofessoresdaeducaçãobásicaemdiferentesunidades
dafederaçãotemsaláriosdiferentes?
–  Istolevaadesempenhodiferenteemtesteseducacionais?
•  Qualarelaçãoentrecriminalidadeeiluminaçãopública?
•  Qualarelaçãoentresaúdeesaneamentobásico?
–  Pordoença?
–  Porregiãogeográfica?
–  PorIDH?
•  Etc.,etc.,etc.
Diagnós<co:Ondeestamos?
•  Umainfinidadede“ilhas”desistemasdeinformação
•  Sónocasogovernamental:
– 
– 
– 
– 
Diferentesesferas(federal,estadual,municipal)
Diferentespoderes(execu<vo,legisla<vo,judiciário)
Diferentesórgãoscomcomplexaestruturaorganizacional
Cadaqualmantendoinformaçõesdiferentes,porém
complementares
•  Sobresaúde,segurançapública,economia,educação,mobilidade
urbana,etc.etc.eetc.
–  Cadaqualcomseus“formatos”dedados
•  Nãopadronizados
•  Poucooumaldocumentados
•  DesarFculados
Diagnós<co:…nomeiodocaminho!
•  LeideAcessoaInformaçãode2011
“Ossí<os[…]deverão[…]atender,entreoutros,aosseguintes
requisitos:
I-conterferramentadepesquisadeconteúdo[…]
II-possibilitaragravaçãoderelatóriosemdiversosformatos
eletrônicos,inclusiveabertosenãoproprietários,taiscomo
planilhasetexto,demodoafacilitaraanálisedas
informações;
III-possibilitaroacessoautomaFzadoporsistemasexternos
emformatosabertos,estruturadoselegíveispormáquina;
IV-divulgaremdetalhesosformatosuFlizadospara
estruturaçãodainformação;“
Diagnós<co:…nomeiodocaminho!
•  Nãoháum“formatodedadosabertos”
•  Hánaverdade“meta-formatos”
• 
• 
• 
• 
• 
CSV(CommaSeparatedValues)
XML(ExtensibleMarkupLanguage) JSON(JavaScriptObjectNota<on)
RDF(ResourceDescrip<onFramework)
OWL(WebOntologyLanguage)
ExemplodeConsulta:
Despesasagregadasporsubfunção
Downloaddedados
Documentação
AAAAMM_GastosDiretos.csv
201605_GastosDiretos.csv
CódigoÓrgãoSuperior;NomeÓrgãoSuperior;CódigoÓrgãoSubordinado;NomeÓrgão
Subordinado;CódigoUnidadeGestora;NomeUnidadeGestora;CódigoGrupoDespesa;
NomeGrupoDespesa;CódigoElementoDespesa;NomeElementoDespesa;Código
Função;NomeFunção;CódigoSubfunção;NomeSubfunção;CódigoPrograma;Nome
Programa;CódigoAção;NomeAção;LinguagemCidadã;CódigoFavorecido;Nome
Favorecido;NúmeroDocumentoPagamento;GestãoPagamento;DataPagamento;eValor
Pagamento.
52000 MINISTERIODADEFESA
52111 COMANDODAAERONAUTICA
120625 GRUPAMENTODEAPOIODODISTRITOFED
3
Outras
DespesasCorrentes
39
OutrosServiçosdeTerceiros-PessoaJurídica
05
DefesaNacional 151
DefesaAérea
2058
DefesaNacional
20XV
OperaçãodoSistemadeControledoEspaçoAéreoBrasileiro-SISCEAB
28151363000147 COMPANHIAESPIRITOSANTENSEDESANEAMENTOCESAN[CESAN]
2016OB807392
00001 31/05/2016
780,16
Semadocumentaçãonãosabemos…
•  Questõessintá<cas:
•  Quaissãoos<posdosdadosemcadacoluna?
•  Existealgumaparteopcional,outodososcampossempre
estarãopresentes?
• 
• 
• 
• 
Maismaisimportante:
Oqueestásendoiden<ficadopelosdados?
Qualéasemân<cadosdados?
Comoestesdadosserelacionamaoutros?
•  Asquestõessemân<cassãoextremamentecomplexasem
domíniostécnicos(comodoorçamento)
Papeldos“formatos”dedados
Convenções de
representação dos dados
Dados
Distância semântica tem que controlada
para comunicação eficaz
Distância semântica (δ)
QUALIDADE das
Convenções de
representação dos dados
Dados
TerminologiaemLinguagemNaturalNãoé
SoluçãoSuficiente
ÁRVORE
Exacerbadonaligação
i
i1
?
?
i
i2
Dados se referem às
mesmas entidades do mundo real?
i1'
?
i2'
AAbordagemSemân<ca:Ontologias
AAbordagemSemân<ca:Ontologias
TriplaseGrafosRDFnaWeb
TriplaseGrafosRDFnaWeb
Enquanto há identificadores
Nos dados eles tem escopo local,
faltam portanto URIs
Exemplo:
http://portaltransparencia.gov.br/empenho/2016NE000031
AbordagemSemân<ca
Ontologia
(OntoUML)
Ontologia
(OWL)
SIAFI
Dados
Triplificados
SIOPI
Triple store
Qual Credor recebeu mais dinheiro?
Qual Subelemento de Despesa com maior valor pago?
Algumasdestasprá<casjáadotadaspelo
governofederal
Visão:WebdeDados
"Linking Open Data cloud diagram 2014, by Max Schmachtenberg, Christian Bizer, Anja Jentzsch
and Richard Cyganiak. http://lod-cloud.net/"
Conclusão
•  Principaisdesafiossãosócio-técnicos
•  Coordenaçãodeformatos,modelosconceituaissubjacentes
–  Técnicas“semân<cas”oubaseadasemontologias
–  Processoabertoecolabora<voparaconstruçãodestes
formatos
•  Inves<mentonaqualidadedestesformatos
•  Inves<mentonaqualidadedosdados
•  Esforçossignifica<vossãonecessáriosporpartedogoverno
–  Envolvendonecessariamenteinves<mentoemTIpeloseu
papelchavenesteprocesso
Outrasinformações • 
• 
• 
• 
h|ps://github.com/LucasBasse}/despesa-orcamentaria
OntologiaemOntoUML,linkparaferramenta
OntologiaemOWL
SPARQLEndpoint,exemplosdeconsultas
• 
• 
• 
• 
• 
• 
• 
W3CDataontheWebBestPrac<cesWorkingGroup
W3CGovernmentLinkedDataWorkingGroup
h|p://nemo.inf.ufes.br
h|p://vocab.e.gov.br
h|p://eping.governoeletronico.gov.br
LinkedOpenData
OpenGovernmentData