Pesquisa e Arquivo da Web Portuguesa
Transcrição
Pesquisa e Arquivo da Web Portuguesa
Pesquisa e Arquivo da Web Portuguesa Daniel Gomes FCCN Estrutura da apresentação • 1ª parte – Como surgiu e como funciona o tumba! • 2ª parte – O protótipo de arquivo da web portuguesa Tomba 2 Como surgiu o tumba? • 1999-2000 – Projecto de pesquisa sobre noticias. • 2000-2001 – Projecto de recolha de publicações online com a BN. • 2001 – Tumba!: investigação – 5 pessoas – 4 PCs velhos para suportar o sistema – Problemas para a FCUL • 2002 – Apoio da FCCN, serviço público gratuito • 2006 – Ainda estamos vivos (?!) – Com a ajuda de novos alunos – Grande rotatividade: 17 alunos já passaram pelo projecto 3 Para que tem servido? • Para aprender – Como é que funciona o Google? • Para ensinar – Como é que funciona o Google: • Serviço público com 3 fins – Motor de busca da comunidade portuguesa – Arquivo da Web Portuguesa – Recurso de investigação • Ao vivo em www.tumba.pt 4 5 6 O que aconteceu a seguir ao Enter? • O gnomo verde foi buscar as páginas à web? • Não. 7 Levantando o véu Batedor Repositório Índice Ordenação Apresentação Web Web 8 Batedor (crawler) Sementes (URLs) Crawler Repositório Web Web 9 Recolha • Duas listas: – – URLs por recolher URLs recolhidos 1. 2. 3. 4. Pega num URLA dos URLs por recolher Recolhe e guarda a páginaA no repositório Extrai os URLs dos links da páginaA Insere os novos URLs nos URLs por recolher. 5. Insere o URLA nos URLs recolhidos – Para não voltar lá. 10 Problemas • Milhões de páginas para recolher – Requer muitos computadores e rede • Há pessoas que não gostam das visitas – Robots Exclusion Protocol • A web é um caos – O crawler está sempre a avariar-se. 11 Exemplo: simulem o crawler a extrair links de uma página HTML Dica: os links estão próximos dos href <html> <head> <title>Página de teste</title> <meta http-equiv="Content-Type" content="text/html; charset=iso-88591"> </head> <body> <p>Bem vindos!</p> <p>Experimentem o <a href="http://www.tumba.pt"> motor de busca tumba!</a>.</p> <p>Vejam também a minha <a href="http://xldb.fc.ul.pt/daniel/"> página pessoal</a>.</p> </body> </html> 12 O crawler recolhe 3 páginas http://xldb.fc.ul.pt/teste http://xldb.fc.ul.pt/daniel/ http://www.tumba.pt 13 Exemplo: simulem o crawler a extrair links de um Flash • Não percebem nada? • O crawler também não. • Só o programa da Macromedia é que percebe CWS^F·^U^@^@x<9C>íWy<ÔkÛ¿f1 ÆÈ^^<89>B٥ž¥!Yr,ÉVª#<8D>^X Ù<97>²^\<9A>)ÙJ<92>He;iQ²fP¢"<9 2><9D>B<85>VI²<9B>ßóESCÔ9=<9 F>ç¼ïyÞ¿Þ?Î=<9F>ß|î¹ïïu_ ×÷{]÷=÷Ï^GH<97>^A,$` ^F^L<82><90>±<9B>°^@H^GÒ^M^F À˹<84>{ <89><97><9B><8B><9B><9F><8F> W@XNDXHHXIRz¥<9C>¶<8A>îF^UM^M=<93>Ý^Vz[ì^M54· yZÙ;îs¥ºn2÷^Möq^NÚ½ß<95>ÂZ^Dà ÇÏ/,(¼^Dd=e³æfÊ^?Ý<90>^G ^N<80>aÃÌ7Xl^X,^NÏF`'r<90>8Q@!/` 18^\^V<8F>ccÃãÑÙ0t^^ð|lü«<94>ô ^BVNì«}<97>*^_9 <9D>N<94>Ü|«Jpû³^Q)<95>}~ 14 O crawler recolhe apenas 1 página http://www.hpinformatica.net/menu.swf ./servicos.html ./produtos.html ./contactos.html • Estas páginas não são recolhidas • Não aparecem nos resultados dos motores de busca 15 Indexação Crawler Repositório Índice Ordenação Apresentação Web Web • Para acelerar, as pesquisas são feitas sobre índices e não sobre as páginas armazenadas 16 Índice remissivo de um livro Termo Páginas Arquivo.........4, 10, 12, 99, 123 Biblioteca......1, 11, 20, 33 Correio..........32, 54, 94 ... 17 Motor de busca: Índice remissivo da web Termo Páginas (URLs) Arquivo.........1,188 milhões Biblioteca......301 mil Correio..........303 mil ... • Mesmo o índice é muito grande • E tem de ser rápido! Porque os utilizadores esperam apenas alguns segundos pela resposta a uma pesquisa 18 E agora? 19 Dividir para conquistar • Construção do índice – Dividem-se as páginas por várias máquinas – Cada máquina • Extrai o texto das suas páginas • Constrói um índice • Responde a parte das pesquisas 20 Quando se pesquisa Tumba! arquivo da web portuguesa Servidor 1 arquivo Índice A-H Servidor 2 Servidor Web portuguesa Browser Índice I-Q Servidor 3 Então e o “da”? -Stop-words -Ocupam muito espaço -Sem significado web Índice R-Z 21 Software Plataforma: • Linux • Oracle – meta-dados • BerkeleyDB – índices • Hsql – crawlers • Httpd, tomcat, struts • Wiki • CVS • Bugzilla Linguagens: • Java • C++ • Perl, bash scripts, SQL 22 Hardware do tumba! • Computadores – 6 chaços (P200, 128 MB) – 10 servidores (com uns aninhos) • Internet: FCCN 30 Mbps ATM • Rede local: 1 Gbps (recente) 23 Desempenho do Tumba! • Até 20 000 queries /dia • 10 milhões de documentos – a maior recolha da web portuguesa! • 95% respondidas em menos de 0.5 seg. – com 3 servidores 24 Como obter os melhores resultados na primeira página? Batedor Repositório Índice Ordenação Apresentação Web Web 25 Documentos no índice com os termos da pesquisa Documentos ordenados por relevância! 26 Como se calcula a relevância? Combinação de vários factores PageRank Tamanho do documento Frequência no documento Partes Importantes do documento Frequência na Web 27 Exemplos de heurísticas • > frequência do termo pesquisado num documento • > relevância • > frequência do termo pesquisado em partes importantes da página (ex: o título): > relevância • > PageRank de um documento: > relevância. 28 O que é o PageRank? Medida de importância de uma página na Web dada pelo numero de links Quantos mais links, maior o PageRank! 29 Como se mede a relevância • • a n i b m Quanto maior a frequência de um termo da pesquisa num o c e u q a l documento, maior a relevância. u s rm o o r f t e a m m â u r a a d p s sa e t U s e s Quanto maior ao frequência de um termo da pesquisa na Web, o d t menor a relevância. • • • Quanto maior for documento em número de palavras, menor a relevância. s e t n a v e l e r s i ! a r a m g s u l to o a relevância n r i e e m m u i Quanto maior oo PageRank de um documento, maior r p D c m e s o d a n r o t e r Quanto maior a frequência de um termo da pesquisa em partes importantes da página (ex: o título), maior a relevância 30 Problemas com lista ordenada de resultados • Pesquisas com vários “sentidos” possíveis – Jaguar (o animal ou o carro desportivo) – Benfica (o clube de futebol ou o local) –… • Problema para as vossas pósgraduações. – Clustering – Semantic Web e Ontologias – Resultados personalizados 31 2ª parte: Arquivo da Web Portuguesa A era digital começou (já há alguns anos) • A Web é a maior fonte de informação construída – Todos os géneros de publicações: jornais, livros, documentação técnica – Cada vez mais informação publicada exclusivamente na Web • A informação na Web é efémera – Gerações futuras poderão testemunhar uma “Idade das Trevas” digital • Temos que começar a arquivar – Propósitos históricos – Dados para investigação – Provas em casos judiciais 33 Requisitos de um arquivo da Web • A forma de arquivo tradicional requer demasiada intervenção humana – Não é compatível com a dimensão da Web • Recolha e armazenamento automático – Intervenção humana mínima • Dispendioso em larga escala – Internet Archive (www.archive.org) 34 Arquivos web nacionais • Dividir para conquistar – Cada país arquiva a sua web • São necessários critérios para definir limites das webs nacionais • São necessárias arquitecturas de sistema e software específico para suportar o arquivo da web 35 Estrutura da apresentação – Introdução • Critérios de selecção de conteúdos para arquivo • Tomba: um protótipo de arquivo da web portuguesa • Conclusões 36 Métodos de colecção de conteúdos • Entrega: publicadores enviam conteúdos para o arquivo – Caro para os publicadores – Imposição difícil – Escassez de ferramentas e normas • Recolha: arquivo recolhe activamente os conteúdos dos sítios web dos publicadores – Mais carga no arquivo – Critérios de selecção automática podem ser complexos 37 Critérios de selecção para um motor de busca nacional • Objectivo: disponibilizar resultados relevantes e actuais • Critério de selecção abrangente – Conteúdos sob o domínio .PT – Conteúdos referenciados por .PT e escritos em português. • Um motor de busca confia nos mecanismos de ordenação para excluir resultados irrelevantes das pesquisas • A colecção web é actualizada periodicamente 38 Critério de selecção para um arquivo web nacional • Objectivo: preservar dados web para o futuro • Critério de selecção mais restrito • Colecção web construída incrementalmente – Tentar poupar espaço – Requisitos de preservação • Que critério de selecção adoptar neste contexto? 39 Avaliação de critérios de selecção para uma arquivo web nacional • • Conjunto de controlo: recolha da web portuguesa para o motor de busca tumba! Avaliar cobertura de critérios de selecção baseados em requisitos de arquivistas – Critérios mais restritos que para os motores de busca para evitar gastar recursos no arquivo de conteúdos irrelevantes 1. 2. 3. 4. ccTLD Media types Blogs Robots Exclusion Protocol 40 1. Restrição ao ccTLD • Country code Top Level Domains têm um âmbito nacional – www.tumba.pt, .PT é o ccTLD de Portugal • Implementação fácil e “leve” • As pessoas também usam gTLDs (.com, .net, .org): razões comerciais, baratos, registo rápido. • 49% dos conteúdos da web portuguesa estão alojados sob .PT 41 2. Selecção de tipos • Formatos de publicação mudam ao longo do tempo mas a informação tem de ser preservada – TXT->HTML->XHTML->? • Estratégias de preservação de acordo com os tipos dos conteúdos – Formatos abertos: conversão – Formatos proprietários: emulação • Custos de preservação de acordo com a diversidade de formatos 42 Distribuição de formatos MIME text/html image/jpeg image/gif application/pdf text/plain Others • Tam. médio (KB) %conteúdos 24 61.2% 32 22.6% 9 11.4% 327 1.6% 102 0.7% 2.5% Preservar HTML, JPEG e GIF cobrem 95% da Web portuguesa 43 3. Os blogs devem ser arquivados? • Relevância histórica? – Adolescentes usam-nos como meio de comunicação – Um deles poderá ser o próximo Presidente • Identificação de blogs pelo nome do site • 15.5% são blogs – 63% sob blogspot.com – 33% alojados sob .PT 44 4. Ignorar mecanismos de exclusão • Arquivos web usam robots (batedores) para recolher conteúdos • O Robots Exclusion Protocol permite aos publicadores proibir as recolhas • Interesse público deverá sobrepôr-se ao privado • Robots Exclusion Protocol na web portuguesa – 19.5% dos sítios continham o robots.txt – 0.3% proibiam a recolha – Pode evitar que um batedor fique “preso” 45 Estrutura da apresentação – Introdução – Critérios de selecção de conteúdos para arquivo • Tomba: um protótipo de arquivo da web portuguesa • Conclusões 46 Requisitos do Tomba • Meta-dados que permitam preservar e aceder à informação • Gestão de colecção incremental • Eliminação de duplicados • Acessibilidade à informação por pessoas e máquinas • Ferramentas de gestão e preservação 47 Arquitectura do Tomba Gatherer Repository Loader Web collections Catalog selection criteria Web Web Searcher URL history Term search Crawler Volumes archived data Page Flashback User Preserver Dumper Converter Manager Replicator Archivist 48 Interface do Tomba (tomba.tumba.pt) 49 Funcionalidades e dificuldades • Pesquisa de URL aliases – dlib.org, www.dlib.org, dlib.org/index.html • Alteração de conteúdos para: – Reproduzir conteúdo original – Permitir navegação • Corrigir meta-dados errados – O formato correcto pode não ser identificável 50 Dados arquivados no protótipo • Recolhidos da web portuguesa e migrados de recolhas do tumba! • Conteúdos maioritariamente textuais • Intervalo de tempo de 4 anos (2002-2006) • 57 milhões de conteúdos,1.5 TB de dados 51 Conclusões • Um motor de busca e um arquivo da web têm requisitos diferentes • Não existe um critério único para delimitar uma web nacional • A web portuguesa – Espalhada fora do domínio .PT – Preservar conteúdos de apenas 3 formatos cobre a maioria da web – Os blogs têm uma presença muito significativa – Ignorar mecanismos de exclusão tem pouco impacto na cobertura e pode ser perigoso • Desenhar uma interface de pesquisa sobre um arquivo web é complexo • Os arquivos precisam de serviços de pesquisa eficientes ou a informação arquivada “morre” por estar inacessível 52 Obrigado pela atenção. Daniel Gomes [email protected] [email protected]