Pesquisa e Arquivo da Web Portuguesa

Transcrição

Pesquisa e Arquivo da Web Portuguesa
Pesquisa e Arquivo da Web
Portuguesa
Daniel Gomes
FCCN
Estrutura da apresentação
• 1ª parte
– Como surgiu e como funciona o tumba!
• 2ª parte
– O protótipo de arquivo da web portuguesa
Tomba
2
Como surgiu o tumba?
• 1999-2000 – Projecto de pesquisa sobre noticias.
• 2000-2001 – Projecto de recolha de publicações online
com a BN.
• 2001 – Tumba!: investigação
– 5 pessoas
– 4 PCs velhos para suportar o sistema
– Problemas para a FCUL
• 2002 – Apoio da FCCN, serviço público gratuito
• 2006 – Ainda estamos vivos (?!)
– Com a ajuda de novos alunos
– Grande rotatividade: 17 alunos já passaram pelo projecto
3
Para que tem servido?
• Para aprender
– Como é que funciona o Google?
• Para ensinar
– Como é que funciona o Google:
• Serviço público com 3 fins
– Motor de busca da comunidade portuguesa
– Arquivo da Web Portuguesa
– Recurso de investigação
• Ao vivo em www.tumba.pt
4
5
6
O que aconteceu a seguir ao
Enter?
• O gnomo verde foi
buscar as páginas à
web?
• Não.
7
Levantando o véu
Batedor
Repositório
Índice
Ordenação Apresentação
Web
Web
8
Batedor (crawler)
Sementes
(URLs)
Crawler
Repositório
Web
Web
9
Recolha
•
Duas listas:
–
–
URLs por recolher
URLs recolhidos
1.
2.
3.
4.
Pega num URLA dos URLs por recolher
Recolhe e guarda a páginaA no repositório
Extrai os URLs dos links da páginaA
Insere os novos URLs nos URLs por
recolher.
5. Insere o URLA nos URLs recolhidos
–
Para não voltar lá.
10
Problemas
• Milhões de páginas para recolher
– Requer muitos computadores e rede
• Há pessoas que não gostam das visitas
– Robots Exclusion Protocol
• A web é um caos
– O crawler está sempre a avariar-se.
11
Exemplo: simulem o crawler a
extrair links de uma página HTML
Dica: os links estão próximos dos href
<html>
<head>
<title>Página de teste</title>
<meta http-equiv="Content-Type"
content="text/html; charset=iso-88591">
</head>
<body>
<p>Bem vindos!</p>
<p>Experimentem o
<a href="http://www.tumba.pt">
motor de busca tumba!</a>.</p>
<p>Vejam também a minha
<a href="http://xldb.fc.ul.pt/daniel/">
página
pessoal</a>.</p>
</body>
</html>
12
O crawler recolhe 3 páginas
http://xldb.fc.ul.pt/teste
http://xldb.fc.ul.pt/daniel/
http://www.tumba.pt
13
Exemplo: simulem o crawler a
extrair links de um Flash
• Não percebem nada?
• O crawler também não.
• Só o programa da Macromedia é que
percebe
CWS^F·^U^@^@x<9C>íWy<ÔkÛ¿f1
ÆÈ^^<89>B٥ž¥!Yr,ÉVª#<8D>^X
Ù<97>²^\<9A>)ÙJ<92>He;iQ²fP¢"<9
2><9D>B<85>VI²<9B>ßóESCÔ9=<9
F>ç¼ïyÞ¿Þ?Î=<9F>ß|î¹ïïu_
×÷{]÷=÷Ï^GH<97>^A,$`
^F^L<82><90>±<9B>°^@H^GÒ^M^F
À˹<84>{
<89><97><9B><8B><9B><9F><8F>
W@XNDXHHXIRz¥<9C>¶<8A>îF^UM^M=<93>Ý^Vz[ì^M54·
yZÙ;îs¥ºn2÷^Möq^NÚ½ß<95>ÂZ^DÃ
ÇÏ/,(¼^Dd=e³æfÊ^?Ý<90>^G
^N<80>aÃÌ7Xl^X,^NÏF`'r<90>8Q@!/`
18^\^V<8F>ccÃãÑÙ0t^^ð|lü«<94>ô
^BVNì«}<97>*^_9
<9D>N<94>Ü|«Jpû³^Q)<95>}~
14
O crawler recolhe apenas 1 página
http://www.hpinformatica.net/menu.swf
./servicos.html
./produtos.html
./contactos.html
• Estas páginas não são recolhidas
• Não aparecem nos resultados dos motores de busca
15
Indexação
Crawler
Repositório
Índice
Ordenação Apresentação
Web
Web
• Para acelerar, as pesquisas são feitas sobre índices e
não sobre as páginas armazenadas
16
Índice remissivo de um livro
Termo
Páginas
Arquivo.........4, 10, 12, 99, 123
Biblioteca......1, 11, 20, 33
Correio..........32, 54, 94
...
17
Motor de busca: Índice remissivo
da web
Termo
Páginas (URLs)
Arquivo.........1,188 milhões
Biblioteca......301 mil
Correio..........303 mil
...
• Mesmo o índice é muito grande
• E tem de ser rápido! Porque os utilizadores
esperam apenas alguns segundos pela
resposta a uma pesquisa
18
E agora?
19
Dividir para conquistar
• Construção do índice
– Dividem-se as páginas por várias máquinas
– Cada máquina
• Extrai o texto das suas páginas
• Constrói um índice
• Responde a parte das pesquisas
20
Quando se pesquisa
Tumba!
arquivo da web
portuguesa
Servidor 1
arquivo
Índice
A-H
Servidor 2
Servidor Web
portuguesa
Browser
Índice
I-Q
Servidor 3
Então e o “da”?
-Stop-words
-Ocupam muito espaço
-Sem significado
web
Índice
R-Z
21
Software
Plataforma:
• Linux
• Oracle – meta-dados
• BerkeleyDB – índices
• Hsql – crawlers
• Httpd, tomcat, struts
• Wiki
• CVS
• Bugzilla
Linguagens:
• Java
• C++
• Perl, bash scripts, SQL
22
Hardware do tumba!
• Computadores
– 6 chaços (P200, 128 MB)
– 10 servidores (com uns aninhos)
• Internet: FCCN 30 Mbps ATM
• Rede local: 1 Gbps (recente)
23
Desempenho do Tumba!
• Até 20 000 queries /dia
• 10 milhões de documentos – a maior
recolha da web portuguesa!
• 95% respondidas em menos de 0.5 seg. –
com 3 servidores
24
Como obter os melhores
resultados na primeira página?
Batedor
Repositório
Índice
Ordenação Apresentação
Web
Web
25
Documentos no índice com
os termos da pesquisa
Documentos ordenados
por relevância!
26
Como se calcula a relevância?
Combinação de vários factores
PageRank
Tamanho
do
documento
Frequência
no
documento
Partes
Importantes
do
documento
Frequência
na Web
27
Exemplos de heurísticas
• > frequência do termo pesquisado num
documento
• > relevância
• > frequência do termo pesquisado em
partes importantes da página (ex: o título):
ƒ > relevância
• > PageRank de um documento:
ƒ > relevância.
28
O que é o PageRank?
Medida de importância de uma página na Web
dada pelo numero de links
Quantos mais links, maior o PageRank!
29
Como se mede a relevância
•
•
a
n
i
b
m
Quanto maior a frequência de um termo da
pesquisa
num
o
c
e
u
q
a
l
documento, maior a relevância.
u
s
rm
o
o
r
f
t
e
a
m
m
â
u
r
a
a
d
p
s
sa
e
t
U
s
e
s
Quanto maior ao
frequência
de um termo da pesquisa na Web,
o
d
t
menor a relevância.
•
•
•
Quanto maior for documento em número de palavras, menor a
relevância.
s
e
t
n
a
v
e
l
e
r
s
i
!
a
r
a
m
g
s
u
l
to
o a relevância
n
r
i
e
e
m
m
u
i
Quanto maior oo
PageRank
de
um
documento,
maior
r
p
D c
m
e
s
o
d
a
n
r
o
t
e
r
Quanto maior a frequência de um termo da pesquisa em partes
importantes da página (ex: o título), maior a relevância
30
Problemas com lista ordenada
de resultados
• Pesquisas com vários “sentidos” possíveis
– Jaguar (o animal ou o carro desportivo)
– Benfica (o clube de futebol ou o local)
–…
• Problema para as vossas pósgraduações.
– Clustering
– Semantic Web e Ontologias
– Resultados personalizados
31
2ª parte: Arquivo da Web
Portuguesa
A era digital começou
(já há alguns anos)
• A Web é a maior fonte de informação construída
– Todos os géneros de publicações: jornais, livros, documentação
técnica
– Cada vez mais informação publicada exclusivamente na Web
• A informação na Web é efémera
– Gerações futuras poderão testemunhar uma “Idade das Trevas”
digital
• Temos que começar a arquivar
– Propósitos históricos
– Dados para investigação
– Provas em casos judiciais
33
Requisitos de um arquivo da Web
• A forma de arquivo tradicional requer
demasiada intervenção humana
– Não é compatível com a dimensão da Web
• Recolha e armazenamento automático
– Intervenção humana mínima
• Dispendioso em larga escala
– Internet Archive (www.archive.org)
34
Arquivos web nacionais
• Dividir para conquistar
– Cada país arquiva a sua web
• São necessários critérios para definir
limites das webs nacionais
• São necessárias arquitecturas de sistema
e software específico para suportar o
arquivo da web
35
Estrutura da apresentação
– Introdução
• Critérios de selecção de conteúdos para
arquivo
• Tomba: um protótipo de arquivo da web
portuguesa
• Conclusões
36
Métodos de colecção de conteúdos
• Entrega: publicadores enviam conteúdos para o
arquivo
– Caro para os publicadores
– Imposição difícil
– Escassez de ferramentas e normas
• Recolha: arquivo recolhe activamente os
conteúdos dos sítios web dos publicadores
– Mais carga no arquivo
– Critérios de selecção automática podem ser
complexos
37
Critérios de selecção para um
motor de busca nacional
• Objectivo: disponibilizar resultados relevantes e
actuais
• Critério de selecção abrangente
– Conteúdos sob o domínio .PT
– Conteúdos referenciados por .PT e escritos em
português.
• Um motor de busca confia nos mecanismos de
ordenação para excluir resultados irrelevantes
das pesquisas
• A colecção web é actualizada periodicamente
38
Critério de selecção para um
arquivo web nacional
• Objectivo: preservar dados web para o
futuro
• Critério de selecção mais restrito
• Colecção web construída
incrementalmente
– Tentar poupar espaço
– Requisitos de preservação
• Que critério de selecção adoptar neste
contexto?
39
Avaliação de critérios de selecção
para uma arquivo web nacional
•
•
Conjunto de controlo: recolha da web
portuguesa para o motor de busca tumba!
Avaliar cobertura de critérios de selecção
baseados em requisitos de arquivistas
–
Critérios mais restritos que para os motores de
busca para evitar gastar recursos no arquivo de
conteúdos irrelevantes
1.
2.
3.
4.
ccTLD
Media types
Blogs
Robots Exclusion Protocol
40
1. Restrição ao ccTLD
• Country code Top Level Domains têm um
âmbito nacional
– www.tumba.pt, .PT é o ccTLD de Portugal
• Implementação fácil e “leve”
• As pessoas também usam gTLDs (.com,
.net, .org): razões comerciais, baratos,
registo rápido.
• 49% dos conteúdos da web portuguesa
estão alojados sob .PT
41
2. Selecção de tipos
• Formatos de publicação mudam ao longo do
tempo mas a informação tem de ser preservada
– TXT->HTML->XHTML->?
• Estratégias de preservação de acordo com os
tipos dos conteúdos
– Formatos abertos: conversão
– Formatos proprietários: emulação
• Custos de preservação de acordo com a
diversidade de formatos
42
Distribuição de formatos
MIME
text/html
image/jpeg
image/gif
application/pdf
text/plain
Others
•
Tam. médio (KB) %conteúdos
24
61.2%
32
22.6%
9
11.4%
327
1.6%
102
0.7%
2.5%
Preservar HTML, JPEG e GIF cobrem 95% da Web portuguesa
43
3. Os blogs devem ser arquivados?
• Relevância histórica?
– Adolescentes usam-nos como meio de
comunicação
– Um deles poderá ser o próximo Presidente
• Identificação de blogs pelo nome do site
• 15.5% são blogs
– 63% sob blogspot.com
– 33% alojados sob .PT
44
4. Ignorar mecanismos de exclusão
• Arquivos web usam robots (batedores) para
recolher conteúdos
• O Robots Exclusion Protocol permite aos
publicadores proibir as recolhas
• Interesse público deverá sobrepôr-se ao privado
• Robots Exclusion Protocol na web portuguesa
– 19.5% dos sítios continham o robots.txt
– 0.3% proibiam a recolha
– Pode evitar que um batedor fique “preso”
45
Estrutura da apresentação
– Introdução
– Critérios de selecção de conteúdos para
arquivo
• Tomba: um protótipo de arquivo da web
portuguesa
• Conclusões
46
Requisitos do Tomba
• Meta-dados que permitam preservar e
aceder à informação
• Gestão de colecção incremental
• Eliminação de duplicados
• Acessibilidade à informação por pessoas
e máquinas
• Ferramentas de gestão e preservação
47
Arquitectura do Tomba
Gatherer
Repository
Loader
Web
collections
Catalog
selection
criteria
Web
Web
Searcher
URL history
Term search
Crawler
Volumes
archived
data
Page Flashback
User
Preserver
Dumper Converter
Manager Replicator
Archivist
48
Interface do Tomba (tomba.tumba.pt)
49
Funcionalidades e dificuldades
• Pesquisa de URL aliases
– dlib.org, www.dlib.org, dlib.org/index.html
• Alteração de conteúdos para:
– Reproduzir conteúdo original
– Permitir navegação
• Corrigir meta-dados errados
– O formato correcto pode não ser identificável
50
Dados arquivados no protótipo
• Recolhidos da web portuguesa e migrados
de recolhas do tumba!
• Conteúdos maioritariamente textuais
• Intervalo de tempo de 4 anos (2002-2006)
• 57 milhões de conteúdos,1.5 TB de dados
51
Conclusões
• Um motor de busca e um arquivo da web têm requisitos
diferentes
• Não existe um critério único para delimitar uma web
nacional
• A web portuguesa
– Espalhada fora do domínio .PT
– Preservar conteúdos de apenas 3 formatos cobre a maioria da
web
– Os blogs têm uma presença muito significativa
– Ignorar mecanismos de exclusão tem pouco impacto na
cobertura e pode ser perigoso
• Desenhar uma interface de pesquisa sobre um arquivo
web é complexo
• Os arquivos precisam de serviços de pesquisa eficientes
ou a informação arquivada “morre” por estar inacessível
52
Obrigado pela atenção.
Daniel Gomes
[email protected]
[email protected]