LINGUAGEM PARA DESENVOLVIMENTO DE APLICAÇÕES WEB

Transcrição

LINGUAGEM PARA DESENVOLVIMENTO DE APLICAÇÕES WEB
COLÉGIO ESTADUAL DE PARANAVAÍ
PARANÁ
ENSINO FUNDAMENTAL, MÉDIO, NORMAL E PROFISSIONAL
GOVERNO DO ESTADO
DISCIPLINA: INTERNET E PROGRAMAÇÃO WEB
1º MÓDULO SUBSEQUENTE
CURSO TÉCNICO EM INFORMÁTICA
MECANISMOS DE BUSCA
Introdução
Desde o surgimento da Internet, ela vem se propagando cada vez mais atingindo um
número surpreendente de usuários, ao mesmo tempo em que essa necessidade faz surgir
novas tecnologias para o avanço da mesma, além de mais e mais conteúdos para ser
pesquisado e acessado do conforto do seu lar através do seu computador pessoal. A boa
notícia é que existem centenas de milhões de páginas disponíveis esperando para apresentar
informações em uma impressionante variedade de tópicos. A má notícia sobre a Internet é que
embora existam centenas de milhões de páginas disponíveis, a maioria delas intitulada de
acordo com os caprichos de seus autores, e quase todas elas acomodadas em servidores com
nome criptografados. Quando você precisa saber um assunto qualquer, vai precisar encontrar
uma determinada página na Internet que traz informações sobre o mesmo, e para fazer isso,
você vai precisar de um mecanismo de busca da Internet.
Os mecanismos de busca da Internet são sites especiais, projetados para ajudar as
pessoas a encontrar informações armazenadas nesse vasto mundo virtual da World Wide Web.
Existem diferenças nas maneiras como os vários mecanismos de busca funcionam, mas eles
todos realizam três tarefas básicas, que são:

Eles buscam na Internet, ou selecionam pedaços da Internet, com base em palavras
importantes;

Eles mantêm um índice das palavras que encontram, e onde eles as encontraram;

Eles permitem que os usuários procurem palavras ou combinações de palavras
localizadas nesse índice.
Anualmente são realizadas centenas de bilhões de pesquisas através dos diversos
mecanismos de busca disponíveis na Internet e esse número aumenta acentuadamente ano a
ano, de forma que no topo da lista dos mecanismos de busca, o mais utilizado não poderia
deixar de ser o da Google.
Pág.
1
Prof. João Junior
blog: http://professorjoaojunior.blogspot.com
facebook: www.facebook.com/jr.especialista
e-mail: [email protected]
msn: [email protected]
Os primeiros mecanismos de busca mantinham um índice de algumas centenas de
milhares de páginas e documentos, e recebiam talvez, mil ou duas mil pesquisas por dia. Hoje,
um mecanismo de busca de ponta indexa centenas de milhões de páginas, e responde a
dezenas de milhões de pesquisas por dia.
Quando a maioria das pessoas falam sobre os mecanismos de busca da Internet,
elas, de fato, se referem aos mecanismos de busca da World Wide Web. Antes de a Web se
tornar a parte mais visível da Internet, já existiam mecanismos de busca para ajudar as
pessoas a encontrar informações na Rede. No começo, programas com nomes como "Gopher"
e "Archie" mantinham índices de arquivos armazenados em servidores conectados à Internet e
reduziam drasticamente a quantidade de tempo requerida para encontrar suas pesquisas na
Internet. No final da década de 1980, extrair o máximo valor da Internet significava saber usar o
Gopher, Archie, Veronica e outros.
Base de Funcionamento
Antes de um mecanismo de busca poder dizer a você onde um arquivo ou
documento está, ele primeiramente precisa ser encontrado. Para encontrar informações em
centenas de milhões de páginas da Web, um mecanismo de busca emprega softwares
especiais chamados aranhas, para construir listas de palavras encontradas nos sites. Quando
uma aranha está construindo suas listas, o processo é chamado de rastejamento. Para
construir e manter uma lista útil de palavras, as aranhas de um mecanismo de busca precisam
olhar várias páginas.
O processo inicia-se em pontos iniciais usuais, que são as listas de servidores muito
usados e páginas muito procuradas. A aranha começará por um site popular, indexando as
palavras em suas páginas e seguindo cada link encontrado dentro do site. Dessa forma, o
sistema de aranhas inicia rapidamente a viagem, alastrando-se pelas partes mais amplamente
usadas da Internet.
O Google começou como um mecanismo de busca acadêmico. No documento que
descreve como o sistema foi construído, Sergey Brin e Lawrence Page dão um exemplo do
quão rápido suas aranhas podem funcionar. Eles construíram seu sistema inicial para usar
múltiplas aranhas, geralmente três ao mesmo tempo. Cada aranha poderia manter cerca de
300 conexões com páginas da Web abertas ao mesmo tempo. Em seu desempenho máximo,
usando quatro aranhas, o sistema deles poderia rastejar sobre 100 páginas por segundo,
gerando cerca de 600 kilobytes de dados a cada segundo.
Pág.
2
Prof. João Junior
blog: http://professorjoaojunior.blogspot.com
facebook: www.facebook.com/jr.especialista
e-mail: [email protected]
msn: [email protected]
Manter tudo executando rapidamente significava construir um sistema para alimentar
as informações necessárias para as aranhas. O primeiro sistema do Google tinha um servidor
dedicado a fornecer endereços às aranhas, e também ao invés de depender de um provedor
de serviços da Internet para um servidor de nome de domínio (DNS) que traduz um nome de
servidor em um endereço, o Google tinha seu próprio DNS, para manter os atrasos em
patamares mínimos.
Quando a aranha da Google está em ação, ela olha para uma página HTML e anota
duas coisas fundamentais, que são:

As palavras dentro da página;

Onde as palavras foram encontradas.
As palavras que ocorrem no título, subtítulos, meta tags e outras posições de relativa
importância foram anotadas para consideração especial durante a busca do usuário
subsequente. A aranha do Google foi criada para indexar toda palavra significante em uma
página, desconsiderando os "um", "uma", "o" e "a", já outras aranhas de diferentes
mecanismos de busca, seguem abordagens diferentes e podem considerar essas palavras.
Meta Tags
As meta tags são comandos que permitem aos proprietários de uma página
especificar palavras-chave e determinar sob quais delas a página será indexada. Isso pode ser
útil, especialmente nos casos em que as palavras na página podem ser ambíguas, ou seja, ter
duplo significado, nesse aspecto, as meta tags podem guiar o mecanismo de busca para
escolher qual desses vários possíveis significados para essas palavras é o correto. Existe,
porém, um perigo em se confiar em excesso nas meta tags, porque um dono de página
inescrupuloso ou descuidado pode acrescentar meta tags que se encaixem em tópicos muitos
populares, mas que não tenham nada a ver com o real conteúdo da página. Para se proteger
contra isso, as aranhas correlacionam as meta tags com o conteúdo da página, rejeitando
aquelas que não coincidam com as palavras na página.
Tudo isso presume que o proprietário de uma página, de fato, deseja que essas
palavras sejam incluídas nos resultados das atividades de um mecanismo de busca. Porém,
muitas vezes, o proprietário da página não deseja que ela seja mostrada em um mecanismo de
busca grande, ou não deseja a atividade de uma aranha acessando a página. Considere, por
exemplo, um jogo que cria páginas ativas novas sempre que as seções da página são exibidas,
ou novos links são seguidos. Se uma aranha acessar uma dessas páginas e começar a seguir
Pág.
3
Prof. João Junior
blog: http://professorjoaojunior.blogspot.com
facebook: www.facebook.com/jr.especialista
e-mail: [email protected]
msn: [email protected]
todos os links para novas páginas, o jogo poderia confundir a atividade para um jogador
humano muito veloz e sair de controle. Para evitar situações como essas, um protocolo de
exclusão de aranha foi desenvolvido. Esse protocolo é implementado na seção de meta tags
no início de uma página da Web e diz a uma aranha para deixar a página e não indexar as
palavras na página e nem tentar seguir seus links, literalmente solicitando que a mesma se
retire da página.
Construindo o Índice
Primeiramente devemos notar que essa é uma tarefa de rastejamento de aranha na
Web que nunca é realmente concluída, pois com a natureza constantemente alterável da
Internet, significa que as aranhas precisarão estar sempre rastejando a procura de mudanças
de conteúdos em páginas já visitadas anteriormente.
Mas depois que as aranhas completaram a tarefa de localização das informações
nas páginas da Web o mecanismo de busca deve armazenar as informações de uma forma
que as torne úteis. Existem dois componentes chaves envolvidos na reunião de dados
acessíveis aos usuários, que são:

As informações armazenadas com os dados;

O método pelo qual as informações são indexadas.
No caso mais simples, um mecanismo de busca poderia simplesmente armazenar a
palavra e o endereço onde ela foi encontrada. Na realidade, isso funcionaria para um
mecanismo de uso limitado, já que não haveria maneira de dizer se a palavra foi usada de uma
maneira importante ou trivial em uma página, se ela foi usada uma vez ou muitas vezes ou se a
página continha links para outras páginas contendo a palavra. Em outras palavras, não haveria
maneira de construir a lista de classificação (índice) que tenta apresentar as páginas mais
usadas no topo da lista dos resultados da busca.
Para criar mais resultados úteis, a maioria dos mecanismos de busca armazena
mais do que simplesmente a palavra ou o endereço. Um mecanismo pode armazenar o
número de vezes que a palavra aparece em uma página. O mecanismo pode atribuir um peso
a cada entrada, com valores crescentes atribuídos às palavras à medida que elas aparecem
próximas ao topo do documento, em subtítulos, em links, nas meta tags ou no título da página.
Cada mecanismo de busca comercial tem uma fórmula diferente de atribuir peso às palavras
em seu índice. Essa é uma das razões pelas quais uma busca pela mesma palavra em
Pág.
4
Prof. João Junior
blog: http://professorjoaojunior.blogspot.com
facebook: www.facebook.com/jr.especialista
e-mail: [email protected]
msn: [email protected]
diferentes mecanismos de busca produzirá listas diferentes, com as páginas apresentadas em
ordens diferentes.
Independentemente da combinação, é preciso partes adicionais de informações
armazenadas por um mecanismo de busca, os dados precisam ser codificados para
economizar espaço de armazenamento. Por exemplo, o documento original do Google
descreve o uso de 2 bytes, de 8 bits cada, para armazenar informações sobre a classificação
do peso das palavras, tais como: se a palavra estava em letras maiúscula, seu tamanho de
fonte, posição e outras informações para ajudar na classificação. Cada fator pode consumir até
2 ou 3 bits dentro de um grupamento de 2 bytes (8 bits = 1 byte). Como resultado, uma grande
quantidade de informações pode ser armazenada de uma forma muito compacta. Depois que
as informações são compactadas, elas estão prontas para indexação. Um índice tem o único
propósito de permitir que as informações possam ser encontradas o mais rapidamente
possível.
Como base relativa para criação da tabela de índices, você deve observar, por
exemplo, que existem algumas letras que iniciam muitas palavras, ao passo que outras iniciam
menos palavras, ou seja, você descobrirá, que a seção "M" do dicionário é muito mais grossa
que a seção "X". Essa diferença significa que localizar uma palavra que comece com uma letra
muito popular poderia demorar muito mais do que encontrar uma palavra que comece com
uma letra menos popular. Mas o mecanismo de busca da Google possui métodos que iguala a
diferença e reduz o tempo médio gasto para encontrar uma palavra, dessa forma, a
combinação de indexação eficiente e armazenamento eficaz possibilita a obtenção de dados
mais rapidamente, mesmo quando o usuário cria uma busca complicada.
Construindo uma Busca
Para realizar uma busca na Internet, envolve um usuário criar uma pesquisa e
submetê-la por meio do mecanismo de busca. A pesquisa pode ser bastante simples, com pelo
menos uma palavra ou mais complexa por usuários experientes que pode se utilizar de
operadores, que permitem que você refine e estenda os termos da busca.
Os operadores mais frequentemente utilizados são:

AND: Todos os termos unidos por um "AND" (E) devem aparecer nas páginas ou
documentos. O mecanismo da Google substitui o operador "+" pela palavra AND.

OR: Pelo menos um dos termos unidos por "OR" deve aparecer nas páginas ou
documentos. O mecanismo da Google substitui o operador "|" pela palavra OR.
Pág.
5
Prof. João Junior
blog: http://professorjoaojunior.blogspot.com
facebook: www.facebook.com/jr.especialista
e-mail: [email protected]
msn: [email protected]

NOT: O termo ou termos após "NOT" não devem aparecer nas páginas ou
documentos. O mecanismo da Google substitui o operador "-" pela palavra NOT.

Sinais de aspas: As palavras entre aspas são tratadas como uma frase, e essa frase
deve se encontrar dentro do documento ou arquivo exatamente como foi escrita.
Futuro dos Mecanismos de Busca
As buscas definidas pelos operadores são buscas literais, onde o mecanismo
procura por palavras ou frases exatamente como elas são digitadas. Isso pode ser um
problema quando as palavras digitadas são ambíguas, ou seja, têm vários significados. A
palavra “manga”, por exemplo, pode significar a manga da sua camisa ou uma fruta, assim
como palavras leve, pulo, verão, sela, posto, graça, etc. Se você está interessado em apenas
um desses significados, você pode não desejar ver páginas que apresentem todos os outros.
Você pode construir uma busca literal que tente eliminar significados indesejados, mas é bom
se o próprio mecanismo de busca puder ajudar.
Uma das áreas de pesquisa do mecanismo de busca é a pesquisa baseada em
conceito. Parte dessa pesquisa envolve o uso de análise estatística em páginas que contêm as
palavras ou frases pelas quais você busca para encontrar outras páginas pelas quais você
possa estar interessado. Obviamente, as informações armazenadas sobre cada página são
maiores para um mecanismo de busca baseado em conceito e muito mais processamento é
exigido para cada pesquisa. Muitos grupos estão trabalhando para melhorar ambos, os
resultados e o desempenho desse tipo de mecanismo de busca. Outros prosseguiram em outra
área de pesquisa, chamada pesquisas de linguagem natural.
A idéia por trás das pesquisas de linguagem natural é que você pode digitar uma
pergunta da mesma maneira que perguntaria a um ser humano sentado a seu lado: sem
necessidade de controlar os operadores ou complexas estruturas de pesquisa. Atualmente o
site de pesquisa de linguagem natural mais popular é o Ask.com (em inglês), que analisa a
pesquisa por palavras-chave e depois aplica ao índice de sites que criou. Ele funciona apenas
com pesquisas simples, mas a competição é grande para desenvolver um mecanismo de
pesquisa de linguagem natural que possa aceitar uma pesquisa de grande complexidade.
Pág.
6
Prof. João Junior
blog: http://professorjoaojunior.blogspot.com
facebook: www.facebook.com/jr.especialista
e-mail: [email protected]
msn: [email protected]
Bibliografia
http://informatica.hsw.uol.com.br/mecanismos-de-busca-da-internet.htm
acesso em 07/03/2010
http://www.band.com.br/jornalismo/tecnologia/conteudo.asp?ID=176769
acesso em 17/04/2011
Pág.
7
Prof. João Junior
blog: http://professorjoaojunior.blogspot.com
facebook: www.facebook.com/jr.especialista
e-mail: [email protected]
msn: [email protected]

Documentos relacionados