Robots.txt na indexação de sites

Transcrição

Robots.txt na indexação de sites Existe um arquivo específico que é procurado pelas ferramentas de busca para saber quais partes do site não devem ser indexados. É o “robots.txt“. Ele deve ser colocar no diretório raiz do site e é o primeiro arquivo que os bots de busca procuram em um site. Nele você pode escolher os diretórios e arquivos que você deseja excluir das ferramentas de busca. O uso mais comum é evitar indexação de páginas logadas ou que possuam arquivos privados. Este é um exemplo de arquivo que impediria a indexação do site inteiro por todas as ferramentas de busca: User‐agent: * Disallow: / O asterisco significa “tudo”, ou seja, todos os bots de busca devem seguir as regras abaixo. Um exemplo prático seria evitar a indexação de pastas do seu site que tem programas ou partes privadas. O exemplo abaixo evitaria a indexação de quatro diretórios. User‐agent: * Disallow: /cgi‐bin/ #scripts e programas Disallow: /logado/ Disallow: /tmp/ #parte de testes Disallow: /private/ #arquivos da empresa O sinal de tralha serve para comentários como informar o motivo da exclusão. O comentário não influencia em nada o bot, porém serve para facilitar o entendimento do motivo da exclusão para a equipe que administra o site. Se um site não tiver este arquivo, a ferramenta de busca irá indexar normalmente o seu site. Se preferir, você pode criar o arquivo “robots.txt” que permite a indexação total: User‐agent: * Disallow: Você pode criar regras específicas para cada bot de busca. Para isto basta trocar o asterisco do User‐agent pelo nome do bot. Cada bot ou spider tem um nome específico. Eles também são conhecidos como agentes. O agente do Google é o Googlebot, o do Yahoo! é o Slurp e o da MSN Busca é o MSNBot. Existem bots também para imagens por exemplo. O do Google é o Googlebot‐Image, o do Yahoo é o yahoo‐
mmcrawler e o da MSN Busca o psbot. Um exemplo para excluir a indexação do Google seria: User‐agent: Googlebot Disallow: / Com isto, nada do site seria indexado pelo Google, mas outras ferramentas poderiam indexar normalmente. O Robots.txt é extremamente útil, pois permite a retirada automatizada de páginas e do conteúdo de um site das páginas de resultado dos sites de busca. Ele também é bastante flexível permitindo que várias regras sejam aplicadas no mesmo arquivo garantindo comportamento distinto entre os bots.

Robots.txt na indexação de sites

Transcrição

Documentos relacionados

Converge LCM Solution

bibloo - buscador web especializado em livros com uma eficiente

pdf file - PUC Rio

RELATÓRIO DE ESTÁGIO NA TELEVISÃO VERDES MARES

Descriç˜ao dos bots no canal IRC #labmacambira

indexação do familysearch 3.4 beta

Bancos de Dados de Imagens

Dicas Gerais de Segurança na Internet para a Família

Gestao da Documentacao por Imagens um tipo - Sima

Tutorial Básico

Não há um movimento terrorista gerido por computadores

Glossário - FamilySearch.org

Imprimir artigo

as linguagens de indexação em bibliotecas nacionais, arquivos

CONEXÃO DOMÉSTICA – GOOGLE CHROME 1

Baixar o kit de mídia

Correntes teóricas do tratamento temático da informaçâo

Configuração do Google Earth

Sistema Inteligente para Auxílio na Seleção e Execução de Tarefas

Indexação social de imagens por meio do Flickr

Desenvolvimento de um Módulo de Indexação para Sistemas de

A nova era das redes de bots