Robots.txt na indexação de sites

Transcrição

Robots.txt na indexação de sites
Robots.txt na indexação de sites Existe um arquivo específico que é procurado pelas ferramentas de busca para saber quais partes do site não devem ser indexados. É o “robots.txt“. Ele deve ser colocar no diretório raiz do site e é o primeiro arquivo que os bots de busca procuram em um site. Nele você pode escolher os diretórios e arquivos que você deseja excluir das ferramentas de busca. O uso mais comum é evitar indexação de páginas logadas ou que possuam arquivos privados. Este é um exemplo de arquivo que impediria a indexação do site inteiro por todas as ferramentas de busca: User‐agent: * Disallow: / O asterisco significa “tudo”, ou seja, todos os bots de busca devem seguir as regras abaixo. Um exemplo prático seria evitar a indexação de pastas do seu site que tem programas ou partes privadas. O exemplo abaixo evitaria a indexação de quatro diretórios. User‐agent: * Disallow: /cgi‐bin/ #scripts e programas Disallow: /logado/ Disallow: /tmp/ #parte de testes Disallow: /private/ #arquivos da empresa O sinal de tralha serve para comentários como informar o motivo da exclusão. O comentário não influencia em nada o bot, porém serve para facilitar o entendimento do motivo da exclusão para a equipe que administra o site. Se um site não tiver este arquivo, a ferramenta de busca irá indexar normalmente o seu site. Se preferir, você pode criar o arquivo “robots.txt” que permite a indexação total: User‐agent: * Disallow: Você pode criar regras específicas para cada bot de busca. Para isto basta trocar o asterisco do User‐agent pelo nome do bot. Cada bot ou spider tem um nome específico. Eles também são conhecidos como agentes. O agente do Google é o Googlebot, o do Yahoo! é o Slurp e o da MSN Busca é o MSNBot. Existem bots também para imagens por exemplo. O do Google é o Googlebot‐Image, o do Yahoo é o yahoo‐
mmcrawler e o da MSN Busca o psbot. Um exemplo para excluir a indexação do Google seria: User‐agent: Googlebot Disallow: / Com isto, nada do site seria indexado pelo Google, mas outras ferramentas poderiam indexar normalmente. O Robots.txt é extremamente útil, pois permite a retirada automatizada de páginas e do conteúdo de um site das páginas de resultado dos sites de busca. Ele também é bastante flexível permitindo que várias regras sejam aplicadas no mesmo arquivo garantindo comportamento distinto entre os bots.