Robots.txt gebruik je om aan een zoekmachine te vertellen welke pagina’s deze niet mag crawlen. Dit doe je door in de root van je website het bestand robots.txt te plaatsen (bijv.: http://www.google.com/robots.txt). De robots die het internet crawlen om websites te indexeren luisteren vervolgens naar de instructies die in dit bestand staan. Robots lezen dit bestand regel voor regel en volgen de instructies op. Er kunnen regels ingesteld worden die voor alle robots gelden, maar regels kunnen ook specifiek voor één bepaalde robot gemaakt worden.
De syntax van robots.txt
Robots.txt heeft een hele eenvoudige syntax waardoor het voor iedereen gemakkelijk is om deze te gebruiken. De officiële syntax bestaat eigenlijk uit maar twee commando’s:
User-agent: – geeft aan voor welke robots de daarop volgende regels gelden
Disallow: – verbiedt om de genoemde URL’s te crawlen
Iedere URL moet hierbij op een aparte regel geplaatst worden. Het is verder belangrijk om te onthouden dat robots hoofdlettergevoelig zijn. Commentaar kan toegevoegd worden door een regel te beginnen met #. Hierdoor wordt alle informatie op die regel genegeerd door de robots.
Uitbreiding van de syntax van robots.txt
Een aantal grotere zoekmachines heeft besloten om de mogelijkheden van robots.txt uit te breiden. Dit hebben ze onder ander gedaan door een aantal reguliere expressies te accepteren en extra commando’s te ondersteunen. De volgende syntax wordt o.a. ondersteund door Google, Yahoo en Bing:
Allow: – staat toe om de genoemde URL’s te crawlen (ondanks een eerdere disallow)
Crawl-delay: – Geeft aan hoeveel seconden er tussen achtereenvolgende server requests moeten zitten
Sitemap: – Geeft de locatie van de sitemap aan
* – matcht een reeks van willekeurige karakters
$ – geeft het einde van een URL aan
Robots
Er zijn heel veel zoekmachines op het internet en dus ook heel veel robots. Een aantal belangrijke robots zijn:
“Googlebot” van Google
“Slurp” van Yahoo
“MSNBot” van Bing
Kijk hier voor een uitgebreide lijst van robots
Voorbeelden
Hele website uitsluiten:
User-agent: *
Disallow: /
Hele website toestaan:
User-agent: *
Disallow:
Hele website uitsluiten voor Yahoo!:
User-agent: Slurp
Disallow: /
Een hele map (en alle onderliggende mappen) blokkeren:
User-agent: *
Disallow: /map/
Een pagina blokkeren:
User-agent: *
Disallow: /pagina.html
Een hele map, behalve één pagina blokkeren:
User-agent: *
Disallow: /map/
Allow: /map/pagina.html
Alle bestanden van een bepaald type uitsluiten:
User-agent: *
Disallow: /*.gif$
Alle URL’s met reguliere expressies blokkeren:
User-agent: *
Disallow: /*?
Commentaar toevoegen:
#De hele website is voor alle robots uitgesloten
User-agent: *
Disallow: /
Locatie van de sitemap aangeven:
Sitemap: http://www.voorbeeld.com/Sitemap.xml

1 juli 2009



