Veel websites bevatten pagina’s die ze niet terug willen laten komen in de zoekresultaten van zoekmachines. Dit kan verschillende redenen hebben. Het kan bijvoorbeeld een oude pagina zijn met achterhaalde informatie die nog wel te raadplegen moet zijn, het kan informatie zijn die alleen relevant is in een bepaalde context (bijvoorbeeld een bedankpagina), maar het kan ook een pagina zijn die alleen voor een beheerder interessant is (denk aan een testpagina of een inlogscherm). Veel mensen denken dat een pagina of map uitsluiten in robots.txt voldoende is om indexering te voorkomen, dit is echter niet altijd correct. In dit artikel zullen we bespreken hoe je pagina’s om verschillende redenen het beste kunt uitsluiten van indexering in zoekmachines.
Pagina’s uitsluiten voor sommige bezoekers en alle zoekmachines
Wanneer je content hebt die je niet alleen wilt uitsluiten van zoekmachines, maar ook van een deel van je bezoekers kan je deze achter een inlog plaatsen. Alleen gebruikers die ingelogd zijn kunnen vervolgens de beveiligde pagina’s bekijken. Aangezien zoekmachine robots niet kunnen inloggen zullen ze ook niet bij de beveiligde pagina’s kunnen komen. Deze zullen ze dus niet kunnen indexeren. Het inlogscherm zal de robot wel kunnen crawlen en daardoor dus ook indexeren. Hoe je dit kan voorkom bespreken we in het volgende onderdeel.
De inhoud van een pagina uitsluiten via robots.txt
Het is mogelijk dat u de inhoud sommige pagina’s niet wilt laten indexeren in zoekmachines, maar de pagina wel gewoon toegankelijk wilt maken voor bezoekers (ook bezoekers via zoekmachines). Door een pagina uit te sluiten in een robots.txt bestand, kunt u ervoor zorgen dat de zoekmachine robots de pagina niet openen. Hierdoor wordt de inhoud van de pagina niet geïndexeerd en worden links op de pagina ook niet gevolgd. Als er echter links van een andere website naar de betreffende pagina verwijzen, kan de URL wel getoond worden door in de resultaten van zoekmachines. In deze video legt Matt Cutts uit waarom Google dit doet. Het kan dus zo zijn dat een pagina die uitgesloten in robots.txt wél terugkomt in de zoekresultaten van Google. Veel mensen weten dit niet en dit kan nog wel eens tot verwarring en klachten leiden. Het lijkt een vreemde keuze van Google, maar we zullen het moeten respecteren.
Een pagina helemaal uitsluiten van zoekmachines
Google biedt gelukkig zelf wel een alternatief voor het compleet uitsluiten van pagina’s in zoekmachines. Wanneer je een pagina helemaal niet terug wilt laten komen in de index van Google kan je dat doen door dit in de meta robots tag te zetten. Hier kan je twee instructies aan een robot geven: of de pagina wel of niet geïndexeerd moet worden (index of noindex) en of de links op de betreffende pagina gevolgd moeten worden (follow of nofollow). Door aan te geven dat een pagina niet geïndexeerd hoeft te worden, zal deze ook nooit terug komen in de zoekresultaten. Let wel op dat de pagina niet ook nog eens uitgesloten is door robots.txt, want dan leest de zoekmachine robot de meta gegevens helemaal niet en kan de URL dus nog steeds naar voren komen in de zoekresultaten.
Een voorbeeld voor een pagina die niet geïndexeerd mag worden, maar waar de links wel gevolgd mogen worden ziet er dan zo uit:
<meta name=”robots” content=”noindex,follow”>
Een pagina verwijderen uit Google
Een andere manier die Google biedt om pagina’s uit de index van de zoekmachine te halen is via Google Webmaster Tools. Hier heeft u een mogelijkheid om handmatig pagina’s uit de index van Google te verwijderen. Hiervoor moet u echter wel deze pagina uitgesloten hebben in robots.txt of moet de pagina niet meer bestaan en een 404 melding teruggeven. Dit is de snelste methode om geïndexeerde pagina’s uit Google te verwijderen en werkt vaak binnen 24 uur. Verder is deze methode met name handig voor gebruikers die niet bij de meta gegevens van ieder afzonderlijke pagina kunnen komen. De vraag is echter of dit een blijvende oplossing is aangezien Google zelf zegt dat een handmatige verwijdering slechts 90 dagen geldig is. Daarna zal de URL toch terug kunnen komen in de zoekresultaten als er externe links naar verwijzen.
Een oude pagina vervangen door een andere pagina
Wanneer je een pagina wilt verwijderen en er is een nieuwe andere pagina voor in de plaats gekomen dan is er een hele eenvoudige methode om dit door te voeren. Met behulp van een 301 redirect kan je tegen de gebruiker én de zoekmachine robot zeggen dat de betreffende pagina niet meer bestaat en permanent verhuisd is naar een andere locatie. De zoekmachine zal dan automatisch na verloop van tijd de oude pagina vervangen door de nieuwe pagina.
Heeft u nog vragen over het verwijderen van pagina’s uit zoekmachines dan kunt u ook contact met ons opnemen.

7 oktober 2009



