Wij zoeken een PHP programmeur

Verwijderen van informatie uit Google

Verwijderen van informatie uit Google

Ondanks dat de discussie over de beperkte toegankelijkheid van Google in China wat minder in het nieuws is, is de strijd tussen internetgigant Google en China nog steeds volop in gang. Google heeft al meerdere malen aangegeven dat zij sterk geloven in de vrijheid van meningsuiting, ook op het Internet. Zij zien dit als een basisrecht en wil haar bezoekers zo min mogelijk beperken. Toch zijn er bepaalde onderwerpen die Google weert, om diverse redenen. Daarom is het goed om te weten wat Google (met name in Nederland) niet toelaat, zodat u hier rekening mee kunt houden en niet voor verassingen komt te staan. Ook zullen we uitleggen hoe u twijfelachtige informatie of informatie waarvan u niet wilt dat ze gevonden wordt uit Google kunt laten verwijderen en aan welke regels u zich dan moet houden.

Informatie in de zoekmachine van Google

Google heeft tegenwoordig een grote hoeveelheid aan diensten die zij aanbiedt. Naast haar zoekmachine heeft zij onder meer AdWords, Analytics, YouTube en Gmail. Al deze diensten hebben eigen richtlijnen over welke content wel en niet toelaatbaar is. We zullen ons hier echter richten op de zoekmachine van Google.

Van al haar diensten heeft de zoekmachine van Google de minst strenge regels wanneer het op content en informatie aankomt. Google ziet de zoekresultaten als een weerspiegeling van de inhoud van het Internet en daarom wil zij, waar mogelijk, niet ingrijpen als het om de inhoud gaat. Een aantal zaken die wereldwijd verboden zijn worden door Google uiteraard wel verwijderd uit haar zoekresultaten. Het gaat hier dan om zaken als kinderporno, verwijzingen naar documenten met copyright, spam, malware en verwijzingen naar gevoelige, persoonlijke gegevens (zoals bankgegevens). Google geeft ook aan zeer bewust niet mee te willen doen aan politieke censuur, met name in niet-democratische landen zoals China en Vietnam.

Wel houdt Google rekening met nationale wetgevingen van democratische landen. Zo is pro-Nazi materiaal verboden in Duitsland en Frankrijk, waardoor dit ook niet getoond wordt in de zoekresultaten van de zoekmachine van het land. Wanneer Google zoekresultaten niet toont omdat deze in strijd zijn met nationale wetten zal zij echter wel aangeven dat zij x aantal resultaten niet toont, waardoor de gebruiker weet dat er gecensureerd wordt.

Omdat vrijheid van meningsuiting zeer belangrijk is in Nederland wordt er over het algemeen niks gecensureerd in de zoekmachine van Google NL. De al eerder aangegeven wereldwijde censuur van kinderporno en spam gelden uiteraard ook in Nederland. Hierdoor mag u redelijkerwijs aannemen dat, wanneer de informatie en gegevens op uw website niet in strijd zijn met de wetgeving in Nederland, deze ook niet gecensureerd zal worden door Google en uw inhoud gewoon getoond zal worden in de zoekresultaten.

UPDATE: vandaag (22-04-2010) heeft Google zijn Government Request pagina geopend. Op deze pagina vindt u per land het aantal maal dat er aan Google gevraagd is informatie over gebruikers te geven of om informatie te verwijderen. De data is afkomstig uit de periode 01-07-2009 tot en met 31-12-2009 en het betreft aanvragen voor alle diensten van Google (dus ook YouTube en dergelijke). Landen die een beperkt aantal aanvragen hebben gedaan staan niet in de lijst. Belangrijk is om te weten dat het hier gaat om zaken buiten de al eerder beschreven illegale activiteiten (zoals kinderporno) die Google uit zichzelf al verwijdert of aanvragen die in strijd waren met de lokale wetten. Wat voor informatie Google verschaft heeft kan zij in veel gevallen niet vertellen, omdat het om gevoelige informatie gaat. Ook betreft het hier niet het blokkeren van diensten, daar hoopt Google binnenkort meer inzicht in te kunnen verschaffen. Nederland staat niet in beide lijsten. Het vroeg 67 keer om informatie over gebruikers en heeft minder 10 keer aan Google gevraagd om gegevens te verwijderen. Bekijk hier de pagina van Google over Government Requests.

Zelf informatie verwijderen

Toch kan het ook voorkomen dat u zelf informatie hebt geplaatst die Google geïndexeerd heeft en toont in haar zoekresultaten, maar dat u deze content helemaal niet in de zoekresultaten wilt hebben. U kunt hierbij denken aan:

  • Verouderde informatie;
  • Informatie die u destijds hebt geplaatst waar u zich nu liever van distantieert (bijvoorbeeld een betoog waar u nu niet meer achter staat);
  • Vertrouwelijke gegevens die geïndexeerd zijn en getoond worden.

Het eerste wat u kunt en moet doen is het verwijderen van de informatie of het blokkeren van de informatie. Hierdoor zal de informatie na verloop van tijd uit de zoekresultaten verdwijnen. Toch kan het voorkomen dat u de informatie zo snel mogelijk uit de zoekresultaten gehaald wilt hebben (bijvoorbeeld in het geval van de per ongeluk geplaatste vertrouwde gegevens). In dit geval kunt u een verwijdering aanvragen, maar niet voordat u zelf een aantal dingen hebt gedaan.

Verwijderen van een enkele URL

Voor het verwijderen van een URL moet de eigenaar van de website aan Google kenbaar maken dat het de URL wil laten verwijderen. Dit kan op drie manieren kenbaar worden gemaakt:

  1. Zorg dat de pagina niet gecrawled kan worden middels robots.txt. Of de pagina goed geblokkeerd is kunt u testen via Fetch as Googlebot of Test Robots.txt;
  2. Zorg dat de pagina niet geïndexeerd kan worden met een noindex meta tag. Door de pagina bron code te bekijken kunt u zien of de meta tag geplaatst is tussen de <head> en </head> tags. Of u kunt de Fetch as Googlebot gebruiken;
  3. Geef aan dat de pagina niet langer bestaat met behulp vaneen 404 of 401 status code. Om dit te testen kunt u wederom Fetch as Googlebot gebruiken of Live HTTP Headers. Controleer altijd of er een goede code wordt meegegeven.

Wanneer de inhoud van de pagina wel verwijderd is, maar de pagina niet geblokkeerd is via een van bovenstaande manieren dan zal de pagina niet geheel verwijderd kunnen worden.

Indien u de pagina geblokkeerd heeft kun u vervolgens gaan naar http://www.google.com/webmasters/tools/removals en daar de URL ingeven en te kiezen voor “Webmaster heeft de pagina al geblokkeerd”. U moet de URL aangeven waar de informatie staat, niet de URL die getoond wordt in de zoekresultaten.

Verwijderen van een complete directory of site

Om een directory of site te verwijderen zult u deze moeten blokkeren middels robots.txt. Enkel een 404-code meegeven is niet voldoende, omdat een directory dan nog steeds als bron kan dienen voor bestanden. Vervolgens kunt u als eigenaar naar de Webmaster Hulpprogramma´s gaan en kiest u de site in kwestie. Vervolgens gaat u naar Site Configuratie > Crawler toegang > Verwijder URL. Als u nu de aangeeft de URL te willen verwijderen krijgt u de vraag of u de gehele site of directory wilt verwijderen.

Verwijderen van gevoelige tekst op een pagina

Soms kan het voorkomen dat u niet een complete pagina, directory of map wilt verwijderen, maar slechts wat content. Deze content kan nog (deels) rondzwerven in zoekmachines, zoals in de teksten die Google laat zien bij een zoekresultaat. Dergelijke informatie kan op drie manieren verwijderd worden:

  1. Wacht totdat de Googlebot de pagina opnieuw doorzocht en geïndexeerd heeft: dit is de natuurlijke methode maar het kan een tijdje duren voordat Google dit gedaan heeft;
  2. Gebruik Google’s Public URL Verwijder Tool om verwijdering van informatie aan te vragen voor informatie die u op de pagina heeft verwijderd. Hierbij is het cruciaal dat u de exacte URL doorgeeft en kiest voor “Content is verwijderd van de pagina”. Vervolgens geeft u één of meer woorden aan die volledig verwijderd zijn van de pagina. Let op, de woorden mogen dus niet meer terugkomen op de pagina. Het eenvoudigste is om dus slechts één woord te gebruiken. Vervolgens zal het stuk tekst verwijderd worden. U dient dit vervolgens te verifiëren, dus de pagina moet nog wel bestaan. Heeft u de pagina al verwijderd, dan kunt u beter een paginaverwijdering aanvragen.
  3. Gebruik de Google Webmasterhulpprogramma’s URL Verwijder Tool om een verwijdering van informatie op een pagina aan te vragen: in het Webmasterhulpprogramma > Configuratie > Crawler toegang  kunt u vragen of de omschrijving en de opgeslagen pagina verwijderd wordt tot deze opnieuw doorzocht is. De titel en de URL blijven vervolgens zichtbaar.

Verwijderen van niet-HTML content

Wanneer de aangepaste content of de content die u wilt verwijderen niet in (X)HTML is, zoals een afbeelding of PDF-bestand, kunt u dit niet net zoals tekst verwijderen. U kunt dan beter de URL naar de bestandsnaam veranderen zodat de oude URL een 404-code meekrijgt en de URL verwijder tool gebruiken om de URL helemaal te verwijderen.

Proactief voorkomen van snippets

Snippets, de tekst die Google laat zien bij haar zoekresultaten, kunt u proactief uitzetten om te voorkomen dat er gevoelige informatie wordt getoond. Dit doet u door de “nosnippet” robots meta tag in het head van het document te plaatsen.

Slot

In Nederland censureert Google eigenlijk niets. Illegale content die wereldwijd wordt geblokkeerd wordt uiteraard ook gecensureerd in de zoekresultaten van Google Nederland, maar zolang u zich houdt aan de Nederlandse wetgeving zal uw content terugkomen in de zoekresultaten. Heeft u per ongeluk informatie laten doorzoeken en toont Google deze informatie in haar zoekresultaten, dan kunt u deze verwijderen en zal Google na verloop van tijd de informatie ook uit haar zoekresultaten halen. Duurt dit voor u te lang en is er haast bij geboden, dan kunt u zelf actie ondernemen. Voor meer informatie kunt u altijd de officiële blog van Google over informatie verwijdering (deel 1 en deel 2) lezen.

3 Reacties op “Verwijderen van informatie uit Google”

  1. Héél goed artikel Jeroen. De beste manier is nog steeds de linken proberen weg te halen en zowieso een 404 in te stellen. Opvallend dat je niet spreekt van een 301 om geen slechte ‘keywords’ door te geven?

  2. @ Dries Bultynck: bedankt! linken en 404′s zijn inderdaad de juiste wijzen om snel van informatie af te komen.

    Maar kun je uitleggen wat je precies bedoelt met “Opvallend dat je niet spreekt van een 301 om geen slechte ‘keywords’ door te geven?”.

  3. [...] Je hebt zelf alle controle welke informatie je kwijt wilt via je profiel: je gaat het immers zelf invullen. Bij deze activiteit zou je jezelf vooraf de vraag kunnen stellen: ‘ mag mijn werkgever dit wel weten?’ Of wat als het op de voorpagina van De Telegraaf staat? Mocht je achteraf spijt krijgen: online informatie is moeilijk definitief te verwijderen. Maar een suggestie vindt je hier. [...]

Reageer