Google is altijd een voorloper geweest in het blootleggen van structuren in taalgebruik en zoekgedrag. Zo geeft Google vaak suggesties van aanvullende zoekwoorden op basis van het zoekgedrag van anderen, herkent Google typfouten eenvoudig en worden in de zoekresultaten soms resultaten getoond van synoniemen van de zoekterm waarop gezocht werd. Onlangs publiceerde Google een artikel waarin ze uitleggen hoe het systeem van synoniemen herkennen ongeveer werkt en hoever ze in deze ontwikkeling zijn. Ik ging zelf eens nadenken hoe vaak en welke synoniemen ik zoal tegenkom bij het gebruik van Google. In dit artikel heb ik een overzicht gemaakt van de soorten synoniemen die gebruikt worden en de mate waarin ik ervaar dat ze in de Nederlandse versie van Google terugkomen.
Een synoniem zie ik in deze als een zoekwoord dat niet gelijk is aan het ingevoerde zoekwoord in Google, maar wel vetgedrukt wordt in de zoekresultaten. Hierbij heb ik alleen gekeken naar de eerste pagina van de zoekresultaten van Google. Ik moet er bij zeggen dat dit niet wetenschappelijk verantwoord getest is, maar dat ik puur op basis van eigen ervaring een inschatting heb gemaakt. Als iemand andere ervaring heeft dan hoor ik het graag.
Enkelvoud, meervoud, verkleinwoorden en vervoegingen van werkwoorden
Wanneer je zoekopdracht een zelfstandig naamwoord bevat kan Google dit eenvoudig er herkennen en kan het ook enkelvoud, meervoud en verkleinwoorden van dit zelfstandig naamwoord tonen in de zoekresultaten. Google gaat er vanuit dat het niet uitmaakt of je zoekt op meervoud of enkelvoud, de betekenis van het zoekwoord komt in zo’n grote mate overeen dat het gebruik van enkelvoud, meervoud of verkleinwoorden weinig invloed zou moeten hebben op de resultaten. Hetzelfde principe geldt voor het gebruik van vervoegingen van werkwoorden. Bij het grootste deel van de zoekopdrachten waarbij een zelfstandig naamwoord en/of een werkwoord gebruikt zullen deze synoniem terugkomen in de zoekresultaten van Google.
Veel gemaakte typfouten
Wanneer een woord fout getypt wordt kan Google er nog steeds wel voor kiezen om de resultaten van de correcte spelling te tonen in de zoekresultaten. Google kan namelijk met een grote mate van zekerheid beredeneren welk woord bedoeld wordt. Wanneer je bijvoorbeeld zoekt op ‘kunstof’ toont Google ook de resultaten voor ‘kunststof’ vetgedrukt. Opvallend is dat Google dit lang niet altijd doet. Een zoekopdracht naar ‘abbonementen’ levert op de eerste pagina alleen resultaten op waarbij deze onjuiste spelling gebruikt is. Hetzelfde geldt voor woorden als ‘pannekoeken’, ‘capuccino’ en ‘onmiddelijk’. Overigens toont Google bij al deze zoekwoorden wel een suggestie voor de correcte spelling.

Afkortingen
Woorden die zowel afgekort als voluit geschreven kunnen worden hebben in principe altijd exact dezelfde betekenis. Het is daarom ook logisch om beide varianten in de zoekresultaten terug te laten komen. Google doet dit ook in grote mate. Een zoekopdracht naar ‘AWB’ toont bijvoorbeeld zowel resultaten voor ‘AWB’ als ‘algemene wet bestuursrecht’. Bij het gebruik van de voluit geschreven varianten wordt vrijwel altijd de afkorting getoond in de zoekresultaten, andersom is dit niet altijd het geval. Opvallend is ook dat sommige afkortingen meerdere betekenissen kunnen hebben, het kan daarom voorkomen dat er meerdere voluit geschreven varianten terugkomen in de zoekresultaten. Een zoekopdracht naar ‘EHF’ levert in de eerste resultaten al drie verschillende varianten op.

Specifiekere termen
Wanneer iemand zoek op ‘vuil ophalen’ is deze persoon waarschijnlijk ook geïnteresseerd in gerelateerde informatie als ‘vuilnis ophalen’ of ‘huisvuil ophalen’. Hoewel deze twee zoekopdrachten niet direct hetzelfde betekenen is de overeenkomst dermate groot dat deze resultaten wel relevant genoeg zijn. Google toont deze resultaten daarom wel in de zoekresultaten. Bij een zoekopdracht naar ‘telefoon’ wordt zelfs een resultaat getoond voor het zoekwoord ‘telefoonnummer’. Specifiekere termen worden dus, wanneer relevant genoeg, ook getoond in de resultaten. Andersom gebeurt dit veel minder vaak; een specifiekere zoekopdracht is namelijk een bewuste keuze om de zoekresultaten te verfijnen.
Zelfde betekenis ander woord
Een ‘echt’ synoniem is een ander woord (dus geen van de voorgaande varianten) in dezelfde taal met min of meer dezelfde betekenis. ‘Fototoestel’ is bijvoorbeeld een synoniem van ‘fotocamera’. Van deze synoniemen zouden er veel gebruikt kunnen worden in zoekmachines. In Google Nederland lijken deze synoniemen echter heel weinig gebruikt te worden. Bij het voorbeeld van ‘fototoestel’ komt ‘fotocamera’ niet terug in de resultaten. We hebben daarom een testje uitgevoerd om te kijken in hoeverre Google echte synoniemen herkent en gebruikt.
Er zijn op internet veel aanbieders waar je je foto op een doek kan printen. Het is dan ook een veel gezocht product op Google. Er zijn alleen heel veel verschillende zoekopdrachten die naar hetzelfde product zouden moeten leiden. We hebben daarom onder andere op onderstaande varianten gezocht in google.nl:
- Foto op canvas
- Afbeelding op canvas
- Foto op doek
- Foto op linnen
- Foto op stof
- Foto op doek printen
- Afbeelding op canvas drukken
Uiteindelijk werden alleen bij de zoekopdracht ‘foto op doek’ synoniemen getoond in de eerste 10 zoekresultaten. Bij het grootste deel van de zoekresultaten wordt namelijk ‘canvas’ ook vetgedrukt. Opmerkelijk is dat bij de zoekopdracht ‘foto op canvas’ de resultaten met ‘doek’ niet als synoniem worden gezien.
Conclusie
Google maakt in Nederland nog opmerkelijk weinig gebruik van synoniemen in de zoekresultaten. Alleen vervoegingen van woorden en afkortingen worden consequent als synoniemen meegenomen in de zoekresultaten. De echte synoniemen worden echter bijna niet gebruikt. Opvallend is ook dat bij typfouten niet automatisch de correcte spelling in de resultaten terugkomt, maar dat bewust voor de suggestie die Google geeft gekozen moet worden. Hoewel Google dus voorop loopt in het herkennen van synoniemen worden ze nog opmerkelijk weinig verwerkt in de zoekresultaten. Dit dwingt websites ook om verschillende varianten van zoekwoorden op de website moeten gebruiken en optimaliseren om om synoniemen gevonden te worden.

27 januari 2010




Is dat niet wat logisch? Ze zijn nog steeds bezig het algoritme te veranderen zodat het herkennen van synoniemen steeds beter wordt. Maar het is logisch dat ze dat eerst voor de Engelse taal doen. Ga jij maar eens voor tig talen zoiets doen, daar ben je wel even mee bezig. In mijn ogen dus heel prima dat ze het eerst met Engelse woorden perfectioneren. Google Nederland is maar een klein aandeel in de zoekmachinetoestand van Google, dus ik denk niet dat ze hier hoge prioriteit aan stellen. Nog even afwachten dus en tot die tijd tevreden zijn met wat de algoritmes nu al doen.
@Annelies Klopt, maar dat heeft wel bepaalde implicaties voor bijvoorbeeld SEO. Ik heb het idee dat veel mensen de toepassing van deze intelligentie van Google wel eens overschatten.
Bovendien blijkt uit de suggesties die ze geven vaak dat ze de verbanden al wel heel goed kunnen leggen. Waarom zouden ze het dan niet al in de resultaten terug laten komen?
Daarnaast, als het een algoritme is zou het juist niet uit moeten maken om welke taal het gaat (hoewel talen natuurlijk ook wel deels anders werken). Maar inderdaad: nog even afwachten. Ik ben benieuwd.
@jeroen het gaat inderdaad om de verschillen en nu is Nederland wel vrij moeilijk, maar andere talen ook. Dus ik denk dat ze eerst de basis goed willen hebben. Op hun blog spreken ze over een algoritme, dus vandaar dat ik dat overneem. Ze zeggen daar ook dat ze veel synoniemen handmatig invoeren omdat veel dingen net iets anders betekenen in andere context. Het heeft wel wat consequenties voor SEO, maar ik zie er nog geen grote issues in. Het wordt iets makkelijker om op weinig gebruikte woorden toch vaker gevonden te worden, maar desalniettemin gaat ook Google voor de massa, dus kun je beter vindbaar zijn op vaak gezochte woorden in combinatie met andere (longtail dus).
Als je een ~ voor je zoekopdracht invoert krijg je wel synoniemen, ook in het Nederlands.
Probeer bijv. te zoeken op ~uurwerk. Je krijgt dan ook resultaten te zien waar ‘horloge’ dik gedrukt in staat. Google kan het dus wel met de Nederlandse taal!
Gr.
@Fred Dat klopt inderdaad. Helaas gebruiken mensen die zoekopdrachten niet. Zo lang Google deze kennis dus niet toepast binnen de gewone zoekopdrachten hebben we niets aan het feit dat Google het wel kan.