Hoe werken zoekmachines

Een zoekmachine is een machine/platform dat gemaakt is om zo snel en goed mogelijk antwoord op een vraag te geven. 

Als je aan een zoekmachine denkt, dan denk je waarschijnlijk al gauw aan Google. Dat is niet zo gek als je bedenkt dat Google in Nederland een marktaandeel heeft van 95,93%!

Marktaandeel van de grootste zoekmachines in Nederland

Er zijn echter nog een hoop andere zoekmachines. Zo is bijvoorbeeld Yandex de grootste zoekmachine in Rusland en Baidu de grootste in China.

Al deze zoekmachines hebben vergelijkbare missies.

Kijk bijvoorbeeld maar eens naar de missie van Google;

Missie van Google

En de missie van Yandex;

Missie van Yandex

Daarnaast hebben al deze zoekmachines ook ongeveer dezelfde werkwijze.

Zodra je begrijpt hoe zoekmachines werken wordt het een stuk eenvoudiger om jouw website goed vindbaar te maken.

Hoe werkt een zoekmachine

Een zoekmachine werkt (in grote lijnen) aan de hand van drie stappen, namelijk crawlen, indexeren en ranken.

Crawlen

Crawlen is het proces waardoor zo veel mogelijk webpagina’s op de wereld systematisch door een zoekmachine worden ontdekt.

Dit proces wordt uitgevoerd door een soort virtuele robots, die we ook wel webcrawlers, of spiders noemen.

Zoekmachinespiders crawlen het gehele web

Zo’n zogenaamde spider begint op een bepaalde webpagina, maakt hier een kopie van en slaat dit op in een enorme database. Vervolgens voegt de spider alle gevonden hyperlinks toe aan een lijst met pagina’s die nog gecrawld moeten worden.

Omdat spiders zich dus verplaatsen via hyperlinks is het heel belangrijk dat je pagina’s daadwerkelijk bereikbaar zijn! Als je geen links naar een bepaalde pagina plaatst zal deze dus nooit gevonden (en dus nooit gecrawld) worden!

Pagina niet bereikbaar doordat er geen verwijzing is

Je kunt zoekmachines hierbij een handje helpen door een XML sitemap aan jouw website toe te voegen en deze aan te leveren aan bijvoorbeeld Google Search Console.

Controleer altijd of je pagina’s wel gevonden worden door de zoekmachines.

Bij Google kan dit op twee manieren;

#1 Via de SERP

De meest simpele manier is om je website op te zoeken in de SERP door middel van de zoekoperator [site:]. Door deze zoekoperator in combinatie met jouw domeinnaam in vullen vind je alle pagina’s die zijn opgenomen in de SERP.

Eigen website opzoeken in de SERP

Je ziet nu een schatting van het aantal pagina’s dat vindbaar is in Google.

In het bovenstaande voorbeeld zijn dat 46 pagina’s. In dit geval klopt dit ongeveer wel. Het kan ook zijn dat er veel minder resultaten staan dan dat je had verwacht. In dat geval lukt het Google dus niet om sommige pagina’s te bereiken.

Als er veel meer resultaten staan dan dat je had verwacht, dan kan dat betekenen dat je website duplicate content heeft.

Verderop in dit artikel laat ik je zien waar dit aan zou kunnen liggen.

#2 Via Google Search Console

Om er zeker van te zijn of jouw website volledig gevonden wordt kun je het beste bij Google Search Console kijken onder ‘Dekking’.

Dekkingsrapport in Google Search Console

Uit bovenstaande afbeelding kun je opmaken dat er geen problemen gevonden zijn, maar dat er wel 87 pagina’s zijn uitgesloten. Dit is op zich een normale gang van zaken. Het is wel altijd even verstandig om de details te bekijken.

Details van de dekking bekijken in Google Search Console

Robots.txt

Het kan natuurlijk dat je het niet nodig vindt dat bepaalde pagina’s door een spider worden bezocht. 

Bij een blog zal zich waarschijnlijk beperken tot de admin pagina, maar bij een webshop (met filters) is dit al een stuk belangrijker.

Een voorbeeld;

Stel, je gaat een nieuwe broek kopen via Zalando. Je belandt op de volgende URL;

Je wilt echter niet zomaar een broek, maar een korte broek. Je filtert dus op ‘Lengte’ >> ‘Kort’. Als je in de adresbalk kijkt, zie je dat deze veranderd is;

Je bent op koopjesjacht en wilt een korte broek van maximaal dertig euro. De duurdere korte broeken zijn dus niet interessant. Je filtert dus ook op ‘Prijs tot €30,-‘.

Jammer, voor dertig euro kon je niet vinden wat je zocht. Je verhoogd het prijsfilter van €30,- naar €40,-.

In het bovenstaande voorbeeld heb je gezien dat de URL al heel snel drie keer is gewijzigd. Een zoekmachine ziet dit als allemaal verschillende webpagina’s en dit levert problemen op;

Ten eerste heb je door middel van filters al snel duizenden identieke pagina’s. Een zoekmachine kan dit zien als duplicate content en dat kan je een penalty opleveren.

Ten tweede gaat je crawlbudget heel snel op. Een zoekmachine geeft iedere website een bepaald ‘budget’ wat aangeeft hoe vaak de website gecrawld wordt.

Bij een website als Zalando is dit budget heel hoog, maar bij een kleine website kan dit heel laag zijn.

Het is dan zonde als dit budget wordt verspilt aan alle filters.

Je kunt dit oplossen door een robots.txt bestand aan te maken. Hierin vertel je precies welke pagina’s wel, en welke niet mogen worden gevolgd.

Als we kijken naar het robots.txt bestand van Zalando, dan zien we inderdaad dat de filters worden geblokkeerd voor de spiders.

Voorbeeld van hoe zalando filters blokkeert in de Robots.txt

Wat zien de spiders

Zoekmachine spiders zien een website heel anders dan dat wij die zien. Zij kijken namelijk naar de achterkant (de bron) van de website.

In de HTML-bron gaan de spiders op zoek naar je content. Je content moet dus wel leesbaar zijn voor een zoekmachine.

Ondanks dat zoekmachines steeds slimmer worden kunnen ze nog niet alles lezen. Zo hebben ze bijvoorbeeld nog moeite met afbeeldingen en javascript.

Afbeeldingen

Ondanks dat zoekmachines er steeds beter in worden om afbeeldingen te herkennen, is het op dit moment nog onmogelijk om alle afbeeldingen te ‘lezen’.

In mijn artikel over alt teksten vertel ik je meer over het optimaliseren van je afbeeldingen voor zoekmachines.

Zet dus geen tekst in afbeeldingen die waarde toevoegen aan je content.

Javascript

Javascript kan de user experience op je website enorm verbeteren. Toch moet je uitkijken met het gebruik hiervan, aangezien zoekmachines deze taal moeilijk kunnen lezen.

Toen ik net met de website begon kwam ik erachter dat Google mijn artikels niet goed kon lezen. 

Als het goed is zien jij en ik mijn artikel over alt teksten namelijk als volgt;

Echter, als je via Google gaat bekijken hoe de pagina is opgeslagen zag deze er als volgt uit;

Cachegeheugen Google

Hier gaat duidelijk iets fout!

Je kunt dit bij je eigen website bekijken door je pagina op te zoeken (dit kan gemakkelijk met behulp van zoekoperatoren) en vervolgens op ‘In cache’ te klikken;

Cache geheugen van Google opvragen

Hoe je dit probleem kan oplossen met een WordPress website vertel ik uitgebreid in mijn WordPress SEO gids.

Voor nu wil ik vooral duidelijk maken dat wij (mensen) een webpagina heel anders zien dan dat de zoekmachines dat doen.

Indexeren

Geef een reactie

Share on facebook
Share on twitter
Share on linkedin