Recentelijk heeft Google aangegeven websites meer te gaan crawlen als een moderne webbrowser. In dit nieuwsartikel vertellen wij hier meer over en geven wij handige tips om jouw website hoger te krijgen in Google.
Zoals in een eerder nieuwsbericht besproken gebruikt Google een algoritme om websites te indexeren en zodoende de ranking te bepalen. Naast het goede content wordt bijvoorbeeld het gebruik van SSL beloont met een hogere ranking.
Op 27 oktober heeft Google aangegeven websites meer te gaan crawlen als een moderne webbrowser en dus ook te kijken naar CSS, JavaScript en afbeeldingen. Voorheen was dit namelijk alleen maar op basis van content (text-only).
Om jouw website hoger te laten indexeren in Google moet je er dus voor zorgen dat je de Googlebot toegang geeft deze bestanden te indexeren.
Een robots.txt is een text bestand welke je binnen je hoofdroot (/httpdocs) plaatst. In dit bestand geef je aan welke bestanden en mappen er wel- en niet door de Googlebot mag worden doorzocht (crawlen).
User-agent: * Disallow: /media/ Disallow: /media/css/ Disallow: /media/css_secure/ Disallow: /skin/ Disallow: /js/
Voorbeeld van een gedeelte uit een robots.txt van een Magento installatie waarin bepaalde folders niet geïndexeerd mogen worden.
User-agent: * Allow: /media/ Allow: /media/css/ Allow: /media/css_secure/ Allow: /skin/ Allow: /js/
Voorbeeld van een gedeelte uit een robots.txt van een Magento installatie waarin bepaalde folders wel geïndexeerd mogen worden.
Regels robots.txt verder uitgelicht.
User-agent: *
Hiermee geef je aan dat alle spiders de website mogen crawlen
Disallow: /deze-folder-niet-doorzoeken/
Hiermee geef je aan dat deze specifieke folder niet doorzocht mag worden.
Allow: /deze-folder-wel-doorzoeken/
Hiermee geef je aan dat deze specifieke folder doorzocht mag worden.
Disallow: /deze-folder-niet-doorzoeken
Hiermee geef je aan dat deze folder en alles wat hier onder zit niet doorzocht mag worden.
Allow: /deze-folder-wel-doorzoeken
Hiermee geef je aan dat deze folder en alles wat hier onder zit doorzocht mag worden.
Disallow: /folder/bestand.html
Hiermee geef je aan dat dit specifieke bestand niet doorzocht mag worden (standaard wordt alles geïndexeerd).
Sitemap: http://www.jouwdomeinnaam.nl/sitemap.xml
Hier geef je aan waar de spiders jouw (eventuele) sitemap.xml kunnen vinden.
Bron: http://googlewebmastercentral.blogspot.co.uk/2014/10/updating-our-technical-webmaster.html
Zijn er nog vragen, kom je er niet uit of wil je dat wij jouw robots.txt even controleren? Neem dan contact op met onze servicedesk via servicedesk@realhosting.nl.