Home / Over ons / Nieuws / Nieuws / Pas jouw robots.txt aan voor hogere indexatie in Google

Pas jouw robots.txt aan voor hogere indexatie in Google

7 november 2014 - 00:00u - 3 minuten leestijd

Recentelijk heeft Google aangegeven websites meer te gaan crawlen als een moderne webbrowser. In dit nieuwsartikel vertellen wij hier meer over en geven wij handige tips om jouw website hoger te krijgen in Google.

GooglebotZoals in een eerder nieuwsbericht besproken gebruikt Google een algoritme om websites te indexeren en zodoende de ranking te bepalen. Naast het goede content wordt bijvoorbeeld het gebruik van SSL beloont met een hogere ranking.
Op 27 oktober heeft Google aangegeven websites meer te gaan crawlen als een moderne webbrowser en dus ook te kijken naar CSS, JavaScript en afbeeldingen. Voorheen was dit namelijk alleen maar op basis van content (text-only).

Om jouw website hoger te laten indexeren in Google moet je er dus voor zorgen dat je de Googlebot toegang geeft deze bestanden te indexeren.

Wat is robots.txt en wat doet het?

Een robots.txt is een text bestand welke je binnen je hoofdroot (/httpdocs) plaatst. In dit bestand geef je aan welke bestanden en mappen er wel- en niet door de Googlebot mag worden doorzocht (crawlen).

User-agent: *
Disallow: /media/
Disallow: /media/css/
Disallow: /media/css_secure/
Disallow: /skin/
Disallow: /js/

Voorbeeld van een gedeelte uit een robots.txt van een Magento installatie waarin bepaalde folders niet geïndexeerd mogen worden.

User-agent: *
Allow: /media/
Allow: /media/css/
Allow: /media/css_secure/
Allow: /skin/
Allow: /js/

Voorbeeld van een gedeelte uit een robots.txt van een Magento installatie waarin bepaalde folders wel geïndexeerd mogen worden.

Regels robots.txt verder uitgelicht.

User-agent: *
Hiermee geef je aan dat alle spiders de website mogen crawlen

Disallow: /deze-folder-niet-doorzoeken/
Hiermee geef je aan dat deze specifieke folder niet doorzocht mag worden.

Allow: /deze-folder-wel-doorzoeken/
Hiermee geef je aan dat deze specifieke folder doorzocht mag worden.

Disallow: /deze-folder-niet-doorzoeken
Hiermee geef je aan dat deze folder en alles wat hier onder zit niet doorzocht mag worden.

Allow: /deze-folder-wel-doorzoeken
Hiermee geef je aan dat deze folder en alles wat hier onder zit doorzocht mag worden.

Disallow: /folder/bestand.html
Hiermee geef je aan dat dit specifieke bestand niet doorzocht mag worden (standaard wordt alles geïndexeerd).

Sitemap: http://www.jouwdomeinnaam.nl/sitemap.xml
Hier geef je aan waar de spiders jouw (eventuele) sitemap.xml kunnen vinden.

Tips om jouw website hoger te krijgen in Google

  • Zorg ervoor dat je de juiste benaming geeft (robots.txt) en dus geen robot.txt.
  • Zorg ervoor dat de Googlebot al jouw CSS, JavaScript en afbeeldingen kan indexeren. Bij voorkeur plaats je dus alle bestanden in eenzelfde folder:
    – CSS bestanden in /css
    – JavaScript bestanden in /js
    – Afbeeldingen in /img
    Zo kun je makkelijker toegang (Allow) geven tot deze Folders.
  • Met de optie ‘Fetchen als Google‘ kun je in Webmaster Tools controleren of jouw robots.txt juist is geconfigureerd voor de Googlebot.
  • Pas op met wat je wel en niet wilt laten indexeren. Het indexeren van de /wp-content/plugins/ in een WordPress installatie kan enige risico’s met zich meebrengen.

Bron: http://googlewebmastercentral.blogspot.co.uk/2014/10/updating-our-technical-webmaster.html

Zijn er nog vragen, kom je er niet uit of wil je dat wij jouw robots.txt even controleren? Neem dan contact op met onze servicedesk via servicedesk@realhosting.nl.

Dave Marketing manager

Dave is Marketing manager bij RealHosting. Hij verzorgt de (online) marketing en is betrokken bij nieuwe productontwikkelingen.

dave@realhosting.nl - 088-7508918

web-monitoring-ok