En 2019, Google fait le ménage dans le fichier robots.txt (qui existe depuis 1994). Robots.txt est un fichier qui se trouve à la racine d’un site web et qui donne des instructions aux moteurs de recherche qui analysent le site.
Google va ignorer certaines directives dans le robots.txt
Google a annoncé dans son blog pour webmasters qu’à partir du 1er septembre, le moteur de recherche allait arrêter la prise en compte de plusieurs directives du fichier robots.txt, utilisées par les webmasters :
- NoIndex, une directive utilisée pour bloquer l’indexation de certaines pages ou sections d’un site (mise en panier, pages contacts, CGV, pages de filtres), pour ne conserver dans l’index que les pages pertinentes pour le SEO.
- Crawl-delay, une directive historiquement utilisée pour ralentir le rythme de crawl sur certains sites à fort volume de pages. Crawl Delay ne sera désormais plus prise en compte par Google.
Des alternatives pour bloquer l’indexation d’une ou plusieurs URLs :
Il existe d’autres possibilités pour empêcher l’indexation d’un contenu ou de cacher certaines URL aux moteurs de recherche.
- Balise meta robots « noindex« . Utilisée au niveau d’une URL dans le code source, cette directive reste la façon la plus efficace d’interdire l’indexation d’une page. Attention, la page sera tout de même crawlée par les moteurs de recherche et de ce fait le budget crawl* du site sera impacté.
- La directive X-Robots-Tag du protocole http. Elle permet la même chose que la balise meta robots « noindex ». Celle-ci se place sur l’en-tête de la page envoyée par le serveur et non pas dans son code source. Elle correspond particulièrement bien aux formats non HTML comme les documents PDF, Word, Powerpoint, XML, etc.
- Pour les sites de pré-production, pensez à utiliser un mot de passe pour garantir à coup sûr la non-indexation.
- La directive Disallow dans le fichier robots.txt. La page ne sera pas crawlée par le robot du moteur. A noter que si une URL était déjà indexée, elle restera tout de même en mémoire après le passage Disallow pour disparaître à plus long terme des résultats de recherche.
* Le budget de crawl correspond au nombre de pages limites que le robot de Google explore sur un site web, en tenant compte de plusieurs critères comme la vitesse de réponse du serveur, la profondeur de la page, la fréquence des mises-à-jours ou encore la qualité du contenu du site.
Si vous n’avez pas déjà reçu une notification mail de la Google Search Console, il vous reste donc à vérifier si le fichier robots.txt de votre site comporte une directive NoIndex et à adapter la méthode d’exclusion de l’index.