Guide SEO : comment bien créer et utiliser le fichier robots.txt?

Ce que nous allons aborder dans l’article 👇

C’est quoi un fichier robots.txt?
Pourquoi c’est important d’utiliser un fichier robots.txt?
Quels genres de contenu on retrouve dans un fichier robots.txt?
Quand utiliser la balise noindex?
Où se trouve la « racine d’un site »?
Comment créer un fichier robots.txt?

Voici un petit guide qui va t’aider (je l’espère) à bien créer et utiliser le fameux fichier robots.txt. Je te rassure tout de suite, il ne faut pas être développeur web pour mettre en place ce fichier. 🤓

Bien qu’il soit peu connu dans le monde numérique, le fichier robots.txt est très avantageux pour votre SEO lorsqu’on prend le temps de le créer. Il permet d’optimiser chaque visite des robots d’exploration sur un site web (donc d’améliorer l’indexation et le classement du contenu important).

Alors, on commence?

C’est quoi un fichier robots.txt ?

Robots.txt est un fichier localisé à la racine d’un site, qui a comme objectif d’indiquer aux robots d’exploration 🤖 (Google, Bing, Yahoo et compagnie) les pages d’un site à explorer. Mais surtout celles à ne pas explorer.

On peut voir le fichier robots.txt comme un guide que les robots d’exploration utilisent pour connaître leurs limites d’accès lorsqu’ils crawl un site web.

Normalement, les robots d’exploration visitent des sites web et crawl leurs pages dans l’optique de les indexer et de les classer dans les résultats de recherche. Le fichier robots.txt empêche donc les robots, à la source, d’accéder à certaines pages d’un site. Pour qu’ils passent plus de temps à explorer les pages plus importantes.

Pourquoi c’est important d’utiliser un fichier robots.txt?

En fait, le nombre de pages parcourues et le temps accordé par un robot sur un site web sont extrêmemeeeent limités. Donc on utilise le fichier robots.txt pour mentionner aux robots, dès leur arrivée sur un site, les pages qui ne valent pas la peine d’être explorées pour qu’ils puissent se concentrer sur les pages importantes. Bref, ça permet de gérer le trafic des robots d’exploration sur un site pour rendre chacune de leurs visites pertinentes et efficaces. Time is money, comme on dit. 🤑

C’est un peu comme quand tu as des invités chez toi et que tu veux juste qu’ils voient les pièces soignées et propres de ta maison. Pas la chambre de ton enfant avec ses 157 jouets par terre. Qu’est-ce que tu fais? Tu fermes la porte. Ni vu, ni connu.

Quels genres de contenu on retrouve dans un fichier robots.txt?

Les URLs que tu mets dans ton fichier robots.txt sont celles qui n’apportent pas de valeur aux utilisateurs (aussi appelées par Google, les URLs à faible valeur) et celles qui contiennent des données confidentielles.

Pensons aux pages de remerciement (les thank you pages), aux pages d’affinement de filtres, aux pages ayant du contenu involontairement dupliqué, aux pages de connexion à une interface, etc.

En empêchant les moteurs de recherche de parcourir ces URL, ça fait en sorte qu’ils peuvent parcourir et indexer le contenu prioritaire d’un site web (page d’accueil, articles de blogue, ressources, page de services, etc.).

Quand utiliser la balise noindex?

Dans un monde parfait, les directives d’un fichier robots.txt garantiraient que les contenus « non autorisés » ne soient pas indexés et classés dans les résultats de recherche. En tant que tels, les robots des moteurs de recherche ne vont pas explorer et indexer une page non autorisée. Par contre, les robots peuvent indexer une page si elle est référencée ailleurs sur le web. Par exemple, un partenaire qui a inséré un lien vers le contenu en question sur son site. Je sais, ça peut porter à confusion.

Qu’est-ce qu’on fait si on ne veut pas que l’URL d’une page soit affichée dans les résultats de recherche (SERP)? On la protège d’un mot de passe ou on utilise la balise noindex. Avec la balise noindex, tu es assuré que la page en question ne soit pas indexée par les moteurs de recherche.

Revenons à nos moutons : on trouve ça où la « racine d’un site » ?

Pas de panique, la racine d’un site web est plus facile à trouver qu’on le pense. Quelques clics et hop, on y accède.

D’ordre général, pour localiser un fichier robots.txt, il faut se connecter à l’hébergeur du site web et se rendre au gestionnaire de fichiers. Le fichier comprenant les instructions d’exploration se trouvera dans un fichier nommé robots.txt.

Comment créer un fichier robots.txt?

Voici l’essentiel qui te permettra de construire un fichier robots.txt :

1. Créer le fichier robots.txt

Le fichier robots.txt peut être créé à partir de presque tous les éditeurs de texte de ce monde (Notepad, textedit, sublime text, etc.). Ce n’est pas recommandé d’utiliser les logiciels de traitement de texte parce qu’ils peuvent ajouter des caractères non désirés quand on enregistre le fichier. ⚠️ Ne perturbons pas les robots d’exploration!

Good to know en rafale

Le fichier doit être absolument nommé robots.txt (pas de majuscule!)
Un site web ne peut contenir qu’un seul fichier robots.txt
Un fichier robots.txt doit être un fichier texte encodé au format UTF-8
Chaque directive doit se trouver sur une ligne différente

2. Ajouter des règles et des directives au fichier robots.txt

Les règles et directives du fichier vont guider les robots d’exploration dans leur visite d’un site web en leur indiquant les pages accessibles et celles qui ne le sont pas. Voici les types d’instructions qui se trouvent dans le fichier :

User-agent : cette instruction spécifie le robot d’exploration visé par les directives (Googlebot, Bingbot, etc.). Pour s’adresser à tous les robots d’exploration (à l’exception d’AdsBot), il suffit d’utiliser un astérisque ( * ).

Exemples de règles user-agent d'un fichier robots.txt

Disallow : disallow est la directive qui interdit l’accès à une url (répertoire ou page) ou à un dossier hébergé sur un site. Si la règle fait référence à une page, il doit s’agir du nom complet de la page et doit commencer par un caractère / . Si la règle fait référence à un répertoire ou une section complète d’un site, la règle doit se terminer par le signe / .

Exemple de directive disallow d'un fichier robots.txt

Allow : allow est la directive qui autorise l’accès à une URL se trouvant dans un dossier interdit par la directive disallow.
Sitemap (facultatif) : inclure le sitemap du site dans le fichier robots.txt permet d’indiquer aux moteurs de recherche le contenu qui doit être exploré.

Exemple d'un sitemap.xml qui se trouve dans un fichier robots.txt

3. Importer le fichier robots.txt

Confiant.e de ton fichier robots.txt ? Good ! Enregistre le fichier sur ton ordi. Le fichier enregistré doit absolument se nommer « robots.txt ». Il faut maintenant l’importer à la fameuse racine du site, aka dans le répertoire de fichier de l’hébergeur du site web.

4. Et bien sûr, on teste le fichier robots.txt

Pour déterminer si le fichier a bien été importé à la racine du site et qu’il est accessible au public, on ouvre une fenêtre en navigation privée, puis on accède à l’emplacement du fichier : https://nomdusite.com/robots.txt.

Si le contenu du fichier est visible, tu es prêt.e à tester le balisage du fichier.

Pour te simplifier la vie, Google t’offre un outil gratuit pour tester le fichier robots.txt.

Avant d’être en mesure de tester ton fichier robots.txt, il faut, d’abord, sélectionner une propriété (un site web) validée.

Sélection d'une propriété validée sur l'outil du Google Search Console pour tester un fichier robots.txt

L’outil donnera des avertissements relatifs à la syntaxe et aux erreurs logiques du fichier robots.txt. C’est important de savoir que tout changement fait dans les règles du fichier robots.txt de l’outil test de Google ne modifiera pas le fichier source hébergé dans la racine du site.

Exemple d'avertissements relatifs à la syntaxe et aux erreurs logiques du fichier robots.txt

Pour tester si les règles allow et/ou disallow fonctionnent pour certaines sections ou pages du site, il faut simplement saisir l’URL dans la zone de texte en bas de la page et sélectionner le user-agent à simuler.

Comment tester les règles allow et disallow d'une page d'un site web avec l'outil test du fichier robots.txt

Une directive « allow » du fichier robots.txt bien paramétrée recevra la mention « Accepté ». Et une directive « disallow » bien paramétrée recevra la mention « Bloquée ».

Si c’est le cas, good job! 🙂

Guide SEO : comment bien créer et utiliser le fichier robots.txt