Robot.txt : rôle et optimisation

Pour classer une page web dans les résultats de recherche, Google utilise des robots d’exploration. Ceux-ci ont pour rôle de parcourir chaque URL Google existant et d’évaluer ses performances. Les pages répertoriées seront proposées dans les SERP en fonction des requêtes des internautes. Par ailleurs, les webmasters peuvent indiquer aux crawlers les zones à explorer à travers le fichier robots.txt. De quoi s’agit-il ? Quelle est son utilité en SEO ? Voici toutes les explications.

Définition du robots.txt

Il s’agit d’un fichier texte qui contient toutes les instructions destinées aux robots de crawl d’un moteur de recherche (Google Bing). Placé à la racine de votre site web, il joue un rôle important dans le référencement naturel. Créer un fichier robots.txt permet de spécifier aux crawlers ce qu’ils peuvent ou ne peuvent pas parcourir sur le site.

Fonctionnement d’un robots.txt

Le robots.txt s’appuie sur un protocole d’exclusion des robots. Une fois arrivés sur votre plateforme, les spiders téléchargent le fichier robots.txt afin de se renseigner sur les commandes qu’il contient. Si le fichier texte indique aux bots de ne pas explorer des documents spécifiques sur certaines pages de votre site, ceux-ci ne vont pas apparaître dans les robots des moteurs de recherche.

Pour accéder au fichier robots.txt, il vous suffit de lancer taper la requête correspondante (http://www.site.com/robots.txt » dans votre navigateur. Si votre site contient ce type de fichier, celui-ci s’affichera avec toutes les instructions qu’il contient. Dans le cas contraire, le navigateur affiche la page erreur 404.

Comment créer un fichier robots.txt ?

Ouvrez un éditeur de texte comme Bloc-notes ou Sublime Text.
Commencez par la ligne d’instruction User-agent, qui spécifie le robot d’exploration pour lequel les règles sont définies. Par exemple, pour tous les robots, utilisez le code suivant :

User-agent: *

Ensuite, vous pouvez spécifier les règles pour ce robot. Par exemple, si vous voulez empêcher le robot d’accéder à un dossier sur votre site, vous pouvez ajouter la règle suivante :

Disallow: /dossier/

Si vous souhaitez autoriser l’accès à un dossier spécifique, utilisez la règle Allow. Par exemple :

Allow: /dossier-autorise/

Vous pouvez également spécifier une URL de sitemap pour aider les robots à explorer votre site de manière plus efficace. Pour cela, ajoutez la ligne suivante :

Sitemap: http://www.exemple.com/sitemap.xml

Une fois que vous avez terminé d’ajouter les règles appropriées, enregistrez le fichier sous le nom « robots.txt » à la racine de votre site web. Assurez-vous que le fichier est accessible via une URL de la forme « http://www.exemple.com/robots.txt » afin que les robots puissent le trouver et suivre les règles définies.

Exemple de fichier robots.txt

En règle générale, un fichier robots.txt contient 3 grandes catégories de données, notamment :

Le spider ciblé ;
L’URL de la page ou les références du dossier concerné ;
L’instruction donnée au robot.

Pour intégrer ces informations, le webmaster doit utiliser une syntaxe spécifique afin que les commandes soient facilement interprétées par les robots. Si vous souhaitez que les spiders ne parcourent pas le dossier /intranet, à l’exception de la page /loging.php, vous devez utiliser cet exemple http :

User-agent :* (nom du crawler et autorise l’accès à tous les robots)

Disallow : /intranet (interdit l’exploration du dossier intranet)

Allow : /intranet/login.php

Le terme Googlebot disallow indique que le robot ne doit pas explorer l’URL en question. Le nom du spider doit être spécifié dans l’instruction « User-agent ». Il dépend de la plateforme : Googlebot pour le moteur de recherche Google et Bingbot pour Bing.

Bien évidemment, il existe d’autres directives, selon les instructions que vous souhaitez donner à l’algorithme Google : sitemap, noindex, crawl-delay, etc.

Comment tester le fichier robots.txt ?

Quelle que soit la méthode que vous utilisez, vous devez impérativement procéder au test du fichier robots.txt. Cela vous permettra de vérifier qu’il n’y a aucune erreur. Le Google Search Console est un outil de test que vous pouvez utiliser en toute facilité. Pour cela, il vous suffit de vous connecter à votre compte et d’accéder à l’interface. En cliquant sur le bouton « Exploration », vous trouverez l’Outil de test du Fichier robots.txt. Il ne vous reste plus qu’à coller le contenu de votre protocole dans l’éditeur de texte et de lancer le test.

Le robots.txt et le SEO

Le fichier robots.txt joue un rôle important dans le référencement naturel (SEO) d’un site web car il permet de contrôler ce que les robots d’exploration des moteurs de recherche peuvent indexer et suivre sur le site.

En limitant l’accès des robots d’exploration à certaines parties de votre site, vous pouvez empêcher certaines pages ou certains types de contenu d’être indexés, ce qui peut être utile si vous souhaitez garder certains éléments confidentiels ou si vous ne souhaitez pas que certaines pages apparaissent dans les résultats de recherche.

Cependant, il est important de noter que le fichier robots.txt ne garantit pas que les pages ou le contenu qui y sont mentionnés ne seront pas indexés ou affichés dans les résultats de recherche. Les robots d’exploration peuvent ignorer les règles du fichier robots.txt s’ils sont programmés pour le faire, ou s’ils trouvent des liens vers les pages restreintes à partir d’autres sources.

Par conséquent, le fichier robots.txt doit être utilisé avec prudence et en conjonction avec d’autres techniques de référencement naturel pour optimiser les résultats de recherche de votre site web. Il est également important de s’assurer que les parties clés de votre site, telles que les pages d’accueil et les pages de produits ou de services, sont accessibles aux robots d’exploration pour garantir une indexation optimale et une visibilité dans les résultats de recherche.