Le fichier robots.txt est un facteur de référencement très important sur la page qui incite les moteurs de recherche à indexer notre site ou à désindexer des pages particulières de notre site Web ou de notre blog. Le fichier robots.txt doit être placé dans le répertoire racine de notre site Web. Vous pouvez trouver l’exemple d’URL d’un fichier robots.txt parfait ici: https://www.oscar-referencement.com/robots.txt.
Ce fichier spécifique donnera aux moteurs de recherche des instructions indiquant quelle partie de votre site Web doit être autorisée à visiter et à indexer.
Pour un bon fonctionnement du fichier robots.txt, vous ne devez le télécharger que dans le répertoire racine de votre site Web, qui se trouve dans votre dossier www direct, et non dans tout autre sous-répertoire tel que www.votredomaine.com/subdirectory/robots.txt.
Tous les principaux moteurs de recherche, y compris Google, consultent le fichier robots.txt de votre dossier racine pour trouver les instructions relatives à l’analyse et à l’indexation.
Cet outil peut même générer un fichier robots.txt à partir de: http://www.mcanerin.com/EN/search-engine/robots-txt.asp.
A quoi ressemble un fichier Robots.txt?
Il faut toujours utiliser un fichier texte ou un fichier bloc-notes pour créer le fichier robots.txt. Une fois qu’il est créé, collez les codes d’instruction suivants dans le fichier bloc-notes et nommez-le Robot.txt.
User-agent: *
Disallow:
Ce code est la forme la plus simple du fichier robots.txt. Il permet à tous les moteurs de recherche de visiter, d’analyser et d’indexer toutes les pages de votre site Web ou de votre blog, y compris tous les répertoires et sous-répertoires.
Mais si vous souhaitez tout interdire de votre site Web ou de votre blog, utilisez:
User-agent: *
Disallow: /
Cela désindexera toutes les pages de votre site Web à partir des moteurs de recherche.
La différence entre les deux codes est une simple barre oblique (/). Alors, utilisez attentivement cette fonctionnalité. Si vous utilisez accidentellement une barre oblique, votre site sera exclu du moteur de recherche.
Désormais, si vous pensez qu’une partie de votre site Web ou des informations qui le concernent ne doivent être destinées qu’à un groupe de personnes particulier et ne doivent pas être accessibles au public, telles que les présentations au format .ppt contenant des informations sur votre entreprise, vous pouvez la restreindre en: en utilisant le code suivant:
User-agent: *
Disallow: /presentations/*.ppt
Comment restreindre l’indexation de vos images par les moteurs de recherche ?
Vous souhaitez protéger vos images pour des questions de droit d’auteur. Ou tout simplement vous souhaitez éviter que des internautes utilisent vos photos ou images sans autorisation. Vous pouvez empêcher les moteurs de recherche et en particulier Google image bot d’indexer vos images et photos. Comment? vous pouvez utiliser le code robots.txt suivant pour restreindre le bot Google Image:
User-agent: Googlebot-Image
Disallow: /*.gif$
Pour optimiser vos images, consulter cet article
De la même manière, vous pouvez également utiliser d’autres moteurs de recherche, tels que Yahoo ou Bing.
Exemples:
User-agent: msnbot
Disallow: /*.ppt$
Disallow: /*.png$
Disallow: /*.exe$
Avantages de l’utilisation du fichier Robots.txt en SEO
Les avantages d’un fichier robots.txt dans le référencement naturel sont les suivants:
Il enregistre la bande passante du site Web:
Votre fournisseur d’hébergement Web vous fournit une limite de bande passante ou de trafic. Robots.txt, en limitant les pages inutiles de votre site Web, éliminera également le trafic inutile. Ainsi, les araignées ou les visiteurs ne visiteront pas les pages et répertoires non pertinents tels que votre dossier cgi-bin, etc.
Il vous fournit une protection:
Il ne fournit pas un niveau de protection très fort mais il ne laissera pas les gens visiter la partie restreinte de votre blog ou site web qui provient de moteurs de recherche. Les gens peuvent accéder à votre document restreint en tapant directement l’URL exacte dans le navigateur.
Il nettoie vos journaux:
Chaque fois qu’un moteur de recherche visite votre site via une requête utilisateur, il visite également votre fichier robots.txt et cela peut se produire plusieurs fois au cours d’une même journée. Si les moteurs de recherche ne trouvent pas le fichier robots.txt, il crée à chaque fois une «erreur 404 détectée» qui crée les journaux au sein de votre site. De plus, les erreurs 404 donnent un mauvais signal aux moteurs de recherche et impact négativement votre référencement naturel.
Fournissez une protection contre les pénalités de contenu en double de Google:
Si vous avez plusieurs pages contenant le même contenu, vous pouvez rattraper Google en cas de contenu en double. Mais si vous restreigniez les pages inutiles des moteurs de recherche et n’autorisiez qu’une seule page authentique dans les moteurs de recherche, vous ne seriez dans aucune politique de pénalisation de Google et des autres moteurs de recherche.
Conclusion
J’adore partager des conseils SEO peu connues qui peuvent vous donner un avantage réel à plus d’un titre.
En configurant correctement votre fichier robots.txt, vous n’améliorez pas uniquement votre propre référencement naturel. Vous aidez également vos visiteurs.
Si les robots des moteurs de recherche peuvent utiliser leurs temps d’analyse à bon escient, ils organiseront et afficheront votre contenu dans les SERP de la meilleure façon possible, ce qui signifie que vous serez plus visible.
En outre, la configuration de votre fichier robots.txt ne nécessite pas beaucoup d’efforts. C’est principalement une configuration unique, et vous pouvez y apporter de petites modifications si nécessaire.
Que vous démarriez votre premier ou votre cinquième site, l’utilisation de robots.txt peut faire toute la différence. Je vous recommande de faire un essai si vous ne l’avez pas fait avant.
Quelle est votre expérience dans la création de fichiers robots.txt?