Home Robots.txt

Robots.txt

Qu’est-ce qu’un fichier robots.txt ?


Le fichier robots.txt est un fichier texte que les webmasters créent pour indiquer aux robots web (généralement les robots des moteurs de recherche) comment explorer les pages de leur site web. Le fichier robots.txt fait partie du protocole d’exclusion des robots (REP), un groupe de normes Web qui régissent la manière dont les robots explorent le Web, accèdent au contenu, l’indexent et le présentent aux utilisateurs. Le REP comprend également des directives telles que les méta-robots, ainsi que des instructions concernant la manière dont les moteurs de recherche doivent traiter les liens (telles que « follow » ou « nofollow ») sur une page, un sous-répertoire ou un site.

En pratique, les fichiers robots.txt indiquent si certains agents utilisateurs (logiciels d’exploration du Web) peuvent ou non explorer certaines parties d’un site Web. Ces instructions d’exploration sont spécifiées en « interdisant » ou en « autorisant » le comportement de certains agents utilisateurs (ou de tous).

Format de base :

User-agent: [user-agent name]Disallow: [URL string not to be crawled]


Ensemble, ces deux lignes sont considérées comme un fichier robots.txt complet – bien qu’un fichier robots puisse contenir plusieurs lignes d’agents utilisateurs et de directives (c’est-à-dire, disallows, allows, crawl-delays, etc.).

Dans un fichier robots.txt, chaque ensemble de directives relatives aux agents utilisateur apparaît comme un ensemble distinct, séparé par un saut de ligne :

Dans un fichier robots.txt contenant plusieurs directives relatives aux agents utilisateurs, chaque règle d’interdiction ou d’autorisation ne s’applique qu’aux agents utilisateurs spécifiés dans cet ensemble particulier séparé par un saut de ligne. Si le fichier contient une règle qui s’applique à plusieurs agents utilisateurs, un robot d’exploration ne prêtera attention (et ne suivra les directives) qu’au groupe d’instructions le plus spécifique.

Voici un exemple :

Msnbot, discobot et Slurp sont tous nommés spécifiquement, de sorte que ces agents utilisateurs ne feront attention qu’aux directives dans leurs sections du fichier robots.txt. Tous les autres agents utilisateurs suivront les directives du groupe user-agent : *.

Exemples de robots.txt :


Voici quelques exemples de robots.txt en action pour un site www.example.com :

Fichier robots.txt URL : www.example.com/robots.txt


Bloquer l’accès de tous les crawlers web à tout le contenu

User-agent: * Disallow: /


L’utilisation de cette syntaxe dans un fichier robots.txt indiquerait à tous les robots Web de ne pas explorer les pages du site www.example.com, y compris la page d’accueil.

Autoriser tous les robots d’exploration à accéder à tout le contenu

User-agent: * Disallow: 


L’utilisation de cette syntaxe dans un fichier robots.txt permet aux robots d’explorer toutes les pages de www.example.com, y compris la page d’accueil.

Bloquer l’accès d’un crawler spécifique à un dossier spécifique

User-agent: Googlebot Disallow: /example-subfolder/


Cette syntaxe indique uniquement au robot d’exploration de Google (nom de l’agent utilisateur Googlebot) de ne pas explorer les pages qui contiennent la chaîne URL www.example.com/example-subfolder/.

Bloquer l’accès d’un robot d’exploration spécifique à une page Web donnée

User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html

Cette syntaxe indique uniquement au robot d’exploration de Bing (nom de l’agent utilisateur : Bing) d’éviter d’explorer la page spécifique à l’adresse www.example.com/example-subfolder/blocked-page.html.

Comment fonctionne le fichier robots.txt ?


Les moteurs de recherche ont deux tâches principales :

  1. Ils explorent le Web pour découvrir du contenu ;
  2. Indexer ce contenu afin de le proposer aux internautes qui recherchent des informations.

Pour explorer les sites, les moteurs de recherche suivent les liens pour se rendre d’un site à l’autre – en fin de compte, ils explorent des milliards de liens et de sites Web. Ce comportement d’exploration est parfois appelé « spidering ».

Après être arrivé sur un site Web, mais avant de l’explorer, le moteur de recherche recherche recherche un fichier robots.txt. S’il en trouve un, il lit d’abord ce fichier avant de continuer à parcourir la page. Comme le fichier robots.txt contient des informations sur la manière dont le moteur de recherche doit explorer le site, les informations qu’il contient vont guider l’action du crawler sur ce site particulier. Si le fichier robots.txt ne contient pas de directives interdisant l’activité d’un agent utilisateur (ou si le site n’a pas de fichier robots.txt), le moteur de recherche procédera à l’exploration d’autres informations sur le site.

Autres points à connaître rapidement dans le fichier robots.txt :

  • Pour être trouvé, un fichier robots.txt doit être placé dans le répertoire de premier niveau d’un site Web.
  • Le fichier robots.txt est sensible à la casse : le fichier doit être nommé « robots.txt » (et non pas Robots.txt, robots.TXT, ou autre).
  • Certains agents utilisateurs (robots) peuvent choisir d’ignorer votre fichier robots.txt. Cela est particulièrement fréquent avec les robots les plus malveillants, comme les robots de logiciels malveillants ou les racleurs d’adresses électroniques.
  • Le fichier /robots.txt est accessible au public : il suffit d’ajouter /robots.txt à la fin de n’importe quel domaine racine pour voir les directives de ce site web (si ce site possède un fichier robots.txt !). Cela signifie que n’importe qui peut voir quelles pages vous voulez ou ne voulez pas être explorées, alors ne les utilisez pas pour cacher des informations privées.
  • Chaque sous-domaine d’un domaine racine utilise des fichiers robots.txt distincts. Cela signifie que blog.exemple.com et exemple.com doivent avoir leurs propres fichiers robots.txt (à blog.exemple.com/robots.txt et exemple.com/robots.txt).
  • La meilleure pratique consiste généralement à indiquer l’emplacement de tout sitemap associé à ce domaine au bas du fichier robots.txt. Voici un exemple :

Syntaxe technique de robots.txt


La syntaxe de robots.txt peut être considérée comme le « langage » des fichiers robots.txt. Il existe cinq termes courants que vous êtes susceptible de rencontrer dans un fichier robots. Il s’agit des termes suivants

  • User-agent: Le robot d’exploration web spécifique auquel vous donnez des instructions d’exploration (généralement un moteur de recherche). Une liste de la plupart des agents utilisateurs peut être trouvée ici.
  • Disallow : La commande utilisée pour indiquer à un agent utilisateur de ne pas crawler une URL particulière. Une seule ligne « Disallow : » est autorisée pour chaque URL.
  • Allow (uniquement applicable à Googlebot) : Commande permettant d’indiquer à Googlebot qu’il peut accéder à une page ou à un sous-dossier même si la page ou le sous-dossier parent n’est pas autorisé.
  • Crawl-delay : Le nombre de secondes qu’un robot d’exploration doit attendre avant de charger et d’explorer le contenu d’une page. Notez que Googlebot ne reconnaît pas cette commande, mais que le taux d’exploration peut être défini dans Google Search Console.
  • Sitemap : Utilisé pour appeler l’emplacement de tout sitemap XML associé à cette URL. Notez que cette commande n’est prise en charge que par Google, Ask, Bing et Yahoo.

Filtrage par motif


Lorsqu’il s’agit de déterminer les URL à bloquer ou à autoriser, les fichiers robots.txt peuvent être assez complexes, car ils permettent d’utiliser le filtrage par motif pour couvrir une série d’options d’URL possibles. Google et Bing honorent tous deux deux expressions régulières qui peuvent être utilisées pour identifier les pages ou les sous-dossiers qu’un SEO souhaite exclure. Ces deux caractères sont l’astérisque (*) et le signe dollar ($).

  • * est un caractère générique qui représente toute séquence de caractères
  • $ correspond à la fin de l’URL

Google propose une excellente liste de syntaxes de filtrage possibles et des exemples ici.

Où se trouve le fichier robots.txt sur un site ?


Lorsqu’ils arrivent sur un site, les moteurs de recherche et les autres robots d’exploration du Web (comme Facebot, le robot d’exploration de Facebook) savent qu’ils doivent rechercher un fichier robots.txt. Mais ils ne recherchent ce fichier qu’à un endroit précis : le répertoire principal (généralement votre domaine racine ou votre page d’accueil). Si un agent utilisateur se rend sur www.example.com/robots.txt et ne trouve pas de fichier robots à cet endroit, il supposera que le site n’en a pas et procédera à l’exploration de tout ce qui se trouve sur la page (et peut-être même sur l’ensemble du site). Même si la page robots.txt existait, par exemple, à l’adresse exemple.com/index/robots.txt ou www.example.com/homepage/robots.txt, elle ne serait pas découverte par les agents utilisateurs et le site serait donc traité comme s’il n’avait aucun fichier robots.

Pour que votre fichier robots.txt soit trouvé, incluez-le toujours dans votre répertoire principal ou votre domaine racine.

Pourquoi avez-vous besoin de robots.txt ?


Les fichiers robots.txt contrôlent l’accès des robots à certaines zones de votre site. Bien que cela puisse être très dangereux si vous empêchez accidentellement Googlebot d’explorer l’ensemble de votre site ( !!), il existe certaines situations dans lesquelles un fichier robots.txt peut être très pratique.

Voici quelques cas d’utilisation courants :

  • Empêcher le contenu dupliqué d’apparaître dans les SERPs (notez que meta robots est souvent un meilleur choix pour cela).
  • Préserver la confidentialité de sections entières d’un site Web (par exemple, le site de préparation de votre équipe d’ingénieurs)
  • Empêcher les pages de résultats de recherche internes d’apparaître dans les SERP publiques.
  • Spécifier l’emplacement des sitemap(s)
  • Empêcher les moteurs de recherche d’indexer certains fichiers de votre site web (images, PDF, etc.)
  • Spécifier un délai d’indexation afin d’éviter que vos serveurs ne soient surchargés lorsque les robots d’indexation chargent plusieurs éléments de contenu à la fois.
  • Si vous ne souhaitez pas contrôler l’accès des agents utilisateurs à certaines zones de votre site, vous n’avez peut-être pas besoin d’un fichier robots.txt.

Vérifier si vous avez un fichier robots.txt


Vous ne savez pas si vous avez un fichier robots.txt ? Il suffit de taper votre domaine racine, puis d’ajouter /robots.txt à la fin de l’URL. Par exemple, le fichier robots de 42unicorn se trouve à l’adresse 42unicorn.com/robots.txt.

Si aucune page .txt n’apparaît, cela signifie que vous ne disposez pas actuellement d’une page robots.txt (active).

Comment créer un fichier robots.txt


Si vous avez découvert que vous n’aviez pas de fichier robots.txt ou si vous souhaitez modifier le vôtre, il est facile d’en créer un. Cet article de Google explique le processus de création du fichier robots.txt et cet outil vous permet de vérifier si votre fichier est correctement configuré.

Meilleures pratiques de référencement avec le robots.txt

  • Assurez-vous que vous ne bloquez pas le contenu ou les sections de votre site Web que vous souhaitez faire explorer.
  • Les liens sur les pages bloquées par robots.txt ne seront pas suivis. Cela signifie que 1) à moins qu’ils ne soient également liés à d’autres pages accessibles aux moteurs de recherche (c’est-à-dire des pages non bloquées par robots.txt, meta robots ou autre), les ressources liées ne seront pas explorées et ne seront peut-être pas indexées. 2.) Aucune équité de lien ne peut être transmise de la page bloquée à la destination du lien. Si vous avez des pages vers lesquelles vous voulez que l’équité soit transmise, utilisez un mécanisme de blocage différent de robots.txt.
  • N’utilisez pas robots.txt pour empêcher les données sensibles (comme les informations privées des utilisateurs) d’apparaître dans les résultats des SERP. Étant donné que d’autres pages peuvent renvoyer directement à la page contenant des informations privées (en contournant les directives robots.txt de votre domaine racine ou de votre page d’accueil), celle-ci peut quand même être indexée. Si vous souhaitez bloquer votre page dans les résultats de recherche, utilisez une autre méthode comme la protection par mot de passe ou la directive méta noindex.
  • Certains moteurs de recherche ont plusieurs agents utilisateurs. Par exemple, Google utilise Googlebot pour la recherche organique et Googlebot-Image pour la recherche d’images. La plupart des agents utilisateurs d’un même moteur de recherche suivent les mêmes règles. Il n’est donc pas nécessaire de spécifier des directives pour chacun des multiples robots d’un moteur de recherche, mais cette possibilité vous permet d’affiner la façon dont le contenu de votre site est exploré.
  • Un moteur de recherche met en cache le contenu du fichier robots.txt, mais met généralement à jour le contenu du cache au moins une fois par jour. Si vous modifiez le fichier et souhaitez le mettre à jour plus rapidement que ce n’est le cas, vous pouvez soumettre votre url robots.txt à Google.

Robots.txt vs meta robots vs x-robots


Tant de robots ! Quelle est la différence entre ces trois types d’instructions pour les robots ? Tout d’abord, robots.txt est un véritable fichier texte, tandis que meta et x-robots sont des directives méta. Au-delà de ce qu’ils sont réellement, ces trois types d’instructions ont des fonctions différentes. Robots.txt dicte le comportement d’exploration du site ou du répertoire dans son ensemble, tandis que meta et x-robots peuvent dicter le comportement d’indexation au niveau de chaque page (ou élément de page).