Besoin d'aide ?

Si vous êtes un utilisateur Premium Premium, venez poser votre question dans le forum privé.


7.3 Édition du fichier robots.txt

Le fichier robots.txt est un fichier texte qu'on place à la racine de son site et qui a pour vocation de décrire ce que peuvent indexer les moteurs de recherche : lorsqu'un bot arrive sur votre site, il cherche si un fichier robots.txt s'y trouve; auquel cas, il le lit et prend en compte les règles qui s'y trouve.   En son absence, le bot présume qu'il peut parcourir l'intégralité du site et tout indexer.

Spécifier un fichier robots.txt permet donc d'influencer le comportement du bot : 

  1. Que peut-il indexer; que doit-il ignorer...
  2. Avez-vous une carte du site (sitemap)?
  3. Souhaitez-vous ne pas indexer certaines urls ? (éviter le 'duplicate content')
  4. Bouts de code
    1. Interdire totalement votre site aux moteurs de recherche
    2. Interdire certaines URLs
    3. Ne pas indexer ... robots.txt
    4. Fichier robots.txt natif de Joomla!®

Prenez bien en considération que le respect du fichier robots.txt n'est pas une obligation : les bots traditionnels (Google, Bing, Yahoo, ...) le respectent mais certains bots peu scrupuleux pourrait l'ignorer totalement.  Sachez aussi que le fichier robots.txt est accessible par url (http://votre-site/robots.txt); n'importe qui pouvant ouvrir le fichier et lire ce que vous y aurez inscrit.

Que peut-il indexer ... ou pas

Le but premier du fichier robots.txt est d'indiquer ce que le moteur de recherche ne doit pas indexer càd ce qu'il ne peut pas proposer dans les pages de résultat.  Typiquement, vous allez interdire l'indexation du dossier d'administration de votre site.   Cela sera du plus mauvais effet que quelqu'un tape p.ex. "joomla administrator" dans Google et tombe sur votre page.

La syntaxe pour interdire cela est :

User-agent: *
Disallow: /administrator

La première ligne cible tous les moteurs de recherche (vous pourriez autoriser le bot de Google et interdire celui de Bing p.ex.; la seconde page interdit d'indexer toutes les URLs dirigeant vers votre page d'administration.

Typiquement, vous allez avoir une ligne Disallow: par dossier de votre site que vous ne voulez pas voir repris dans les moteurs de recherche.   

En l'absence d'une clause, c'est donc Allow: qui est de mise : un dossier n'étant pas repris dans une clause Disallow: étant donc indexable.

Où se trouve votre carte du site (sitemap)?

Le fichier robots.txt étant lu par les bots, il est l'endroit privilégié pour y mentionner la / les carte(s) de votre site (sitemap).    Il s'agit d'un fichier .xml qui recense toutes les URLs du site que vous voulez indexer et donc faire connaître publiquement.    Le sitemap peut être précisé immédiatement dans le fichier; la syntaxe étant : 

Sitemap: http://votre-site/sitemap.xml

Sous Joomla!®, utilisez le plugin nommé Xmap pour générer très facilement votre carte du site; dynamiquement.

Certaines urls doivent-elles être bloquées ?

Avec les sites dynamiques, il est très probable que vous puissiez avoir plusieurs URLs pour accéder à la même page et que, pas de chance, les moteurs de recherche indexeront.

Cette même page peut être consultée depuis l'adresse suivante :

  1. https://www.aesecure.com/fr/documentation/fonctionnalites/68-edition-robots-txt.html?tmpl=component

Problème : vous aurez donc la même page indexée deux fois et ... vous serez pénalisé pour cela! En effet, le moteur de recherche va comprendre que votre contenu est dupliqué (duplicate content). Pour éviter cela, vous pouvez éduquer le bot : non, il ne faut pas indexer les pages dès lors que l'url contient le paramètre ?tmpl=component.

User-agent: *
Disallow: /*?tmpl=component

Quelques codes prêts à l'emploi

Interdire totalement l'indexation de votre site web

Idéal lorsque votre site est en construction et accessible sur le net :

User-agent: *
Disallow:

Interdire certaines URLs

Indique qu'il ne faut pas indexer les pages dès lors que l'url se termine par :

User-agent: *
Disallow: /*?print=1
Disallow: /*?tmpl=component

Ne pas indexer le fichier robots.txt lui-même

Afin que le moteur de recherche ne fasse pas apparaître votre fichier robots.txt dans la page de ses résultats :

Disallow: /robots.txt

Le fichier robots.txt natif de Joomla!®:

Fichier robots.txt installé en même temps que Joomla!®:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
  1. Bouton restaurer
  2. Pour en apprendre davantage sur le fichier robots.txt : Robots-txt.com
  3. robots.txt tutorial - your guide for the search engines - For the Love of SEO : For the Love of SEO
  4. Logiciel de contrôle de validité du fichier robots.txt : http://tool.motoricerca.info/robots-checker.phtml
  5. Plus pour le fun que réellement utile : humanstxt.org
  6. Demander à désindexer une page sur Google : Google Webmaster Tools - My Removal Requests
Back to top