Robots.txt, ce qu’il faut savoir


Ce petit fichier, placé à la racine des répertoires de votre site sert à empêcher les robots (Google, Yahoo et consorts) d’accéder à tout ou partie de votre site web.

Lorsque votre site est en cours de développement mais accessible par votre client il vaut mieux interdire les robots d’y accéder.

Il ne doit pas excéder un certain poids, Google par exple n’explore pas les fichiers robots.txt > 500 Ko (c’est déjà énorme !). On a même tendance à dire qu’il ne doit pas dépasser 62 Ko.

Il doit être écrit en minuscules (robots.txt) et non ROBOTS.TXT ou ROBOTS.txt.

Attention, le fichier robots.txt n’est valable que pour le domaine en question. Par exemple si vous en placez un à la racine de http://example.com/ il est valable pour http://example.com/folder/file mais pas pour http://autre.example.com/ ni pour https://autre.example.com/

Quelques exemples de contenu du fichier robots.txt :

User-agent: *
Disallow: /

User-agent: * signifie que tous les robots sont concernés et qu’on leur interdit (Disallow) d’accéder à l’ensemble des répertoires. Cela a donc pour effet de bloquer les robots de votre site.

 

User-agent: *
Disallow:

Dans cet exemple on autorise tous les robots à accéder à l’ensemble du site (puisqu’on interdit rien comme il n’y a rien à côté de « Disalllow »)

 

User-agent: *
Disallow: /repertoire-a/
Disallow: /page-b.html

Dans cet exemple on empêche les robots d’accéder à un répertoire et à une page en particulier

 

User-agent: Googlebot
Disallow: /repertoire-a/

Googlebot est le nom du robot d’exploration de Google, on interdit donc ici à Google d’accéder à un répertoire

A savoir : certains robots malveillants ne tiennent pas compte des instructions que vous indiquez dans le fichier robots. txt

Attention, certaines pratiques qui étaient vraies pour Google ne le sont plus aujourd’hui (depuis la mise à jour de l’algorithme de Google Panda). Pour un site wordpress par exemple il n’est plus très bon d’empêcher (donc de mettre en Disallow) le répertoire wp-includes car celui-ci contient tout ce qui est CSS et JS. Google pourrait en effet déclasser vos résultats. 

+ d’infos sur ce sujet :

Liens utiles :