Tutoweb

Robots.txt

Avant de parcourir votre site web, la plupart des robots (spiders) font appel au fichier robots.txt. Comme son nom l'indique, il s'agit d'un fichier texte qui contient des règles d'exclusion qui définissent le moteur de recherche concerner et les fichiers à ignorer. C'est le cas par exemple des pages en construction qui n'ont aucun intérêt d'être repris par les moteurs de recherche.

Ce fichier n'est évidemment pas obligatoire et à défaut, le robot considère qu'il peut tout indexer. Il répond également à une norme d'exclusion (Robots Exclusion Standard) qui est censée être universelle.

Créer un fichier robots.txt

Pour créer le fichier, ouvrez un éditeur de texte de type Bloc-notes de Windows. Enregistrer le document sous le nom de « robots.txt » (en minuscules et au pluriel) puis envoyez-le sur le serveur distant à la racine du site www.monsite.com/robots.txt Il faut pour cela posséder un nom de domaine car les offres d'hébergement gratuites ne permettent pas de remonter à la racine du site.

Configurer le contenu

Exemple de fichier robots.txt

La première ligne est un commentaire. Il doit toujours commencer par # et tenir sur une ligne.

Le bloc des 3 lignes suivantes forme ce qu'on appelle un enregistrement. Chaque enregistrement commence par définir le type de robot visé (User-agent) ensuite les instructions à suivre. Dans l'exemple, l'enregistrement s'adresse à tous les robots (*) et doit ignorer (disallow) tout ce qui se trouve dans le répertoire private ainsi que tout les documents private.

Le deuxième enregistrement est séparé par un retour à la ligne vide. Il interdit au robot de Google d'indexer tous les fichiers textes dans le dossier import ainsi que la page referencement.html qui se trouve dans le dossier acorriger.

Quelques noms de robots
Nom du moteur User-Agent
Alta Vista Scooter
Excite ArchitextSpider
Google Googlebot
HotBot Slurp
Lycos T-Rex
Msn MsnBot
Voilà Echo

Statistiques

Robots.txtOn l'a vu ce fichier est facultatif. Cela dit, si aucun document n'est disponible pour le robot, il renvoie au serveur un message d'erreur qui est comptabilisé dans vos statistiques. Rien de bien méchant mais personnellement je préfère éviter ce genre de retour.

Dans l'exemple ci-contre, j'indique que tous les moteurs sont autorisés à indexer tout le contenu du site.

 

Réalisé le 24 avril 2006.
Haut de la page