Robots.txt : 5 bonnes pratiques pour le SEO

Vous maîtrisez les bases du fichier robots.txt, mais il est temps de creuser un peu plus ! Les fichiers robots.txt sont principalement utilisés pour guider les...

Voir l'article complet Partager Tweeter

Le blog Codeur.com

Publié le 15 octobre 2019 par Sebastien Turbe

Vous maîtrisez les bases du fichier robots.txt, mais il est temps de creuser un peu plus ! Les fichiers robots.txt sont principalement utilisés pour guider les robots des moteurs de recherche en utilisant des règles pour les bloquer ou leur permettre d’accéder à certaines parties de votre site.

Bien que la façon la plus simple d’utiliser le fichier robots.txt soit de bloquer les robots dans des répertoires entiers, il existe plusieurs fonctions avancées qui donnent un contrôle plus précis sur la façon dont votre site est indexé.

Voici cinq conseils pour ceux qui veulent être un peu plus en pointe dans leur gestion de bot….

Délai de crawl

Supposons que vous exploitez un grand site web avec une fréquence élevée de mises à jour. Disons que c’est un site d’information. Chaque jour, vous postez des dizaines de nouveaux articles sur votre page d’accueil. En raison du grand nombre de mises à jour, les robots des moteurs de recherche crawlent constamment votre site, entraînant une lourde charge sur vos serveurs.

Le fichier robots.txt vous donne un moyen simple d’y remédier : la directive « crawl delay ». Cette directive demande aux robots d’attendre un certain nombre de secondes entre les requêtes. Par exemple :

User-agent : Bingbot

Crawl delay : 10

L’un des avantages de cette directive est qu’elle vous permet de limiter le nombre d’URL parcourues par jour sur des sites importants. Si vous réglez votre délai d’exploration à 10 secondes, comme dans l’exemple ci-dessus, cela signifie que Bingbot crawlerait un maximum de 8640 pages par jour (60 secondes x 60 minutes x 24 heures / 10 secondes = 8640). Malheureusement, tous les moteurs de recherche (ou les robots en général d’ailleurs) ne reconnaissent pas cette directive, le plus notable étant Google.

Filtrer une chaîne de caractères

Le filtrage de caractères génériques vous permet de vérifier la présence de chaînes de caractères à l’intérieur de blocs de données brutes.

Cela peut être très utile, en particulier lorsque vous avez besoin que les bots ne crawlent certains types de fichiers ou d’expressions. Il permet un contrôle plus fin que l’approche qui consiste à bloquer des répertoires entiers, et vous évite d’avoir à lister chaque URL que vous voulez bloquer individuellement.

La forme la plus simple serait d’utiliser le caractère générique (*). Par exemple, la directive suivante bloque tous les sous-répertoires du dossier « private » pour le bot de Google :

User-agent : Googlebot

Disallow : /private*/

Vous pouvez faire correspondre la fin d’une chaîne de caractères à l’aide du signe dollar. Ce qui suit, par exemple, bloquerait toutes les URL se terminant par « .asp » :

User-agent : *

Disallow : /*.asp$

Un autre exemple : pour bloquer toutes les URL qui contiennent le caractère point d’interrogation ( ?), utilisez la commande suivante :

User-agent : *

Disallow : /* ?*

Vous pouvez également utiliser cette technique pour bloquer les robots pour des types de fichiers spécifiques, dans cet exemple les fichiers.gif :

User-agent : *

Disallow : /*.gif$

La directive « Allow »

Si vous avez lu jusqu’ici, vous connaissez probablement la directive d’interdiction « disallow ». Une directive moins connue est la directive « allow ». Comme vous pouvez le deviner la directive « allow » fonctionne de manière opposée à la directive disallow. Au lieu de bloquer les robots, on spécifie les chemins auxquels les robots désignés peuvent accéder.

Cela peut être utile dans un certain nombre de cas. Par exemple, disons que vous avez interdit une section entière de votre site, mais que vous voulez quand même que les robots explorent une page spécifique de cette section.

Dans l’exemple suivant, le Googlebot n’est autorisé à accéder au répertoire « google » du site web :

User-agent : Googlebot

Disallow : /

Allow : /google/

Directive Noindex

Contrairement à la directive « disallow », la directive « noindex » n’empêchera pas votre site d’être parcouru par les robots des moteurs de recherche. Cependant, cela empêchera les moteurs de recherche d’indexer vos pages.

Bon à savoir : il supprimera également ces pages de l’index. Ceci a des avantages évidents, par exemple si vous avez besoin qu’une page contenant des informations sensibles soit supprimée des pages de résultats des moteurs de recherche.

Notez que « noindex » est officieusement supporté par Google mais pas par Bing.

Vous pouvez combiner les directives « disallow » et « noindex » pour empêcher les pages d’être parcourues et indexées par les robots :

User-agent : *

Noindex : /private/

User-agent : *

Disallow : /private/

Sitemap

Les sitemaps XML sont un autre outil essentiel pour optimiser votre site, surtout si vous voulez que les robots des moteurs de recherche trouvent et indexent vos pages !

Avant qu’un bot ne trouve votre page, il doit d’abord trouver votre sitemap XML.

Pour vous assurer que les robots des moteurs de recherche trouvent votre sitemap XML, vous pouvez ajouter son emplacement à votre fichier robots.txt :

Sitemap : https ://www.votresite.com/sitemap.xml

N’hésitez pas à faire appel à un développeur sur Codeur.com pour paramétrer votre fichier robots.txt, plus de 3 000 développeurs sont disponibles chaque jour.

Lire la suite de l'article

Newsletter WebActus

Abonnez-vous pour recevoir notre sélection des meilleurs articles directement dans votre boîte mail.

Nous ne partagerons pas votre adresse e-mail.

Toutes les catégories