Le fichier robots.txt est un fichier textuel très important pour les moteurs de recherche et les robots d’indexation (robots web Navigation). Il sert à donner des instructions aux robots d’exploration venant visiter votre site web. Il agit donc comme une sorte de portier, en guidant les robots sur les zones à explorer ou non de votre site web.
Lorsqu’un robot d’exploration visite un site web, l’une de ses premières actions consiste à demander le fichier /robots.txt du site. A la réception de ce fichier, le robot comprend quelles sections du site web l’instructeur lui permet ou non de crawler.
Par exemple, votre fichier robots.txt peut donner l’autorisation à tous les robots de visiter toutes les sections de votre site web. Ou à l’inverse, il peut indiquer aux robots d’ignorer certaines sections.
Voici un exemple de contenu de fichier robots.txt :
User-agent: \*
Disallow:
“User-agent: \*” signifie que cette section s’applique à tous les robots. “Disallow: “ est une instruction indiquant au robot qu’il ne doit pas visiter toutes les pages du site – l’URL après “Disallow: “ est l’URL à ne pas visiter (en l’absence d’URL après “Disallow: “, cela signifie que tous les robots peuvent visiter toutes les sections du site.
Le fichier robots.txt est utile pour éviter le surpeuplement des serveurs – les robots peuvent ralentir votre site web, surtout s’ils tentent d’accéder à des pages qui sont lourdes en termes de ressources. C’est également pratique pour éviter d’indexer les pages dupliquées générées par certains CMS (outils de gestion de contenu).
Il faut noter que le fichier robots.txt n’est pas destiné à cacher votre site web ou certaines de ses sections, puisqu’il ne garantit pas un anonymat total. Les moteurs de recherche respectent généralement les directives du fichier robots.txt, mais certains robots plus malveillants risquent de ne pas le faire.
Pour résumer, le fichier robots.txt est un outil puissant pour communiquer avec les moteurs de recherche, en les orientant vers les sections importantes de votre site et en les éloignant des sections qui ne sont pas destinées à être référencées (ou indexées).
Source de l’information : Pour plus d’informations, vous pouvez consulter le Guide du développeur Google sur le protocole d’exclusion des robots disponible sur : https://developers.google.com/search/docs/advanced/robots/intro
Autre source utile : Introduction aux Robots.txt de MOZ : https://moz.com/learn/seo/robotstxt