Qu'est-ce que le fichier Robots.txt dans un domaine?

Si vous possédez un site Web et que vous vous souciez de la santé de votre site en matière de référencement, vous devez vous familiariser avec le fichier robots.txt de votre domaine. Croyez-le ou non, le nombre inquiétant de personnes qui lancent rapidement un domaine, installent un site Web WordPress rapide et ne dérangent jamais pour rien avec leur fichier robots.txt.

C'est dangereux. Un fichier robots.txt mal configuré peut réellement détruire la santé de votre site en termes de référencement et endommager vos chances d'accroître votre trafic..

Qu'est-ce que le fichier Robots.txt??

le Robots.txt Le fichier porte bien son nom car il s'agit essentiellement d'un fichier qui répertorie les directives des robots Web (comme les robots des moteurs de recherche) sur la manière dont ils peuvent explorer votre site Web. Il s’agit d’une norme Web suivie par les sites Web depuis 1994 et tous les principaux robots d'exploration de Web adhèrent à la norme..

Le fichier est stocké au format texte (avec une extension .txt) dans le dossier racine de votre site Web. En fait, vous pouvez visualiser le fichier robot.txt de n’importe quel site Web en tapant simplement le domaine suivi de /robots.txt. Si vous essayez cela avec groovyPost, vous verrez un exemple de fichier robot.txt bien structuré.

Le fichier est simple mais efficace. Cet exemple de fichier ne fait pas la différence entre les robots. Les commandes sont envoyées à tous les robots en utilisant le Agent utilisateur: * directif. Cela signifie que toutes les commandes qui suivent s’appliquent à tous les robots qui visitent le site pour l’explorer..

Spécifier les Web Crawlers

Vous pouvez également spécifier des règles spécifiques pour des robots Web spécifiques. Par exemple, vous pouvez autoriser Googlebot (le robot d'indexation Web de Google) à analyser tous les articles de votre site, mais vous pouvez également interdire au robot d'indexation russe Yandex Bot d'analyser des articles de votre site contenant des informations dénigrantes sur la Russie..

Il existe des centaines de robots Internet qui parcourent Internet pour rechercher des informations sur les sites Web, mais vous trouverez ci-dessous la liste des 10 problèmes les plus courants..

Googlebot: Moteur de recherche Google
Bingbot: Moteur de recherche Bing de Microsoft
Slurp: Moteur de recherche Yahoo
DuckDuckBot: Moteur de recherche DuckDuckGo
Baiduspider: Moteur de recherche chinois Baidu
YandexBot: Moteur de recherche russe Yandex
Exabot: Moteur de recherche français Exalead
Facebot: Le robot d'exploration de Facebook
ia_archiver: Le crawler du classement Web d'Alexa
MJ12bot: Base de données d'indexation de liens volumineux

Dans l'exemple de scénario ci-dessus, si vous souhaitez autoriser Googlebot à tout indexer sur votre site, mais que vous souhaitez empêcher Yandex d'indexer le contenu de votre article en russe, vous devez ajouter les lignes suivantes à votre fichier robots.txt..

Agent utilisateur: googlebot Interdire: Interdire: / wp-admin / Interdit: /wp-login.php

Agent utilisateur: yandexbot Interdire: Interdire: / wp-admin / Interdit: /wp-login.php Interdit: / la Russie /

Comme vous pouvez le constater, la première section empêche uniquement Google d'explorer votre page de connexion WordPress et vos pages administratives. La deuxième section bloque Yandex du même contenu, mais également de toute la zone de votre site sur laquelle vous avez publié des articles au contenu anti-russe..

Ceci est un exemple simple de la façon dont vous pouvez utiliser le Refuser commande permettant de contrôler des robots Web spécifiques qui visitent votre site Web.

Autres commandes Robots.txt

Interdire n'est pas la seule commande à laquelle vous avez accès dans votre fichier robots.txt. Vous pouvez également utiliser l'une des autres commandes qui indiqueront comment un robot peut explorer votre site..

Refuser: Indique à l'agent utilisateur d'éviter d'analyser des URL spécifiques ou des sections entières de votre site.
Permettre: Vous permet d'affiner des pages ou des sous-dossiers spécifiques sur votre site, même si vous avez peut-être interdit un dossier parent. Par exemple, vous pouvez interdire: / about /, mais autoriser ensuite: / about / ryan /..
Délai d'attente: Cela indique au robot d'attendre xx secondes avant de commencer à analyser le contenu du site.
Plan du site: Indiquez aux moteurs de recherche (Google, Ask, Bing et Yahoo) l'emplacement de vos sitemaps XML..

Gardez à l'esprit que les robots vont seulement écoutez les commandes que vous avez fournies lorsque vous spécifiez le nom du bot.

Les gens commettent souvent l’erreur de ne pas autoriser les zones telles que / wp-admin / de tous les bots, mais spécifiez ensuite une section googlebot et interdisent uniquement d’autres zones (comme / à propos de /)..

Étant donné que les robots ne suivent que les commandes spécifiées dans leur section, vous devez reformuler toutes les autres commandes que vous avez spécifiées pour tous les robots (en utilisant l'agent * user-agent)..

Refuser: La commande utilisée pour dire à un agent utilisateur de ne pas analyser une URL particulière. Une seule ligne «Interdit:» est autorisée pour chaque URL..
Autoriser (applicable uniquement pour Googlebot): Commande permettant d'indiquer à Googlebot qu'il peut accéder à une page ou à un sous-dossier, même si sa page ou son sous-dossier parent peut être interdit.
Délai d'attente: Combien de secondes un robot devrait attendre avant de charger et d’analyser le contenu de la page. Notez que Googlebot ne reconnaît pas cette commande, mais que le taux d'analyse peut être défini dans la console de recherche Google..
Plan du site: Utilisé pour appeler l'emplacement d'un ou de plusieurs sitemap XML associés à cette URL. Notez que cette commande est uniquement prise en charge par Google, Ask, Bing et Yahoo..

N'oubliez pas que robots.txt est conçu pour aider les robots légitimes (comme les robots des moteurs de recherche) à explorer votre site plus efficacement..

Il existe de nombreux robots d'exploration néfastes qui explorent votre site pour capturer des adresses e-mail ou voler votre contenu. Si vous souhaitez utiliser votre fichier robots.txt pour empêcher les robots d'exploration d'explorer quoi que ce soit sur votre site, ne vous embêtez pas. Les créateurs de ces robots ignorent généralement tout ce que vous avez mis dans votre fichier robots.txt..

Pourquoi interdire quoi que ce soit?

Faire en sorte que le moteur de recherche de Google explore le plus de contenu possible sur votre site Web est une préoccupation majeure pour la plupart des propriétaires de site Web..

Cependant, Google ne dépense qu’une somme limitée budget d'analyse et taux de crawl sur des sites individuels. Le taux d'analyse correspond au nombre de requêtes par seconde que Googlebot adressera à votre site au cours de l'événement d'analyse..

Plus important encore, le budget d'analyse représente le nombre total de requêtes que Googlebot effectuera pour analyser votre site au cours d'une session. Google "dépense" son budget d'exploration en se concentrant sur les zones de votre site qui sont très populaires ou qui ont changé récemment.

Vous n'êtes pas aveugle à cette information. Si vous visitez Google Webmaster Tools, vous pouvez voir comment le robot analyse votre site..

Comme vous pouvez le constater, le robot veille au quotidien à une activité constante sur votre site. Il ne parcourt pas tous les sites, mais uniquement ceux qu'il considère comme les plus importants..

Pourquoi laisser à Googlebot le soin de décider de ce qui est important pour votre site, lorsque vous pouvez utiliser votre fichier robots.txt pour lui indiquer les pages les plus importantes? Cela empêchera Googlebot de perdre du temps sur les pages de faible valeur de votre site..

Optimiser votre budget d'exploration

Google Webmaster Tools vous permet également de vérifier si Googlebot lit correctement votre fichier robots.txt et s'il y a des erreurs..

Cela vous aide à vérifier que vous avez structuré votre fichier robots.txt correctement.

Quelles pages devez-vous interdire à Googlebot? Il est bon que votre site, le référencement, interdise les catégories de pages suivantes..

Pages dupliquées (comme des pages imprimables)
Merci pages après les commandes basées sur des formulaires
Formulaires de demande de commande ou d'information
Pages de contact
Pages de connexion
Pages de vente "aimant principal"

Ne pas ignorer votre fichier Robots.txt

La plus grande erreur que commettent les nouveaux propriétaires de site Web est de ne jamais regarder leur fichier robots.txt. La pire situation pourrait être que le fichier robots.txt bloque réellement votre site, ou des zones de votre site, de tout exploration..

Veillez à examiner votre fichier robots.txt et à vous assurer qu'il est optimisé. De cette façon, Google et d'autres moteurs de recherche importants "voient" toutes les choses fabuleuses que vous proposez au monde avec votre site Web..