GoogleBot : surveiller son activité dans Google Analytics
En règle générale, les serveurs Web tiennent un journal de chaque requête reçue dans un fichier...
En règle générale, les serveurs Web tiennent un journal de chaque requête reçue dans un fichier...
Alors qu’il semblait avoir un charme un peu désuet, le néon effectue un véritable retour en force dans l’univers du graphisme....
La fin de l’année approche à grand pas et vous vous demandez surement s’il est indispensable d’envoyer des cartes de...
Agorapulse organise What’s Up Social les 4 et 5 décembre prochain. Cet événement à destination des professionnels du social...
Retrouvez en vidéo l’évolution des langages de programmation les plus populaires depuis 1965. The post Les langages de programmation les...
L’évènement incontournable de l’inbound marketing et du digital revient pour sa troisième édition le mardi 28 janvier...
Facebook continue ses expérimentations et lance Whale, une app pour générer des mèmes. The post Facebook a discrètement...
Le calendrier éditorial est un outil incontournable pour planifier ses contenus et construire une stratégie digitale solide. Il vous permettra...
La compression est essentielle afin d’améliorer le chargement de vos pages web. C’est un critère de référencement pour...
En matière de content marketing, les approches évoluent très rapidement. Aussi, il n’est pas étonnant qu’en 2020, de...
En règle générale, les serveurs Web tiennent un journal de chaque requête reçue dans un fichier « log ». Les fichiers logs...
En règle générale, les serveurs Web tiennent un journal de chaque requête reçue dans un fichier « log ».
Les fichiers logs du serveur contiennent un enregistrement de chaque fichier servi à un client web, y compris les pages servies à Googlebot, et révèlent des informations précieuses sur la façon dont les moteurs de recherche explorent un site web.
Cependant, les fichiers logs sont souvent difficiles d’accès et de traitement. L’utilisation de Google Analytics pour suivre Googlebot est une technique alternative intéressante pour quiconque cherche à analyser le crawl d’un moteur de recherche, sans la corvée fastidieuse et chronophage de devoir analyser les fichiers logs.
Chaque fois qu’un fichier est demandé à un serveur web (lorsqu’un utilisateur visite une page via son navigateur ou qu’un robot de moteur de recherche parcourt une URL), une ligne de texte est ajoutée à un fichier log.
La ligne de texte détaille l’heure et la date de la demande, l’adresse IP de la demande, l’URL ou le contenu demandé, et le user agent du navigateur :
188.65.114.122 –[24/Oct/2019:08:07:05 -0400] "GET /resources/whitepapers/ retail-whitepaper/ HTTP/1.1" 200 "-" "Mozilla/5.0 (compatible ; Googlebot/2.1 ; +http ://www.google.com/bot.html)
Généralement, un nouveau fichier log est créé chaque jour avec un nouveau nom de fichier.
En isolant les requêtes d’une même adresse IP et d’un même user agent, il est possible de reconstituer l’activité d’un visiteur individuel. Avant l’invention des logiciels d’analyse tiers, ce type de données était la principale source d’information pour analyser les statistiques d’un site.
En plus de l’activité de l’utilisateur, l’analyse des logs fournit un aperçu, au niveau des pages, de l’activité des robots de recherche.
Comme les robots d’exploration n’exécutent généralement pas JavaScript, les pages vues ne sont pas enregistrées avec un logiciel d’analyse tel qu’Analytics. Les fichiers logs fournissent donc des données d’exploration des moteurs de recherche au niveau de l’URL non disponibles ailleurs. Ces données peuvent être utiles pour optimiser l’architecture de votre site pour une exploration aussi efficace que possible.
L’analyse des fichiers journaux est également pratique pour identifier les crawlers de faible valeur mais de haute activité, ce qui vous permet de les bloquer et de réduire la charge du serveur. Une recherche DNS inversée sur les adresses IP est nécessaire pour valider l’authenticité des robots, car le champ de l’agent utilisateur peut être « spoofé ».
Bien que souvent utile, un certain nombre de problèmes entourent l’analyse des fichiers logs.
Ce petit bidouillage d’Analytics utilise le protocole de mesure pour stocker les informations du fichier log dans un compte Google Analytics, accessible en temps réel.
Une fois implémenté, le hack élimine complètement le besoin de traiter les fichiers logs. Cependant, il vous faut développer et exécuter un script personnalisé assez simple sur votre serveur web afin de surveiller chaque requête.
La plupart des gens n’ont pas les compétences nécessaires pour développer et installer un script sur le serveur – vous pouvez vous adresser à un professionnel pour obtenir de l’aide.
Si le user agent est Googlebot, le script peut générer une requête HTTP vers le serveur Google Analytics, en stockant les mêmes informations que celles qui seraient normalement envoyées dans le fichier log, en l’encodant dans l’URL de la requête :
http ://www.google-analytics.com/collect ?uip=127.0.0.1&cs=page+title&tid=UA-xxxxxxxxx&dp= %2Ftest&dt=127.0.0.1+ %28Mozilla %2F5.0+ %28Macintosh %3B+Intel+Mac+OS+X+10_9_5 %29+AppleWebKit %2F537.36+ %28KHTML %2C+ like+Gecko %29+Chrome %2F44.0.2403.157+Safari %2F537.36 %29&dh=example.com& cid=316c4790-2eaf-0133-6785-2de9d37163a1&t=pageview&v=1
Les informations seront enregistrées dans Google Analytics, sous la forme d’une page vue.
Plus de détails sur le protocole de mesure sont disponibles sur le site de Google Developers.
Il est préférable de stocker ces informations dans un compte Google Analytics distinct du compte d’activité principal de l’utilisateur.
L’utilisation de Google Analytics pour suivre Googlebot, est la méthode la plus efficace pour qui souhaite analyser le crawl d’un moteur de recherche. Il évite de passer des heures à éplucher les logs quotidiens, hebdomadaires ou mensuels, qui sont des fichiers assez peu accessibles et difficilement compréhensibles.
Si vous souhaitez connaître avec précision le comportement de GoogleBot sur votre site, tout en vous épargnant des maux de tête, alors c’est la solution qu’il vous faut.
Et bien sûr, avant de toucher à votre serveur sans trop savoir comment faire, n’hésitez pas à faire appel à un freelance capable d’effectuer ce travail !
Abonnez-vous pour recevoir notre sélection des meilleurs articles directement dans votre boîte mail.
Nous ne partagerons pas votre adresse e-mail.