Analyse Web, Prospection et VHS

Dans le monde du Web analytique, utiliser les logs plutôt qu’un marqueur (tag) pour récolter les données est l’équivalent d’utiliser une antenne pour sa TV au lieu du câble. Ça fonctionne, mais c’est limite avouons-le. C’est pourtant ce que les soi-disant “analystes Web” chez Prospection suggèrent sur leur site :

Confidentialité?
La confidentialité et sécurité seraient-elles à craindre chez des fournisseurs de technologies de marqueur comme Google, Percute, Xiti, Webtrends ou Omniture? Je ne crois pas. Ces fournisseurs ont la responsabilité des données de leurs clients, chose qu’ils ne prennent pas à la légère. Comme les banques. A-t-on encore peur de déposer de l’argent à la banque? Et peut-on en dire autant de la sécurité Web des clients eux-mêmes où sont stockés ces logs?
Informations non retenues?
Il est écrit « Les fichiers de logs fournissent aussi des informations non retenues par les méthodes d’analyse par tags ». Ha oui? Lesquelles? Si je regarde un format de log, je ne vois rien qui ne peut être enregistré par un marqueur. Rien de nécessaire du moins.
N’importe quelle question?
« Si nous avons les fichiers logs, posez-nous n’importe qu’elle question sur l’achalandage de votre site… ». D’accord, allons-y :
- Combien de fois le bouton play mon vidéo a-t-il été cliqué?
- Comment comptabiliser les clics du gros bouton « Nouvelles » de la page d’accueil?
- Quelle version Flash est utilisée par la plupart de mes visiteurs?
- Quel est le produit le plus souvent ajouté au panier?
- Sur quel lien les visiteurs cliquent-ils pour quitter?
- Comment peut-on regrouper toutes les pages produits dans un indice de performance « produit »?
- Comment peut-on mesurer l’activité de mon jeu promotionnel construit en Flash?
- Mon site est en AJAX, comment faire un suivi efficace?
Alors, les réponses? Pourtant, avec un marqueur je vous règle ça avec un doigt dans le nez. Avec un log, c’est impensable.
Le seul avantage du log qui n’en est pas vraiment un
Les logs ont seulement un avantage. Soit de ne pas avoir à installer de marqueur. Le marqueur doit être placé manuellement dans toutes les pages. En réalité, les sites bien conçus ont un pied de page alors le marqueur ne se retrouve qu’à un seul endroit. Et même là, l’effort en vaut largement la peine pour tous les bénéfices que ça procure.
Les logs pour le serveur, le marqueur pour le Web
Les logs pour de l’analyse Web, c’est dépassé. Les leaders de l’industrie utilisent le marqueur ou, au pire, un mixte marqueur-logs. Même Webtrends est passé au marqueur depuis longtemps! Les logs sont pour suivre l’activité du serveur. Les marqueurs, pour suivre l’activité d’un site Web. Je ne recommanderais pas d’utiliser les logs pour aucune raison.
Bref, je ne comprends pas l’intérêt de Prospection de promouvoir le log si ce n’est que par incompétence. Je crois qu’ils devraient se mettre à jour et tenter d’amener leur clients à un autre niveau plutôt que de leur vendre un magnétoscope VHS. Au final, ils se tirent dans le pied et c’est dommageable autant pour eux que pour l’industrie.
Categorie: Web analytique 19 comments »



Quelque chose que j’aimais bien de Urchin avant qu’il ne soit acheter par Google et devienne Google Analytics était la possiblité de voir le crawl rate des différents moteurs de recherche dans la solution Analytics. C’est impossible avec un tracking fait par tag (les bots ne lisent pas la javascript). Une autre source de trafic que les analytics par tag ne détecte pas est le trafic qui bloque javascript. D’ailleurs, Google vends toujours Urchin (en version amélioré depuis le temps). Un problème majeur des logs cependant est qu’a cause du caching de certains ISP environ 10% du trafic de votre site est invisible. Reste que, grosso-modo entre les deux, je prends le tracking par logs n’importe quand.
@Francis C’est pour des besoins spécialisés comme ça qu’on a conçu Percute. On peut mixer logs et marqueur pour avoir ce genre d’information. Si un client voulait absolument savoir son crawl rate, on pourrait lui mettre un indicateur en place sans problème.
Sujet pointu de la part d’un spécialiste de la question comme toi Steph, mais je me risque ….
En fait je pense que priviligier le tout “log”, ou le tout “marqueur” est une erreur. L’ideal est de pouvoir mixer les 2. Bien sûr en cas de contraintes de budget/temps, je choisirais les marqueurs. Mais les logs sont les seuls à pouvoir te sortir les PDF directement chargés depuis une page de recherche Google, les flux RSS consultés, les crawl des moteurs de recherche etc …
@nico en effet, mais ces utilisations sont quand même marginale. La bonne nouvelle est que s’il y a un réel besoin, ça s’arrange facilement avec un mix marqueur et log.
on s’en reparle, je vais essayer ce mix avec webtrend … j’espere que ca va être “facilement”
. Sinon faudra que je passe à Percute !
Encore ce débat où Monsieur Guérien lui donne l’allure de « mon père est plus fort que le tien »… Il dure depuis des années et va durer sans doute encore un bon bout de temps. Il n’y a qu’à voir les sujets sur les listes spécialisées : c’est un thème récurant !
Puisque vous prenez l’exemple spécifique de Prospection, vous me permettrez, Monsieur Guérin, de préciser une chose : Prospection utilise plusieurs techniques, dont celles des tags avec différents services, dont Google Analytics ou Yahoo Analytics, Coremetrics, WebTrends, SitCatalyst, etc. ainsi que des outils que nous avons développés.
En ce sens, je rejoins Nico et j’ajouterai que tout dépend toujours du contexte…
Chez Prospection, nous privilégions effectivement l’analyse par logs parce que c’est celle qui permet le mieux de savoir ce qui se passe en cas de problèmes, les erreurs serveurs ou de bd par exemple. C’est aussi celle qui nous permet de mieux distinguer les visites machines et de mieux voir les tentatives de hacking (quelques exemples d’information non retenues). La méthode des logs est celle à laquelle il faut revenir en cas de problème avec les tags. Mais elle est compliqué, elle exige une excellente maîtrise, que tous n’ont pas.
Et oui, nous pouvons répondre à toutes les questions, même celles que vous soulevez et je n’aurai pas à me mettre les doigts dans le nez pour le faire…
Ce que je déplore dans ce genre de débat, c’est qu’on tente toujours de noyer le poisson. Je m’explique…
Quelque soit la méthode utilisée, quel que soit l’outil, il ne fournit que des données, des datas. Il faut bien sûr une excellente maîtrise des outils, des méthodes pour obtenir ces données, et Prospection peut s’appuyer sur une expertise de 15 ans. J’ai personnellement participé aux beta tests de versions de WebTrends par exemple…
Google Analytics pour prendre cet exemple, ne fait que fournir des données. La beauté de la chose, c’est que puisqu’il est gratuit, Google Analytics permet de démocratiser l’analyse statistique d’achalandage d’un site Web. Il joue en quelque sorte le rôle d’« évangélisateur » en montrant l’importance de l’analyse (Et il faut être un peu naïf pour croire que Google ne fait rien avec l’information !) Mais le travail d’analyse reste à faire…
Prospection ne fait pas que fournir des données : il fournit une analyse, une mise en contexte. Dans votre print screen tiré du site de Prospection, vous ne présentez que l’étape 1. Vous auriez pu dire qu’il y en a 4 !
Je ne commenterai pas votre dernier paragraphe Monsieur Guérien. En affaires, j’ai toujours fait preuve d’un sens éthique qui m’a toujours empêchée de dénigrer un concurrent pour me faire valoir…
@Claudette
Bon je vais jouer les modérateurs ici
Pourquoi utiliser la méthode de capture avec les logs est généralement une erreur ?
Tout simplement parce que les logs de serveurs web sont d’abord et avant tout fait pour capturé de l’information technique (404, les tendances d’utilisation du serveur ou encore effectivement les tentatives de hacking) mais pas pour capturé de l’information marketing. Les outils ont simplement été “améliorer” pour le permettre mais c’est loin d’être la meilleure source d’information.
Mais le problème majeur reste le caching par les fournisseur d’accès internet qui fais disparaître tout simplement une partie importante de votre trafic. C’est pourquoi la très grande majorité des solutions d’analytics modernes utilisent la méthode par tag. C’est au mieux une méthode complémentaire à celle des tags, mais une très mauvaise idée comme source principale de données.
Pour ce qui est de basher sur Google Analytics sur l’utilisation que Google fait de l’information, c’est simplement une preuve de méconnaissance. Pour votre information, GA à été approuvé par le gouvernement américain pour l’utilisation sur les sites du gouvernement fédéral.
analytics.blogspot.com/20...xible-secure-and-now.html
http://blog.searchenginewatch.com/100219-133105
Ce n’est pas que Google Analytics qui ne fait que fournir de la donnée. Toute les solutions ClickStream (toutes celles que vous avez mentionnés) ne font que cela. Elle évalue le Quoi. Le Pourquoi demande d’autres données ou analyses.
Je suis 100% d’accord avec le fait que peu importe l’outil, la qualité de l’analyste fait toute la différence. D’ailleurs, je crois que la règle de 10/90 est l’une des plus importantes qu’un client doit comprendre. 10% de son budget devrait aller vers l’outil, et 90% vers l’analyste en tant que tel.
Pour ce qui est de la qualité de votre travail, je ne peut pas en parler, je ne vous connaît pas du tout.
Francis Vallières
Membre de l’équipe de GAAC chez NVI
http://www.google.com/analytics/partners.html
Bonjour Mme Voyer et merci du commentaire.
Bien heureux d’apprendre que vous utilisez des technoglogies avec marqueur. Ce n’est pas ce que j’avais compris à partir de votre site Web. D’ailleurs, je ne vois aucune référence aux outils que vous mentionnez. Ça serait peut-être une bonne idée de le mentionner pour éclairer vos visiteurs et éviter les mauvaises interprétations.
Pour un audit d’un serveur Web, je suis d’accord que le log est l’idéal. C’est ce pourquoi il est conçu, mais pour l’audit d’un site Web, c’est très limité. D’ailleurs, je doute très sérieusement que vous pouvez répondre à mes questions à partir d’un log. A moins que vous ayez ajouté une couche supplémentaire avec un mix logs-marqueur quelconque (ce qu’on peut faire avec Percute Analytique entre autre), il est impossible de suivre l’activité d’un Flash ou d’une page en DHTML. Pas plus que vous pouvez savoir sur quel lien un visiteur a cliqué pour sortir. Ça ne passe pas par le serveur Web donc aucune entrée log n’est enregistrée. Le serveur Web fournit des fichiers, mais il n’a aucune idée de ce que l’utilisateur fait avec. Si le log était flexible, on aurait pas besoin d’un marqueur en javascript…
Pour l’analyse vs les données, c’est bien évident que des données seules ne valent rien. C’est l’interprétation dans leur contexte qui vaut quelque chose. Ce n’est pas le point de cet article. Peu importe l’outil, ils ne servent seulement qu’à collecter et traiter des données. Ici, c’est la méthode de collecte qui m’intéresse puisqu’elle joue un rôle primordiale pour l’analyse qui suivra.
Au plaisir de reparler d’analytique Web avec vous!
Relisez encore le site de Prospection.
Je répète que je suis en mesure, pour nos clients, de aux questions, incluant celles que vous soulevez. Que vous ne compreniez pas comment on fait, je peux le comprendre.
Je reparlerai avec plaisir analyse statistique web avec toute personne dont je partage le sens éthique. Je ne suis pas encore certaine, Monsieur Guérin, qu’on partage ça…
@Mme Voyer, soyez honnête, comme spécialiste, vous devez connaître très bien les limites des logs et qu’il est impossible de répondre aux questions de ce billet sans marqueur. Impossible comme une division par zéro.
Je connais très bien les avantages et inconvénients de cette méthode. J’utilise ces outils depuis 1997 et les logs ont laissé place aux marqueur justement pour répondre à ces questions.
Je suis quand même étonné de devoir essayer de vous convaincre des limites des logs. J’ai bien peur qu’on arrivera pas à s’entendre. Mais en bout de ligne, lorsque nous nous croiserons devant des clients, ce sont eux qui décideront qui a raison et qui a tort
Au plaisir!
J’ai dit que je pouvais répondre. Je le réitère. J’ai aussi dit qu’on utilise plusieurs techniques. Il n’y a pas de division par 0, simplement une addition !
Quant à l’honnêteté Monsieur Guérin, il y a toujours place à l’amélioration, je vous en remercie. J’irai cependant prendre mes cours ailleurs si vous le permettez.
On ne s’entendra pas, évidemment. Et ce n’est pas une question de fond (les méthodes ou techniques ont, je l’ai dit, peu d’importance en autant qu’on les maîtrise). On ne s’entendra pas, c’est une question de valeurs. Manifestement, on ne partage pas les mêmes. Je ne cherche à avoir ni tord ni raison. Je ne joue pas à “mon père est plus fort que le tien”…
@Mme Voyer, bon au moins vous reconnaissez que ça ne se fait pas avec des logs. Je savais bien qu’il y avait autre chose. Je ne vois pas quelle autre technique il peut y avoir à part un marqueur cependant. Des méthodes serveur, peut-être, mais c’est peu courant.
Alors voilà, c’était seulement ça mon point: Démontrer qu’on ne peut répondre a n’importe quelle question avec des logs comme vous l’affirmez sur votre site: « Si nous avons les fichiers logs, posez-nous n’importe qu’elle question sur l’achalandage de votre site… ».
Au plaisir!
Je suis ravie de vous voir content Monsieur Guérin. Si vous tenez absolument à “gagner” et à dire que votre papa est plus fort que le mien…
Je persiste tout de même : je privilégie la méthode des logs, parce que c’est la seule qui nous permet l’investigation en cas de problèmes, parce qu’on ne peut répondre à toutes les questions avec les tags
Je l’ai déjà dit, c’est un très vieux débat, vous n’y apporter rien de nouveau. Mais l’échange sur le fond aurait pu être très intéressant. Y a que dans la forme de vos messages, dans votre dénigrement des autres techniques, des autres entreprises où vous gagnerez toujours…
@Steph regarde ton spam filter, j’avais fait un commentaire d’environ une page qui ne semble pas publié.
@Claudette Cette guerre/chicane la à déjà eu lieu effectivement, et c’est la méthode par tags qui à gagné …
@Francis En effet, ton commentaire était dans le spam… au début des 2800 heureusement!
@Francis Et très pertinent/intéressant ton info pour Google au Gouvernement Américain. Je ne savais pas! Merci
(baille)
C’est fini?
(baille)
Prospection, ça existe encore. Je suis soufflé.
LOL! Quel thread intéressant! Ça m’a fais bien rigoler!
Les logs ont leurs placent pour les audits et le monitoring technique du serveur web (comme c’est le cas pour tout autre système informatique).
Mais franchement… si je vise à mesurer la performance et à optimiser les interactions humain-web, seul une intrumentation très près de cette interaction est efficace – donc – les tags gagneront haut la main.
D’autant plus qu’avec la complexité actuelle des sites, il est fort propable qu’une partie de l’info/services proviennent de sites qui ne sont pas dutout dans nos infrastructures (et donc… nous n’aurons pas accès aux logs). Je pourrais continuer encore longtemps sur l’argumentaire… mais j’ai déjà assez perdu de temps
Anyway… back to my business: web analytics!
Stéphane Hamel