Accueil     Recherche | Plan     Technique | Liens | Actualités | Formation | Emploi | Forums | Base  
dossier cerig.efpg.inpg.fr 
 
Vous êtes ici : Accueil > La technique > Internet et le Web > Site Web : analyse du trafic et mesure de l'audience > Introduction et rappels   Révision : 21 février 2005
 
Pas de page précédente
Page précédente
Site Web : analyse du trafic
et mesure de l'audience
Page suivante
  Page suivante  
Florent BERLIAT et Jean-Claude SOHM (CERIG-EFPG)
(03 mai 2004)

I - Introduction et rappels

I-1- Le Web fonctionne en client-serveur

Internet est un réseau mondial reliant des clients (les internautes) à des serveurs. Ces serveurs distibuent du courrier électronique, des news, des pages Web, des fichiers (FTP), etc. Tous ces services d'Internet fonctionnent selon le mode client-serveur. Dans le cas particulier qui nous intéresse ici -- le Web -- le client est l'internaute équipé de son navigateur, le serveur est l'ordinateur qui met en ligne le site considéré.

Le client émet des requêtes au serveur pour obtenir une ressource donnée (page Web avec ses images et ses fichiers annexes tels que fichier son, vidéo, etc.). S'il le peut, le serveur expédie la ressource demandée à l'adresse indiquée. S'il ne peut pas, il envoît un message explicatif (le fichier n'existe pas, le serveur est débordé, le client est personna non grata, etc.). Grâce à la technique des formulaires, le client peut dialoguer avec le serveur (par exemple, avec un moteur de recherche).

En pratique, les requêtes sont émises par deux types de clients :

 

I-2- Un serveur web tient son journal

Tout serveur Web enregistre, dans un fichier journal, la liste des requêtes qu'il reçoit, avec des indications sur la suite qu'il leur donne. L'examen du fichier journal (encore appelé "fichier log", du nom de son extension) permet de :

Le fichier journal peut être fractionné selon une périodicité donnée (exemple : un fichier quotidien), ou selon une taille donnée (exemple : ouvrir un nouveau journal quand la taille atteint 30 Mo). Tout webmestre  qui se respecte se doit d'examiner régulièrement le fichier journal de son serveur Web. Dès que l'audience acquiert de l'importance, la meilleure façon de procéder consiste à examiner chaque jour le journal de la veille. Pour ce faire, il faut disposer d'un outil adéquat.

 

I-3- Le webmestre analyse son trafic

A chaque requête -- qu'il s'agisse d'une page Web, d'une figure, d'une animation, d'une feuille de style externe, d'un applet, d'un script externe, etc. -- correspond une ligne dans le fichier journal. Prenons alors l'exemple  --modeste -- d'un site qui reçoit 100 visiteurs par jour, chacun requérant en moyenne 5 pages, et chaque page comportant en moyenne 9 images. Le fichier journal quotidien comportera 5000 lignes... qu'il serait fastidieux d'examiner une par une, même si on les lit en diagonale.

Il est donc clair que l'examen régulier du fichier journal requiert une technique automatisée, donc informatique. Deux cas se présentent :

Dans le cas où l'on peut récupérer le fichier journal, l'arbre de décision en matière d'analyse du trafic se présente ainsi :

Analyse du trafic  
 
Sous-traitance En interne  
 
Logiciel SGBD  
   
    Stockage comptages   Stockage accès

Il suffit de se promener sur le Web pour s'apercevoir qu'en matière d'analyse du trafic, la sous-traitance ne manque pas. Cette solution s'impose souvent pour les pages dotées de publicité, et dont le trafic doit être mesuré par un tiers de confiance, afin de déterminer la redevance correspondante. Dans les autres cas, la sous-traitance est une solution commode mais qui n'est pas sans défauts :

Les solutions "clé-en-main" (acquisition d'un logiciel ou sous-traitance) sont évidemment les plus faciles à pratiquer, mais elles manquent de souplesse. Le webmestre se sent frustré par le fait qu'il ne peut obtenir de réponse à une question qui n'est pas prévue dans le logiciel ou chez le sous-traitant.

L'usage d'un SGBD (Systèmes de Gestion de Bases de Données) suppose qu'il existe dans l'équipe qui gère le site Web une compétence en matière de bases de données -- ce qui est fréquent pour les sites gérés dynamiquement. La méthode comporte cependant une limitation, qui correspond au cas où l'on se pose une question à laquelle il n'est pas possible de répondre à l'aide des techniques classiques des SGBD (les requêtes), et où il faut se prendre par la main pour programmer. Tout le monde ne dispose pas du temps ou des capacités nécessaires.

Nous sommes cependant persuadés que l'usage d'un SGBD constitue la solution la plus souple et généralement la plus complète. Mais le plus beau SGBD du monde ne peut donner que ce qu'il a : ce que l'on peut en tirer dépend du degré de détail des informations que l'on stocke dans la BDD (Base De Données). On peut distinguer deux cas extrêmes :

A chacun de ces deux cas correspond une utilisation différente du SGBD :

Ces deux façons de procéder ne rendent pas le même service :

Bien entendu, la seconde solution demande plus de moyens que la première. Prenons l'exemple d'un site comportant un millier de pages, dont chacune est en moyenne demandée 10 fois par jour :

En bref, il n'est pas simple de faire le bon choix en matière d'analyse du trafic d'un site Web. De multiples facteurs interviennent : l'importance que l'on attache à cette opération, les moyens dont on dispose, les compétences de l'équipe, et -- ce qui est le plus difficile à établir -- les prévisions de trafic pour les années à venir.

 

I-4- La mesure de l'audience pose problème

Comme nous l'avons vu plus haut, un site Web sert deux sortes de clients : les internautes et les robots. On définit l'audience comme le trafic limité aux pages demandées par les seuls internautes. Plusieurs solutions ont été proposées pour séparer les deux trafics ; nous reviendrons sur ce point au chapitre X.

La mesure de l'audience est faussée (par défaut) par la présence des mémoires cache utilisées par les navigateurs des internautes et les serveurs proxy de leurs fournisseurs d'accès. Comme nous l'avons exposé dans une note technique consacrée à ce sujet, on peut éviter cette erreur par l'usage de marqueurs. Dans sa version la plus simple, le marqueur est une image monopixel transparente dont la durée de vie est nulle. Les sociétés de service spécialisées en mesure d'audience utilisent un mélange plus complexe d'image monopixel, de code JavaScript et de cookie, pour obtenir plus d'information. Là encore, le webmestre doit procéder à des choix.

mesure de l'audience
sans marqueur avec marqueur
marqueur simple marqueur complexe

I-5- Les base de données sont à la peine

Le CERIG, qui dispose de son propre serveur Web, n'a pas été tenté jusqu'à présent de sous-traiter l'analyse de son trafic. Il a d'abord utilisé un logiciel du commerce, puis il s'est converti à l'usage d'un SGBD et de marqueurs simples, il y a six ans environ. Ce sont les enseignements de cette expérience que nous décrivons dans le présent dossier.

     
Pas de page précédente
Page précédente
Retour au sommaire
Retour au sommaire
Page suivante
Page suivante
Accueil Technique Liens Actualités Formation Emploi Forums Base  
Copyright © CERIG/EFPG 1996-2005
   
 
Mise en page : J.C. Sohm