Accueil | Technique | Liens | Actualités | Formation | Emploi | Forums | Base de données
DOSSIER cerig.efpg.inpg.fr 
Vous êtes ici : Accueil > Technique > Internet et le web > Internet et les Industries Graphiques 4
         Février 1997

Internet et les Industries Graphiques

par Jocelyne ROUIS - CERIG - E.F.P.G.

 

IV - Guide : Comment rechercher de l'information sur Internet

 

Le Worl Wide Web représente une formidable source documentaire, dans laquelle trouver l'information utile est souvent un problème épineux même pour les internautes confirmés.
Afin de multiplier les chances d'aboutir dans vos recherches sur le réseau, nous vous proposons ce guide d'utilisation des outils à votre disposition sur le Web : les annuaires de l'Internet et les moteurs de recherche.

 

Annuaires (ou Répertoires) et Moteurs de Recherche (ou Index)

Il existe, en effet, des sites spécialisés dans la recherche d'information sur l'Internet. Ces Webs sont soit des répertoires ou annuaires, soit des index ou moteurs de recherche.

Le fonctionnement des moteurs de recherche nécessite ces quelques précisions.

Tous permettent de retrouver n'importe quel type d'information, que ces informations soient stockées sur un serveur Web, sur un serveur ftp ou dans des News. Pour cela , il faut inscrire un mot clé dans le champ proposé puis taper sur Chercher (ou Search). Après quelques secondes ou plus si le réseau est particulièrement lent, une liste de sites s'affiche.

Généralement, à ce moment là, c'est la catastrophe... Le moteur de recherche a trouvé 1000 , 10 000 voire un million ou plus de pages correspondant à votre requête ? Evidemment, un grand nombre de pages ne sont pas ou très peu pertinentes. Comment réduire le nombre de références et affiner sa recherche ? Une meilleure connaissance des moteurs de recherche peut vous aider dans votre démarche.

 

Principe de fonctionnement des moteurs de recherche

1 - Collecte des informations

Les moteurs de recherche, au sens véritable du terme, effectuent eux-mêmes la recherche et l'indexation des pages Web sans intervention humaine. Les sites d'indexation automatique comprennent tous :

une base de données, et un logiciel de mise à jour de cette base de données

Ces logiciels de mise à jour sont appelés des robots, nom qui indique qu'ils correspondent à des programmes automatiques. Un robot est un programme simple dans le principe, mais que les optimisations rendent complexes dans leur programmation. Les deux missions essentielles de ces robots sont :

lire l'information et la gérer, et chercher dans ces informations d'autres adresses URL à explorer

La première de ces deux étapes est facilement compréhensible, elle permet de faire de l'indexation textuelle qui revient à mémoriser des mots-clés, éventuellement les phrases dans lesquelles ils apparaissent et surtout leur localisation, c'est-à-dire leur adresse URL. Ces logiciels lisent donc un fichier et mettent dans un (ou plusieurs index) les mots lus. Dans cette lecture, ils analysent parmi les mots rencontrés, les adresses URL, de façon à connaître de nouvelles adresses de Web à explorer par la suite. Cette analyse doit être assez fine pour éviter la redondance et le bouclage des noms de serveur.

C'est ainsi que les programmes de recherche scrutent en permanence l'Internet.

De façon générale, les résultats de votre recherche s'affichent en proposant en priorité les documents présentant la plus grande occurence du mot recherché. Malheureusement, tous les moteurs de recherche n'affichent pas la même performance.

 

2 - Restitution des données

La qualité de la restitution des données enregistrées par les moteurs de recherche dépend de plusieurs facteurs :

 

Règles de base pour interroger les moteurs de recherche

Pour permettre à l'utilisateur de formuler sa question et de comprendre les résultats, une présentation des règles de base utilisées pour l'interrogation des moteurs de recherche est nécessaire. Bien entendu, chaque moteur de recherche développe ses règles particulières. C'est pourquoi, en fonction des thèmes recherchés, les différents moteurs de recherche seront tour à tour plus ou moins performants. En principe, mais les exceptions sont nombreuses,

 

Une sélection de moteurs de recherche et de répertoires

Attention : Nous vous donnons dans cette rubrique des indications pour vous aider à aborder des recherches avec les différents outils disponibles sur le Web (les moteurs de recherche et les répertoires). Ces informations sont valables à la date de révision de ce document (27/03/97). Les moteurs de recherche et les répertoires perfectionnant sans arrêt leur technique de recherche d'informations et de restitution des réponses, nous invitons les utilisateurs à consulter régulièrement l'aide en ligne pour chacun d'eux.

 

Bien que très récent, le serveur d'Alta Vista est devenu en peu de temps la référence en matière de moteur de recherche. La société Digital Equipement Corporation (DEC) prétend que le moteur d'AltaVista est le plus rapide et le plus précis agent d'information sur le Web. Le logiciel crée un index à partir de chacun des mots rencontrés sur les différentes pages qui constituent les sites Web ainsi que sur les Forums ou Newsgroups. Les recherches peuvent alors se faire sur des sujets très pointus. Ce site propose aux utilisateurs deux types d'accès une recherche simple par mot-clé ou un module de recherche avancée ("Advanced Search") pour affiner les résultats d'une recherche. Caractéristiques Techniques :

URL : http://www.altavista.com/ Base de données de 30 Millions de pages Web provenant de 275 600 serveurs et 4 millions d'articles à partir de 14 000 Newsgroups (Septembre 1996). Type de recherche : par mots-clés, Options de recherche : simple et avancée (Advanced Search) Présentation des résultats : titre de la page et les quelques premiers mots de cette page. Dans le cas d'utilisation de Meta Tag de description, le résultat est constitué du titre et de cette description. Module Simple

Nom du Robot : "SCOOTER" Les points positifs : recherche rapide, base de données importante, recherche très pointue possible, recherche à la fois sur le Web et les newsgroups. Recherche sur mots, phrases, titres. Recherche des sites qui ont établi des liens vers le vôtre. Les points négatifs : un ordre de restitution des réponses parfois curieux, surtout en recherche simplifiée. Une mise à jour un peu lente... Nouveau recherche rapide, base de données importante, recherche très pointue possible, recherche à la fois sur le Web et les newsgroups. Recherche sur mots, phrases, titres. Recherche des sites qui ont établi des liens vers le vôtre. Les points négatifs : un ordre de restitution des réponses parfois curieux, surtout en recherche simplifiée. Une mise à jour un peu lente... Nouveau Un produit, baptisé "Live topics" et développé par François Bourdoncle, Maître de recherche à l'Ecole des Mines de Paris et professeur d'informatique à l'Ecole Polytechnique, vient d'être vendu à Altavista. Il classe automatiquement les sites correspondant à une requête donnée en différentes catégories qui apparaissent présentées sous forme de tableau. En quelques secondes, l'utilisateur peut, grâce à ce nouveau logiciel, éliminer certaines catégories de sa requête, ou en sélectionner de nouvelles et ainsi reformuler sa requête afin d'affiner les résultats de sa recherche.

 

Il s'est illustré en proposant au départ, un service gratuit et un accès payant, les deux services utilisant le même moteur de recherche. La différence résidait dans le fait que la recherche gratuite était restreinte aux documents disponibles sur le Web alors que la recherche payante accédait aux souscriptions privées. Actuellement tout est rentré dans l'ordre. Infoseek est parfaitement libre d'accès et très puissant. Caractéristiques Techniques : URL : http://ultra.infoseek.com/ Société : Architext Software Base de données comprenant plus de 50 Millions d'adresses URL (septembre 1996) Type de recherche : par mots-clés Options de recherche : simple mais assez puissante depuis que Infoseek s'est doté du nouveau moteur Ultraseek. Le site propose maintenant un catalogue ou annuaire pour démarrer sa recherche. De plus, il est possible de faire des recherches sur des annuaires de sociétés, des adresses e-mail ou des FAQ. Présentation des résultats : titre de la page et les 30 premiers mots de cette page.

Recherche spéciale pour des images Nom du Robot : UltraSeekRobot Les points positifs : Rapide, flexible, les résultats donnent les URL, la taille du document et un score de pertinence.

 

Il offre une méthode de recherche simple par mots-clés à laquelle il est possible d'additionner quelques éléments d'une recherche avancée. Les résultats sont affichés selon une probabilité de correspondance à votre requête. Pour affiner votre recherche vous pouvez utiliser le module de recherche avancée ("Advanced Search"). Caractéristiques Techniques : URL : http://www.excite.com Société : Architext Sofware Base de données de 50 Millions de pages en plein texte Type de recherche : par mot-clé et par concept Options de recherche : simple et avancée Présentation des résultats : Titre de la page et Résumé de cette page. Possibilité d'avoir une liste de références correspondant au résumé en cliquant sur un icône à droite du résumé. Module de Recherche Avancée

 

Yahoo (Y et Another Hierarchically Organised Oracle) est un index de sujets hiérarchiques. La recherche sur Yahoo se fait en cherchant une catégorie de sujets, puis en descendant dans une sous-catégorie, puis dans une autre , ..... La manière de procéder est d'aller d'un sujet général vers des sujets plus spécifiques. Contrairement aux moteurs de recherche, Yahoo présente les pages par leurs URL, suivi d'un commentaire de deux ou trois lignes, entré par le propriétaire de la page.

Caractéristiques Techniques : URL : http://www.yahoo.com/ (en anglais) Type de recherche : par mots-clés Options de recherche : simple ou avancée Présentation des résultats : la catégorie où se trouve l'information, puis deux lignes de description du site. Module de Recherche Avancée

 

  Après Yahoo international voici le Yahoo français. Ce site en est encore à ses débuts. Il propose un éventail de filtres de recherche sophistiqués, ainsi qu'un classement hiérarchique et pondéré des résultats des recherches. Caractéristiques Techniques : URL : http//www.yahoo.fr

 

Créé en 1996, Nomade est une base de données hiérarchique de sites WWW francophones qui se complète par l'enregistrement volontaire de leur Webmaster (guide par soumission). Il classe les sites par catégories et permet aussi une recherche par mot-clé. Caractéristiques Techniques : URL : http://www.nomade.fr Société : Objectif Net S.A.

 

  Moteur de recherche francophone développé en France. Ce moteur effectue des recherches en texte intégral sur les Webs situés sur le territoire français. L'avantage de ce nouveau moteur de recherche réside dans le fait qu'il est entièrement en Français. Il contient une sélection de nouveautés intéressantes pour connaître l'actualité de l'Internet côté Français (mise à jour quotidienne). Caractéristiques Techniques : URL : http://www.ecila.com/

 
 
Chapitre précédent Sommaire  Chapitre suivant 
 
 
  Accueil | Technique | Liens | Actualités | Formation | Emploi | Forums | Base de données  
 
Copyright © CERIG/EFPG 1996-2000