Accueil | Technique | Liens | Actualités | Formation | Emploi | Forums | Base de données
DOSSIER cerig.efpg.inpg.fr 
Vous êtes ici : Accueil > Technique > Multimédia > CD-ROM et multimédia 5
         Novembre 1996

 

CD-ROM et MULTIMEDIA

par Jean-Claude SOHM



5 - La Numérisation et la Compression des données




La numérisation consiste à transformer des données analogiques en données numériques utilisables par les systèmes informatiques.

Le compactage (ou compression conservative) consiste à réduire la taille des données informatiques sans les dégrader ; il est utilisé pour les programmes et les données textuelles.

La compression (ou compression non conservative) consiste à réduire la taille des données au prix d'une certaine dégradation. La compression est utilisée pour les données audio et vidéo, dont l'intégrité a rarement besoin d'être totalement conservée.


Numérisation et Compression du son


Le son se propage dans l'air sous forme d'une onde de pression, transmise par le mouvement des molécules. Un microphone capte cette onde et délivre un signal électrique dont l'amplitude est, à tout instant, proportionnelle à la pression. Ce signal varie dans le temps, de manière continue : on dit qu'il est analogique.

Sur les anciens disques en vinyle, les sinuosités de la piste reproduisaient les variations du signal électrique : le son était enregistré sous forme analogique. Les creux et les méplats que l'on trouve sur les CD-Audio, par contre, ne peuvent être interprétés que sous forme de nombres binaires : le son est enregistré sous forme numérique.


La numérisation du son comporte deux étapes.

Dans la première, le signal électrique délivré par le microphone est échantillonné, c'est à dire que sa valeur est mesurée à des intervalles réguliers de temps. Une loi (attribuée par les uns à Shannon, par les autres à Nyquist) démontre que pour numériser un son de fréquence f, il suffit de l'échantillonner à la fréquence 2f, pour être en mesure de le reconstituer correctement sous forme analogique par la suite.
L'oreille humaine étant sensible aux sons dont la fréquence est comprise entre 20 et 20.000 Hz, la fréquence d'échantillonnage a été fixée à 44,1 Khz pour le CD-Audio. Pour le CD-ROM, on applique le théorème de Shannon aux différents cas rencontrés : on échantillonne à 44,1 Khz la musique Hi-Fi, à 22,05 Khz la musique de fond, et à 11,025 Khz la parole humaine et certains bruitages. Certains logiciels permettent d'ailleurs de fixer la fréquence d'échantillonnage à une valeur qui ne soit pas un sous-multiple de 44,1 Khz. Notons qu'en téléphonie, on échantillonne souvent à 8 Khz : la qualité du son transmis est mauvaise, mais les interlocuteurs se comprennent.


Dans la deuxième étape de la numérisation, chaque échantillon est quantifié, c'est à dire transformé en un nombre entier positif, pris dans une plage donnée, le plus près possible de la valeur analogique mesurée. La largeur de cette plage s'appelle la profondeur de codage, ou résolution. Compte tenu de la dynamique importante de l'oreille humaine, on a choisi pour le CD-Audio une profondeur de codage de 2 octets : on dispose ainsi de 65.536 valeurs distinctes pour représenter les variations de l'intensité du son, du plus faible au plus fort. L'erreur de quantification correspondante n'est pas perceptible par l'oreille, le son restitué est de qualité Hi-Fi . Pour un CD-ROM, on adapte la profondeur de codage à la spécificité du son à restituer : 2 octets pour la Hi-Fi, 1 octet pour la musique courante et la parole, 4 bits seulement pour des bruits très élémentaires (jingle par exemple).


Le procédé général de numérisation du son, qui consiste à échantillonner et quantifier le signal analogique, s'appelle PCM (Pulse Code Modulation), ou MIC en français (Modulation par Impulsion Codée). Issu des télécommunications, il est utilisé pour les CD-Audio, les CD-ROM, les CD-I, les bandes audio-numériques (DAT : Digital Audio Tape), les fichiers audio gérés par Windows (extension *.wav), etc...

Pour un enregistrement en stéréo, la numérisation s'effectue sur chacun des deux canaux. Pour un CD-Audio, on produit ainsi 172 Ko de données par seconde, données qui sont enregistrées sans compression. A la capacité de stockage de 750 Mo que nous avons calculée plus haut, correspond donc un temps d'enregistrement maximum de 74 minutes. En pratique, les CD-Audio contiennent rarement plus de 60 minutes d'enregistrement de part la volonté des éditeurs.

Sans compression, une minute de son numérisé de qualité Hi-Fi occupe 10 Mo : les fichiers audio sont volumineux, et il est tentant de les compresser avant de les enregistrer sur CD-ROM. Nous avons déjà signalé plus haut que, sur les CD-I et les CD-ROM/XA, les données audio pouvaient être compressées par la méthode ADPCM de Microsoft. Cette méthode consiste à enregistrer les variations entre échantillons consécutifs, et à adapter la profondeur de codage à la vitesse de variation du signal d'entrée. On atteint ainsi un taux de compression variable (compris entre 1 et 10) suivant le fichier son traité.


En conclusion, on trouve sur les CD-ROM des fichiers audio, compressés ou non, dont les caractéristiques (fréquence d'échantillonnage, profondeur de codage, son mono ou stéréo) variables. Ces caractéristiques figurent dans l'en-tête de chaque fichier, afin de permettre à la station multimédia de reconstituer le son original.
Remarque : les fichiers audio dont nous avons parlé concernent des sons qui ne sont pas synchronisés avec des images animées. Dans le cas contraire, sons et images sont traités par le même logiciel, et les données correspondantes entrelacées dans un fichier commun.



Numérisation et compression de l'image fixe


La numérisation de l'image repose sur les mêmes principes que celle du son : on procède par échantillonnage suivi de quantification. L'échantillonnage consiste à diviser l'image en petits carrés jointifs appelés pixels, tous de la même dimension : l'image numérique résultante est appelée image matricielle. La quantification consiste à attribuer à chaque pixel un nombre entier traduisant sa couleur. On notera que le contour de l'image numérique est toujours un rectangle.

Plus la taille des pixels est faible, plus la résolution de l'image est élevée. Cette résolution s'exprime en DPI (Dots Per Inch), c'est à dire en pixels par pouce. Ainsi, une DPI de 253 correspond à des pixels de 0,1 mm de côté, le pouce valant 2,53 cm.

Le choix de la résolution est fonction de l'usage auquel est destinée l'image numérisée. Ainsi, pour afficher en plein écran sur un moniteur VGA standard, on détoure l'image de telle sorte qu'elle entre dans un cadre de rapport 4/3, puis on règle le nombre de pixels à 640x480. Ces deux opérations s'effectuent à l'aide d'un logiciel de traitement d'image (le plus célèbre d'entre eux étant Photoshop).

Les premiers logiciels de dessin codaient la couleur sur deux bits : un pixel était blanc ou noir, et cette option ne permettait que les schémas et les dessins au trait. Le codage sur un octet lui a rapidement succédé : on disposait alors de 256 nuances de gris pour une image en noir et blanc, ou d'une palette de 256 teintes pour une image en couleur. Pour les besoins de la PAO (Publication Assistée par Ordinateur), on code aujourd'hui les images numériques sur 3 octets (un octet par coordonnée colorimétrique) : on obtient ainsi plus de 16 millions de teintes.
La généralisation des numériseurs et des moniteurs supportant la couleur fait que l'information multimédia fait pratiquement toujours appel à l'image en couleur. Mais il est d'usage en multimédia de coder la couleur des pixels sur un octet seulement (256 teintes), parce qu'on n'a pas besoin d'une qualité comparable à celle de la PAO. Dans les produits multimédia récents, on note une tendance à coder la couleur sur 2 octets (65.536 teintes distinctes), et à afficher en SVGA (800x600 pixels).


Une image fixe affichée en plein écran, en 256 couleurs, et dont les données ne sont pas compressée, nécessite 300 Ko d'espace mémoire : on peut en stocker 2.500 sur un CD-ROM. Ce n'est donc pas le multimédia, mais la PAO, qui a été à l'origine du développement des techniques de compression des images fixes. La méthode la plus utilisée, JPEG (Joint Photographic Experts Group), est basée sur une transformation de Fourier à deux dimensions de l'image (Discrete Cosine Transform), avec élimination des &laqno; fréquences » de poids faible. L'efficacité de la méthode JPEG est assez remarquable : on obtient des taux de compression de 10 à 20 avec une dégradation faible de la qualité de l'image. Cela provient du fait que, contrairement aux techniques antérieures conçues pour compresser du texte (LZW par exemple), la méthode JPEG a été spécifiquement conçue pour compresser des images.



Les images numériques que l'on trouve dans les produits multimédia proviennent de sources diverses : banque d'images (elles-mêmes sur CD-ROM ou CD-Photo), logiciel de dessin ou de création d'image de synthèse, numérisation d'une image analogique (photo, peinture, dessin) à l'aide d'un scanner (numériseur). Les retouches et réglages éventuels sont effectués à l'aide d'un logiciel de traitement d'image.



Numérisation et compression de l'image animée


L'image animée peut être numérisée lors de sa capture, par utilisation d'une caméra vidéo ou d'un camescope. Elle peut aussi être numérisée par la carte d'acquisition vidéo qui sert d'interface, dans un système auteur, entre le magnétoscope et l'ordinateur.

L'image animée est obtenue par succession rapide d'images fixes : c'est le principe du cinéma. Sur un poste de télévision, la fréquence de répétition varie de 25 à 30 images par seconde. En multimédia, on se contente le plus souvent d'une fréquence de 12 images par seconde. Si ces images sont affichées en plein écran (640x480 pixels), avec une palette de 256 couleurs, on peut stocker (sans compression) 3,5 minutes de vidéo sur un CD-ROM. Ce résultat, bien sûr, n'est pas satisfaisant : ce temps est trop court au gré des utilisateurs, et il n'existe pas de lecteur de CD-ROM capable de parcourir tout le disque en 3,5 minutes!


En pratique, les images animées sont souvent prévues pour être affichées en quart d'écran (320 x 240), ce qui fait gagner un facteur 4. De plus, la vidéo sur CD-ROM est toujours compressée, si bien que 1 Mo sur le disque fournit environ 10 secondes d'images animées (son compris). Le débit correspondant (100 Ko/sec) peut être assuré par n'importe quel lecteur, et l'on se satisfait pour l'instant de ces performances - même si les amateurs de CD-ROM trouvent que l'image est un peu petite, et qu'elle scintille un peu trop...


Il est possible de faire mieux, en utilisant la méthode de compression MPEG-1 dont nous avons déjà parlé à propos du Vidéo-CD. Cette méthode consiste à n'enregistrer, pour la majorité des images, que les différences entre images successives. Prenons l'exemple d'une vidéo dans laquelle un personnage se déplace devant un décor fixe : seul le personnage, et la partie du décor qu'il balaye, constituent de l'information nouvelle qu'il faut enregistrer pour reconstituer chacune des images successives. Le fait que ce genre de situation se répète fréquemment rend la méthode de compression MPEG très efficace.


La méthode MPEG, qui travaille par différence entre images successives, est une méthode de compression temporelle. La méthode JPEG, qui s'applique à une seule image à la fois, est une méthode de compression spatiale. On a bien sûr songé à utiliser la méthode JPEG pour comprimer séparément chaque image d'une vidéo : c'est la méthode M-JPEG. A qualité égale, la méthode M-JPEG conduit à des fichiers environ 2 fois plus volumineux que la méthode MPEG. On n'utilise donc la méthode M-JPEG que dans le cas du montage vidéo sur ordinateur, au cours duquel on doit pouvoir accéder immédiatement à n'importe quelle image.

    Chapitre précédent Sommaire Chapitre suivant    
Accueil | Technique | Liens | Actualités | Formation | Emploi | Forums | Base de données

Copyright © CERIG/EFPG 1996-2000