Dans un précédent billet de blog, Rahul a parlé des codecs audio et du transcodage, dont certains  » compressent  » l’audio afin d’économiser de l’espace de stockage. Mais que font exactement ces codecs audio en termes de compression, et qu’est-ce qui détermine la qualité d’un fichier audio en premier lieu ?

Lorsqu’il s’agit de traitement audio, il y a beaucoup de terminologie que la plupart des gens ont déjà entendue mais ne comprennent pas vraiment. Je faisais partie de ces personnes avant de devoir travailler sur le traitement audio. C’est pourquoi je voulais parler de certains de ces termes, décrire ce qu’ils sont et montrer ce qu’ils signifient pour la qualité d’un enregistrement ou d’un flux audio. Pour le reste de ce billet, nous supposerons que nous n’avons affaire qu’à un seul canal d’audio non compressé.

(1) Taux d’échantillonnage / Fréquence d’échantillonnage

Le premier terme dont nous entendons souvent parler est le taux d’échantillonnage ou la fréquence d’échantillonnage, qui font tous deux référence à la même chose. Certaines des valeurs que vous avez pu rencontrer sont 8kHz, 44,1kHz et 48kHz. Qu’est-ce que le taux d’échantillonnage d’un fichier audio exactement ?

Le taux d’échantillonnage fait référence au nombre d’échantillons d’audio enregistrés chaque seconde. Il est mesuré en échantillons par seconde ou en Hertz (abrégé en Hz ou kHz, un kHz correspondant à 1000 Hz). Un échantillon audio est simplement un nombre représentant la valeur de l’onde acoustique mesurée à un moment précis. Il est très important de noter que ces échantillons sont pris à des instants temporellement équidistants dans une seconde. Par exemple, si la fréquence d’échantillonnage est de 8000 Hz, il ne suffit pas que 8000 échantillons soient prélevés au cours d’une seconde ; ils doivent être pris à des intervalles de 1/8000 de seconde exactement. Le nombre 1/8000 dans ce cas serait appelé l’intervalle d’échantillonnage (mesuré en secondes), et le taux d’échantillonnage est simplement l’inverse multiplicatif de cela.

Le taux d’échantillonnage est analogue à la mesure du taux d’images ou FPS (frames per second) pour les vidéos. Une vidéo est simplement une série d’images, généralement appelées dans ce contexte « images », affichées dos à dos très rapidement pour donner l’illusion (du moins pour nous, les humains) d’un mouvement ou d’un déplacement continu non interrompu.

Bien que la fréquence d’échantillonnage audio et la fréquence d’images vidéo soient similaires, le minimum numérique habituel pour une utilisabilité garantie dans chacune d’elles est très différent. Pour la vidéo, un minimum de 24 images par seconde est requis afin de garantir que le mouvement soit représenté avec précision ; moins que cela, et le mouvement pourrait sembler haché, et l’illusion d’un mouvement continu non interrompu ne peut être maintenue. Cela est d’autant plus vrai que le mouvement est important entre les images. De plus, une vidéo avec 1 ou 2 images par seconde pourrait avoir des événements « split-second » qui sont garantis d’être manqués entre les images.

Pour l’audio, le nombre minimum d’échantillons par seconde pour représenter sans ambiguïté la parole anglaise est de 8000 Hz. En utilisant moins que cela, on obtiendrait un discours qui pourrait ne pas être compréhensible pour diverses raisons, l’une d’entre elles étant la façon dont des énoncés similaires ne pourront pas être distingués les uns des autres. Des taux d’échantillonnage inférieurs confondent les phonèmes, ou les sons d’une langue, qui ont une énergie haute fréquence importante ; par exemple, avec 5000 Hz, il est difficile de distinguer /s/ de /sh/ ou /f/.

Puisque nous avons mentionné les trames vidéo, un autre terme qui mérite d’être développé est celui de trames audio. Bien que les échantillons audio et les trames audio soient tous deux mesurés en Hertz, ils ne sont pas la même chose. Une trame audio est le groupe d’échantillons audio pour une instance de temps qui proviennent d’un ou de plusieurs canaux audio.

Les valeurs les plus courantes pour le taux d’échantillonnage sont les 8kHz susmentionnés (les plus courants pour les communications téléphoniques), 44,1kHz (les plus courants pour les CD musicaux) et 48kHz (les plus courants pour les pistes audio dans les films). Un taux d’échantillonnage plus faible signifie moins d’échantillons par seconde, ce qui signifie à son tour moins de données audio, puisqu’il y a un plus petit nombre de points d’échantillonnage pour représenter l’audio. La fréquence d’échantillonnage est choisie pour une application donnée en fonction des artefacts acoustiques à capturer. Certains artefacts acoustiques, comme les paroles, nécessitent un taux d’échantillonnage plus faible qu’un artefact acoustique tel qu’un air de musique dans un CD de musique. Il est important de noter que des taux d’échantillonnage plus élevés nécessitent plus d’espace de stockage et de puissance de traitement à gérer, bien que cela puisse ne pas être un problème aussi important aujourd’hui qu’à l’époque où le stockage numérique et la puissance de traitement étaient des considérations primordiales.

(2) Profondeur d’échantillonnage / Précision d’échantillonnage / Taille d’échantillon

En plus du taux d’échantillonnage, qui est le nombre de points de données de l’audio que nous avons, il y a aussi la profondeur d’échantillonnage. Mesurée en bits par échantillon, la profondeur d’échantillonnage, (également appelée précision d’échantillonnage ou taille d’échantillon), est la deuxième propriété importante d’un fichier ou d’un flux audio, et elle représente le niveau de détail, ou « qualité », de chaque échantillon. Comme nous l’avons mentionné plus haut, chaque échantillon audio n’est qu’un nombre, et si le fait d’avoir beaucoup de nombres est utile pour représenter l’audio, vous avez également besoin que la plage ou la « qualité » de chaque nombre individuel soit suffisamment grande pour représenter chaque échantillon ou point de données avec précision.

Que signifie « qualité » ? Pour un échantillon audio, cela signifie simplement que l’échantillon audio peut représenter une gamme plus élevée d’amplitudes. Une profondeur d’échantillonnage de 8 bits signifie que nous avons 2^8 = 256 amplitudes distinctes que chaque échantillon audio peut représenter, et une profondeur d’échantillonnage de 16 bits signifie que nous avons 2^16 = 65 536 amplitudes distinctes qu’un échantillon audio peut représenter, et ainsi de suite pour les profondeurs d’échantillonnage plus élevées. Les profondeurs d’échantillonnage les plus courantes pour l’audio téléphonique sont de 16 bits et 32 bits. Plus on a d’amplitudes distinctes dans un enregistrement numérique, plus l’enregistrement numérique sonne proche de l’événement acoustique original.

Encore, ceci est analogue aux nombres de 8 ou 16 bits dont on peut entendre parler concernant la qualité des images. Pour les images ou les vidéos, chaque pixel d’une image ou d’une trame vidéo possède également un certain nombre de bits pour représenter la couleur. Plus la profondeur de bits d’un pixel est élevée, plus la précision des couleurs est grande, puisque le pixel dispose de plus de bits pour « décrire » la couleur à représenter sur un écran, et plus le pixel ou l’image dans son ensemble a l’air réaliste par rapport à ce que l’on voit dans la vie réelle. Plus techniquement, la profondeur de bits d’un pixel indique combien de couleurs distinctes peuvent être représentées dans le pixel. Si vous permettez que chacune des couleurs R, G et B soit représentée par un nombre de 8 bits, alors chaque pixel est représenté par 3 x 8 = 24 bits. Cela signifie qu’il y a 2^24 ~ 17 millions de couleurs différentes qui peuvent être représentées par ce pixel.

(3) Débit binaire

La liaison entre le taux d’échantillonnage et la profondeur d’échantillonnage est le débit binaire, qui est simplement le produit des deux. Comme la fréquence d’échantillonnage est mesurée en échantillons par seconde et que la profondeur d’échantillonnage est mesurée en bits par échantillon, elle est donc mesurée en (échantillons par seconde) x (bits par échantillon) = bits par seconde, abrégé en bps ou kbps. Il convient de noter que, comme la profondeur d’échantillonnage et le débit binaire sont liés, ils sont fréquemment, mais à tort, utilisés de manière interchangeable.

Le débit binaire en audio varie en fonction de l’application. Les applications qui exigent une haute qualité audio, comme la musique, ont généralement un débit binaire plus élevé, ce qui donne une meilleure qualité ou un son plus « net ». L’audio de la téléphonie, y compris celui des centres d’appels, n’a pas besoin d’un débit binaire élevé, et donc le débit binaire d’un appel téléphonique ordinaire est généralement beaucoup plus faible que celui d’un CD de musique. Que ce soit pour le taux d’échantillonnage ou le débit binaire, des valeurs inférieures peuvent (littéralement) sonner moins bien, mais là encore, selon l’application, des valeurs inférieures permettent d’économiser de l’espace de stockage et/ou de la puissance de traitement.

En somme, que signifie donc réellement la compression en matière d’audio ? Les formats audio compressés, tels que AAC ou MP3 ont un débit binaire qui est un certain nombre plus petit que le produit réel de la fréquence d’échantillonnage et de la profondeur d’échantillonnage. Ces formats y parviennent en faisant retirer « chirurgicalement » des informations du flux binaire pour des raisons de perception, ce qui signifie que — dans des contextes dynamiques — les fréquences ou les amplitudes qui ne sont pas entendues par l’oreille humaine pour des raisons biologiques ne sont pas stockées, ce qui conduit à une taille de fichier globalement plus petite.

Crédits à Kornel Laskowski, scientifique en chef de Voci, pour avoir revu les détails techniques de cet article.

admin

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

lg