C’est bien l’audio numérique qui a permis le développement et la démocratisation de l’enregistrement maison et des home studio.
En effet…
Les appareils analogiques des décennies passées furent petit à petit remplacés…
Par une nouvelle génération d’interfaces audio (comme celles proposées par Focusrite par exemple) ainsi que d’autres appareils numériques plus économiques et plus simples d’utilisation que jamais auparavant.
Et cette mode ne s’est depuis jamais estompée.
Aujourd’hui, l’audio numérique est devenu le standard audio dans quasiment tous les studios, professionnels comme amateurs.
Pourtant, seules peu de personnes comprennent réellement de quoi il s’agit.
En partant de ce constat, j’ai décidé de consacrer l’article d’aujourd’hui aux bases de l’audio numérique pour l’enregistrement musical, en vous en proposant une introduction exhaustive.
Voici les 9 sujets que nous couvrirons :
Commençons…
1. L’avènement de l’ère de l’audio numérique
Alors que, de nos jours, l’audio numérique est le standard dans la musique…
Tel n’a pas toujours été le cas.
Historiquement, l’information musicale existait uniquement au travers d’ondes sonores dans l’air.
Par la suite et avec les avancées technologiques, on commença à découvrir des moyens de convertir cette information vers d’autres formats, tels que :
- Des notes sur des partitions
- Des signaux électriques dans un câble
- Des ondes radios dans l’air
- Des bosses sur un disque vinyle
Mais, au bout du compte, avec la démocratisation des ordinateurs, l’audio numérique devint le format prédominant pour l’enregistrement musical, facilitant grandement la copie et le transport de la musique et ce, gratuitement.
L’appareil à l’origine d’une telle bénédiction ? Le convertisseur numérique.
Pour comprendre le fonctionnement de cet appareil…
2. Le rôle des convertisseurs audio numériques
En studios d’enregistrement, les convertisseurs numériques existent en deux formats :
- Soit, dans les studios les plus haut de gamme, en appareils autonomes, soit…
- En home studios, partie intégrante de l’interface audio.
Pour convertir un signal audio en langage binaire, les convertisseurs prennent des dizaines de milliers de photos (échantillons) par seconde pour pouvoir construire une image «approximative» de l’onde analogique.
L’image n’est jamais exacte, car entre les échantillons, le convertisseur doit grosso modo deviner ce qu’il se passe.
Comme vous pouvez le voir dans le schéma ci-dessus :
- La ligne rouge représente le signal analogique
- La ligne noire la ligne de conversion
Les résultats ne sons pas parfaits, mais ils sont assez bons pour délivrer un son d’excellente qualité.
Pour savoir dans quelle mesure ils sont excellents, il nous faut nous intéresser au…
3. Taux d’échantillonnage
Regardez cette image :
Comme vous pouvez le voir…
Parce qu’ils prennent plus de photos par seconde, les taux d’échantillonnage élevés :
- Recueillent plus d’information réelle,
- Effectuent moins de conjectures
- Construisent une image bien plus précise du signal analogique
Et, comme vous vous en doutez, tout cela donne naissance à un son de bien meilleure qualité.
Mais découvrons plutôt les chiffres précis :
Les fréquences d’échantillonnage communes dans les milieux audio professionnels sont les suivantes :
- 44.1 kHz (CD Audio)
- 48 kHz
- 88.2 kHz
- 96 kHz
- 192 kHz
La fréquence minimum de 44,1 kHz est due à un principe mathématique connu sous le nom de…
Théorème de Nyquist-Shannon
Pour enregistrer du son en numérique avec précision, les convertisseurs doivent capter le spectre sonore entier audible par l’oreille humaine, compris entre 20Hz – 20kHz.
Selon le théorème de Nyquist-Shannon…
Capter une fréquence spécifique requiert au moins 2 échantillons pour chaque cycle… pour pouvoir mesurer le point culminant et le point le plus bas de l’onde sonore.
En d’autres termes, pour pouvoir enregistrer des fréquences jusqu’à 20 kHz vous aurez besoin d’un taux d’échantillonnage de 40 kHz ou plus. C’est pour cela que les CD audio se situent juste au dessus de ce taux, et plus précisément à 44,1 kHz.
Le prix à payer pour obtenir des taux d’échantillonnage élevés.
Alors que les taux d’échantillonnage élevés produisent un son de meilleur qualité, le prix à payer pour l’obtenir n’est pas des moindres.
Voyez plutôt :
- Des charges de traitement plus élevées
- Un nombre de pistes inférieur
- Des fichiers audio volumineux
Vous l’aurez compris, il y a toujours un revers à la médaille. Les studios professionnels peuvent supporter les taux d’échantillonnages les plus élevés plus facilement car ils utilisent du matériel et des appareils plus avancés.
Pour les home studios néanmoins, la plupart des gens s’accordent pour dire qu’un réglage par défaut de 48 kHz sera le plus efficace.
A suivre…
4. La profondeur de bit dans l’audio numérique
Pour comprendre la profondeur de bit, définissons d’abord le bit.
Contraction de binary digit (anglais pour chiffre binaire), un bit est l’unité qui constitue le système de numération binaire dont la valeur est soit 1 soit 0.
Plus le nombre de bits utilisé est élevé, plus les combinaisons possibles sont nombreuses. Par exemple…
Comme vous pouvez le constater dans le schéma ci-dessous, 4 bits résultent en un total de 16 combinaisons.
Lorsqu’ils sont utilisés pour encoder de l’information, une valeur spécifique est attribuée à chacun de ces nombres.
En augmentant le nombre de bits, la quantité de valeurs possibles augmente exponentiellement.
- 4 Bits = 16 valeurs possibles
- 8 Bits = 256 valeurs possibles
- 16 Bits = 16,536 valeurs possibles
- 24 Bits = 16,777,215 valeurs possibles
Avec la profondeur de bit en audio numérique, on attribue à chaque valeur une amplitude spécifique sur la courbe audio.
Plus la profondeur de bit est importante, plus les écarts de volume sonore sont importante, et plus la plage dynamique de l’enregistrement est importante.
Voici une bonne règle de base dont il convient de se rappeler : pour chaque «bit» additionnel, la plage dynamique augmente de 6dB.
Par exemple :
- 4 Bits = 24 dB
- 8 Bits = 48 dB
- 16 Bits = 96 dB
- 24 Bits = 144 dB
En définitive, cela signifie que que plus la profondeur de bit est élevée, moins de bruit vous obtiendrez.
En effet en ajoutant cette marge supplémentaire, le signal utile (sur la partie haute du spectre) peut être enregistré plus haut, au delà du seuil du bruit (sur la partie basse du spectre).
A suivre…
5. L’erreur de quantification
Avouez qu’il est assez impressionnant qu’un enregistrement de 24 bits produise presque 17 millions de valeurs possible, pas vrai ?
Pourtant, il s’agit là d’un nombre bien inférieur au nombre infini de valeurs possibles qui constituent un signal analogique.
Par conséquent, avec chaque échantillon, la valeur réelle se situe quelque part entre deux valeurs possibles. La solution proposée par le convertisseur consiste à simplement arrondir cette valeur, ou la «quantifier», à sa valeur la plus proche.
La distorsion qui en résulte est également appelée erreur de quantification. Elle se produit durant 2 phases de l’enregistrement :
- Au début, pendant la conversion analogique/numérique.
- A la fin, pendant le mastering.
Pendant le mastering, la fréquence d’échantillonnage/profondeur de bit de la piste finale est souvent réduite lors de la conversion vers le format définitif de la piste (CD, mp3, etc…)
Quand c’est le cas, une certaine partie de l’information est effacée et «re-quantifiée», donnant lieu à une distorsion sonore encore plus importante.
Pour gérer ce problème, il existe une solution pratique…
6. Le tramage
Lorsque vous réduisez un fichier 24 bit en un fichier 16 bit, le tramage est principalement utilisé pour masquer une grande partie de la distorsion découlant de cette compression, en ajoutant un faible niveau de « bruit aléatoire » au signal audio original.
Et comme ce concept est un peu trop abstrait pour pouvoir être visualisé dans le domaine audio, il est d’usage de faire une analogie entre le tramage sonore et le tramage graphique, c’est à dire avec des images.
Voici comment cela fonctionne :
Lorsqu’une photo couleur est convertie en noir et blanc, des conjectures mathématiques sont effectuées pour déterminer si chaque pixel de couleur doit être «quantifié» vers un pixel noir, ou un pixel blanc…
…Exactement comme c’est la cas pour quantifier des samples audio numériques.
Comme vous pouvez le voir dans l’image ci-dessous, la version «avant» n’est vraiment pas terrible.
Mais lorsqu’on lui applique un tramage…
- Un petit nombre de pixels blanc est dispersé aléatoirement dans des régions noires…
- Et un petit nombre de pixels noirs est dispersé aléatoirement dans des régions blanches…
En ajoutant ce «bruit aléatoire» à l’image, la version «après» de l’image est bien meilleure. Avec le tramage audio, le concept est le même.
A suivre…
7. La latence de l’audio numérique
Le SEUL DEFAUT MAJEUR commun aux studios numériques aujourd’hui est la quantité de latence qui s’accumule dans la chaîne du signal, et plus particulièrement avec les stations audionumériques..
Compte tenu de tous les calculs ayant lieu, il ne faut pas plus de quelques milisecondes à quelques DIZAINES de milisecondes au signal audio pour que celui-ci sorte du système.
- Latence de 0 à 11 ms – elle est assez courte pour que le commun des mortels n’y voit, ou plutôt n’y entende que du feu
- Latence de 11 à 22 ms – on distingue un effet slapback (delay) irritant qui demande de s’y habituer.
- A partir de 22 ms – l’importance du retard rend tout jeu ou chant impossible à enregistrer en rythme avec la piste.
Dans une chaîne de signal normale, 4 étapes viennent s’ajouter au temps de retard total.
- La conversion A/N
- La mise en mémoire tampon de la DAW
- Le retard du plugin
- La conversion N/A
Les conversions A/N et N/A auront le moins d’influence, totalisant à elles deux moins de 5 ms de retard.
La mise en mémoire tampon : gourmande en ressources
La mise en mémoire tampon de votre DAW ainsi que certains plugins (dont les compresseurs « look-ahead » et les instruments virtuels) peuvent, ensemble, totaliser un temps additionnel de 20, 30, 40 ms voire plus.
Pour maintenir ce retard au minimum possible :
- Désactivez tous les plugins inutiles lorsque vous enregistrez
- Réglez la mise en mémoire tampon de votre DAW pour trouver quelle quantité minimum votre ordinateur peut gérer sans planter.
Comme vous le remarquerez, les temps de mise en mémoire tampon se calculent en samples, et NON en millisecondes. Pour les convertir :
- Divisez le nombre de samples par la fréquence d’échantillonnage (en kHz) de votre session, et vous obtiendrez le temps de latence exprimé en millisecondes.
Par exemple : 1024 samples ÷ 44.1 kHz = 23 ms
Si vous n’aimez pas les maths, voici une manière simple de vous en rappeler, lorsque vous travaillez en 44,1 kHz.
- 256 samples = 6 ms
- 512 samples = 12 ms
- 1024 samples = 24 ms
Dans la PLUPART des cas, ces étapes devraient abaisser le temps de latence à un niveau plus gérable…
Toutefois, dans certains cas, si votre matériel se révèle trop vieux ou de pas assez bonne qualité, il se peut que ces étapes ne soient pas suffisantes.
Auquel cas…
Le dernier recours
Beaucoup d’interfaces d’entrée de gamme possèdent un bouton « mix » ou « blend« , permettant de combiner la piste de retours avec la «piste live», celle qui est enregistrée.
En divisant votre signal micro/guitare live en deux et en envoyant une moitié à l’ordinateur dans le but d’être enregistrée et l’autre directement vers votre casque audio, vous supprimerez le risque de latences en évitant toute la chaîne de signal.
L’inconvénient de cette technique est que vous entendrez l’enregistrement live tel quel, dénué de tout effet.
Néanmoins, puisque les ordinateurs sont plus rapides et puissants d’années en années, on peut espérer qu’à court terme ce ne sera plus un problème.
A suivre…
8. Horloges maîtres
A chaque fois que deux appareils ou plus échangent une information numérique en temps réel…
Leur horloge interne doit être synchronisée pour que les samples restent alignés…
Dans le but d’éviter l’apparition de ces clicks et pop si agaçants qui, autrement, apparaissent.
Pour se synchroniser, on dsigne l’un des appareil comme «maître», et le reste des appareils fonctionnent comme «esclaves».
En home studios, l’horloge de l’interface audio est en général désignée comme horloge maître par défaut.
En studios professionnels, où une conversion numérique de qualité ainsi que des routages de signaux complexes sont nécessaires…
On utilise un appareil autonome spécial appelé horloge maître numérique (ou horloge atomique). Beaucoup de détenteur de cet appareil affirment que les bénéfices sonores qu’ils tirent de ces appareils sont beaucoup plus conséquents que vous ne vous l’imaginez.
A suivre…
9. Mp3/encodage AAC
Aujourd’hui, les fichiers audio compressés sont devenus la norme dans l’audio numérique.
En effet, l’espace limité offert par les iPods, smartphones et autres applications de musique en streaming, a forcé les fichiers musicaux à êtres les plus léger possible.
En faisant appel à une méthode de «compression de données avec perte», il est possible de réduire les fichiers mp3, AAC et autres formats audio similaires à un dixième de leur taille d’origine.
L’encodage fonctionne en utilisant un principe de l’écoute humaine appelé «masquage auditif»…
Ce phénomème permet de supprimer un très grande quantité d’information musicale tout en maintenant une qualité sonore acceptable pour la majorité des auditeurs.
Les ingénieurs du son expérimentés arriveront à déceler une différence, mais l’auditeur lambda n’y verra que du feu.
Pour connaître la quantité exacte d’information supprimée, il faudra découvrir le débit du fichier.
Plus le débit est élevé, moins la quantité d’information supprimée sera élevée, et plus de détails seront conservés.
A titre d’exemple, prenons les fichiers mp3 :
- 320 kbit/s est le débit maximum
- 128 kbit/s est le débit recommandé
- 256 kbit/s est le débit préféré par la plupart des gens
Pour trouver le format et le débit idéal pour VOTRE musique, vérifiez toujours les recommandations émises par son logiciel de destination (iTunes, Youtube, Souncloud etc…)
Plus d’articles