Compression audio dans l’interprétation simultanée à distance

Rédigé par Dora Murgu | août 16, 2022

Nous avons téléchargé cet article sur notre podcast Interprefied et il est maintenant disponible dans votre répertoire de podcasts préféré.

Écoutez et téléchargez le podcast ci-dessous :

Disponible pour le téléchargement le :

La qualité sonore est un élément qui nous accompagne toute la journée. Du fait de mettre la radio le matin au visionnage intensif de la nouvelle série télévisée tard le soir, un bon son est souvent considéré comme acquis. Bien qu’il soit généralement facile d’identifier un son médiocre, la qualité audio de haut niveau est en réalité une question assez complexe. Un bon exemple est la discussion, qui dure depuis une décennie, entre les amateurs de vinyle et les autres audiophiles sur le format offrant la meilleure qualité sonore : le CD ou le vinyle.

Dans l'interprétation à distance, pouvoir à la fois recevoir et envoyer un audio de qualité est essentiel. Pour garantir que l'information soit traitée avec précision et assurer une expérience audio agréable tout en protégeant l'audition des personnes'.

Une plateforme axée sur l’audio, nous travaillons constamment à de nouvelles façons de influencer le comportement des intervenants, ainsi que la mise en œuvre de solutions audio innovantes garantissant une qualité audio supérieure. Un sujet souvent abordé, la compression du son peut réellement contribuer à améliorer positivement l’expérience sonore – si elle est appliquée correctement.

Nous nous sommes assis avec Richard Schiller, ingénieur du son et chef de produit senior chez Interprefy pour comprendre ce qu’est la compression du son, comment elle est utilisée dans le RSI et ce qui influence la qualité du son.

Bonjour Richard, veuillez nous parler un peu de votre parcours et de vos activités.

Bonjour Dora, ravi de vous reparler. Mon rôle chez Interprefy est celui de Senior Product Manager. Je supervise l'orientation et les détails du produit. Je suis également ingénieur du son diplômé. J'ai d'abord travaillé pour la plus grande organisation mondiale de radio de diffusion de discours, la BBC World Service. Cette expérience me pousse à être obsédé par la clarté et la cohérence.

La cohérence était la clé pour faire fonctionner la radio à grande échelle, et la clarté était l'essence même de ce que nous livrions. J'ai également travaillé dans l'enregistrement musical et la télévision. J'ai exercé la plupart des fonctions de ce métier, notamment en tant que producteur, réalisateur, présentateur et scénariste.

Alors, vous êtes la personne idéale pour répondre à la question à un million de dollars : qu’est‑ce que la compression ?

Il existe deux choses différentes et sans rapport qui sont appelées compression dans le son : à l'origine, il y avait la compression dynamique, qui est un circuit ou, de nos jours, un algorithme qui contrôle automatiquement le niveau sonore. Elle est principalement utilisée pour réduire la plage dynamique — l'écart entre les sons les plus doux et les plus forts. Ensuite est apparue la réduction du débit binaire, un système permettant de diminuer la quantité de données audio qui doivent être stockées ou transportées.

La compression dynamique et la réduction du débit binaire peuvent être utilisées correctement ou mal.

Alors, sont-ils bons ou mauvais?

Ni l’un ni l’autre. Comme presque tout, ces deux techniques peuvent être utilisées correctement ou mal. Mal utilisées, elles ne sont pas bonnes, mais rien ne dit que l’une ou l’autre forme de compression soit intrinsèquement mauvaise.

La compression dynamique est essentiellement comparable à un dispositif qui surveille le niveau sonore et baisse le bouton de volume lorsque l’audio devient trop fort. Il le remonte ensuite lorsque le son devient plus calme. Elle aide les auditeurs à percevoir aussi bien les passages forts que les passages silencieux. Elle n’est en fait pas différente d’un être humain qui règle le volume à la baisse – et j’insiste sur le fait que la compression dynamique consiste à réduire le volume, d’où son nom.

Alors, d’où vient la préoccupation concernant la compression ?

La compression dynamique rend le son plus silencieux, ce qui est souvent indésirable, c’est pourquoi elle est suivie d’un contrôle de volume pré-réglé pour le rendre à nouveau plus fort. Parce que la compression uniformise le niveau du signal, vous avez deux options. Elle peut être réglée pour être plus silencieuse mais plus facile à entendre, ou plus forte et plus accrocheuse. Permettez-moi de faire une pause dans la discussion pour souligner un point important : si vous trouvez le son trop fort, baissez-le. Prenez toujours le contrôle de votre propre niveau d’écoute.

Ce n’est pas seulement le niveau qui peut être erroné, les constantes de temps d’un compresseur sont également importantes. Enfin, il y a le rapport. Celui-ci est souvent réglé de manière trop agressive, ce qui constitue la cause la plus fréquente d’une compression rendant la parole incompréhensible.

L'une des applications les plus irritantes est constituée des circuits de contrôle automatique du gain (CAG) mal conçus, tant dans les anciens équipements grand public que dans les algorithmes utilisés par certains PC. Les CAG et les portes de bruit sont souvent activés par défaut sur les ordinateurs portables et autres appareils. Ainsi, la dynamique est omniprésente dans nos vies. Une compression mal réglée peut couper les sons plosifs et sifflants, rendant la parole difficile à comprendre. Vous pouvez percevoir cela comme une qualité terne des consonnes dures au début des mots, en particulier pour le premier mot d’une phrase. Un autre signe d’un CAG mal réglé apparaît lorsqu’une personne prononce un mot fort suivi d’un mot doux : vous entendez la fin du mot doux mais avez du mal à percevoir son début.

Passons à RSI. En quoi la qualité sonore en musique diffère-t-elle de la qualité sonore en parole ?

Il y a beaucoup de choses communes, mais dans chaque cas, vous devez être prudent pour comprendre ce qui est bon. Les gens prennent des chiffres d’enregistrement de musique classique réalisés dans des studios acoustiquement traités et les appliquent à la parole. D’une certaine manière, la parole est plus facile qu’un orchestre, et d’une certaine manière, c’est plus difficile.

Par exemple, les extrémités supérieures de la bande passante ne sont pas aussi importantes pour la parole que pour certains instruments. On peut avancer un bon argument selon lequel, pour certaines percussions, la bande passante est primordiale, tandis que pour la parole, la douceur doit prévaloir. C’est pourquoi un ingénieur du son utilisera un microphone différent pour une personne que pour une caisse claire ou une cymbale.

Je sais que certaines personnes me rétorqueront que les fréquences entre 18kHz et 20kHz sont essentielles pour la parole, mais ce n’est tout simplement pas le cas. En général, les microphones les plus performants et les plus coûteux que les ingénieurs du son utilisent pour la parole ne sont pas adaptés à ces fréquences, car ils n’en ont tout simplement pas besoin.

Et ce n’est pas simplement accidentel. Imaginez que vous vous trouviez dans une forêt, à écouter une personne à quelques mètres, dont la bouche fait face directement à votre oreille (et que vous soyez encore assez jeune pour percevoir jusqu’à 20 kHz). Ensuite, si vous tournez le visage afin de voir le locuteur et qu’il se tourne de côté, vous n’entendrez plus le composant de 20 kHz, ou du moins il sera fortement atténué. Ces très hautes fréquences ne sont pas bien conservées dans le monde naturel et ne sont donc pas importantes pour nous, car la vie serait impossible si elles l’étaient.

Atteindre la clarté est plus nuancé que ce que les gens aiment le présenter.

Ainsi, dans le cadre de l’interprétation simultanée, n’est‑il pas essentiel de disposer d’un accès aux fréquences allant jusqu’à 15 000 Hz ?

Le défi ici est que je peux donner l'impression de dire que le second meilleur est suffisant, mais la vérité de tout cela est que parvenir à la clarté est plus nuancé que ce que les gens aiment présenter. À comparaison, une bande passante de 15 kHz est supérieure à 10 kHz pour la parole, qui elle-même est meilleure que 6 kHz, etc.

Cependant, une réponse plus plate (plus fluide) jusqu'à 10 kHz peut être meilleure pour la compréhension qu'une réponse irrégulière à 15 kHz. De même, une parole qui n'a pas été mal compressée dynamiquement avec une bande passante de 6 kHz peut être plus facile à comprendre qu'une bande passante de 15 kHz avec une compression médiocre.

Tout cela signifie que la préservation de la réponse en fréquence est importante, bien sûr, mais d'autres facteurs le sont également, et aucun ne rendra les choses parfaites à lui seul. Le problème particulier de la réponse est que, à mesure que l’on monte en gamme, les rendements diminuent considérablement. Ainsi, notre tendance à nous attacher aux registres supérieurs témoigne du fait que nous comprenons et pouvons décrire facilement ce phénomène, plutôt que de refléter sa véritable place dans la chaîne de valeur.

Une bande passante de 15 kHz ou plus doit faire partie d'un programme complet de haute performance, mais, au sens littéral, elle n'est ni essentielle à une compréhension aisée et de qualité, ni garante de celle-ci.

Il est affirmé que les plateformes RSI appliquent une compression de la plage dynamique qui entraîne un son de mauvaise qualité. Cette affirmation est‑elle vraie pour Interprefy ?

Non. Il n’est pas nécessaire d’appliquer une compression dynamique de la plage en fonctionnement général. Cela ne signifie pas pour autant que nous ne l’utilisons jamais. Nous disposons actuellement d’une solution en laboratoire qui applique une compression réellement passionnante. Elle est conçue pour les auditeurs, qu’il s’agisse du public, des délégués ou des interprètes. Elle peut être activée par chaque personne si elle le souhaite ou désactivée si elle ne le veut pas. 

L’excellence provient de l’application de la technologie au bon endroit et de la bonne manière. Il s’agit d’ajuster, de rechercher la perfection à chaque étape, et d’appliquer de petites améliorations progressives à l’ensemble du système.

Parlons un instant des délégués, car nous avons tous vécu cette expérience où un orateur sonne tout simplement affreusement.

Oui. Absolument, Dora. Et je suis vraiment passionné par l'élimination de cela. Les problèmes majeurs sont le matériel très médiocre utilisé par de nombreux intervenants et leur manque de compréhension de ce qu'ils doivent faire pour garantir la qualité sonore.

Comment résolvons‑nous cela ?

Comme pour presque tout, la solution réside dans la prise en compte de nombreux facteurs différents. Nous devons que les intervenants utilisent de meilleurs microphones, qu’ils soient davantage informés sur les techniques de microphone et qu’ils accordent plus d’attention au bruit de fond et à l’écho. Il y a beaucoup d'éducation à faire ici, quelque chose que nous avons également lancé avec notre campagne vidéo d'entretien des intervenants.

Nous pouvons également utiliser la technologie pour aider ici. À l’avenir, vous et moi pourrons revenir à ce sujet et discuter de la façon dont la technologie peut aider les personnes à améliorer leur propre qualité et à compenser les problèmes lorsqu’elles ne le peuvent pas.

La grande différence réside entre un bon équipement bien configuré et un équipement médiocre, mal configuré.

Ainsi, si nous comparions le son reçu via le matériel, tel qu’une console matérielle, et celui reçu via Interprefy, il n’y aurait pas grande différence tant que l’orateur utilise un équipement approprié ?

Oui, c’est exact Dora. La grande différence ici ne réside pas entre le travail local et à distance, mais entre un équipement bien configuré et un équipement mal configuré. Il n’existe aucune différence inhérente pour un système local basé sur le matériel en termes de qualité audio. De nombreux participants aux réunions et événements utilisant les systèmes RSI disposent de microphones supérieurs à leurs équivalents sur site. Certains souhaitent participer en utilisant des appareils de moindre qualité. Comme pour tout le reste dans les affaires, cela doit être géré de manière appropriée.

Alors, quelle est la différence entre le RSI et une solution matérielle ?

Ce que RSI offre, c’est le choix. Le choix grâce à la flexibilité. Lorsque ma femme est tombée enceinte pour la première fois, son employeur, un homme, lui a simplement dit qu’elle n’avait plus d’emploi. Heureusement c’est illégal maintenant. J’aime à penser que RSI signifie que les interprètes qui ne’veulent pas ou ne’peuvent pas voyager peuvent travailler plus flexiblement. Je n’ai pas aimé l’attitude négative subie par ma femme et tout comme je pense que les employeurs doivent tout faire pour permettre aux personnes de travailler, quelles que soient leurs conditions ou leurs besoins de mode de vie, je crois qu’il nous incombe, en tant que fournisseurs de systèmes, d’intégrer cette flexibilité également.

Les solutions RSI sont également flexibles pour les organisations. Vous pouvez tenir une conférence ou une réunion n'importe où et configurer ou modifier la configuration instantanément. Nous avons récemment aidé un astronaute à parler au monde depuis la Station spatiale internationale. Insister pour que cet astronaute assiste en personne aurait bien sûr été ridicule.

En revenant à la compression, que diriez‑vous à ceux qui souhaitent éliminer complètement la compression ?

Se débarrasser de la compression, sous quelque forme que ce soit, n’est pas une solution miracle. Puis-je insister à nouveau ici, il n’existe aucune solution miracle. Une partie de la solution globale consiste à éliminer la mauvaise utilisation de la compression – tant la compression dynamique inadéquate que la compression à faible débit binaire. Cela implique de disposer d’ingénieurs travaillant dans le secteur qui comprennent la technologie et la maîtrisent en détail.

Qu’en est‑il de l’utilisation de plusieurs fonctions de compression successives ? Cela est‑il automatiquement négatif ?

Cela est connu sous le nom de compression en cascade. Non, ce n'est pas automatiquement mauvais non plus pour la compression dynamique ou à débit binaire.

Il existe des problèmes spécifiques liés à la compression en cascade et, lorsque vous concevez des solutions, vous devez travailler avec acharnement. Il est tout à fait raisonnable de s’inquiéter de la compression en cascade, car elle nécessite beaucoup d’efforts pour fonctionner, mais si vous êtes compétent, cela peut être réalisé. Et réalisé de manière exceptionnelle. Prenons, par exemple, la compression dynamique : deux des plus grandes innovations audio jamais réalisées proviennent de l’utilisation de la compression dynamique en cascade.

Certaines personnes semblent particulièrement compétentes pour évaluer des facteurs tels que la compression, devriez‑vous les utiliser pour vous aider ?

Il n'existe qu'une seule façon d'évaluer l'audio, que nous appelons le test à l'aveugle. Idéalement des tests en double aveugle. Si quelqu'un vous affirme être particulièrement doué pour détecter les problèmes audio, demandez-lui si cela s'est fait dans le cadre d'un test à l'aveugle, c'est‑à‑dire un test dans un programme où il ne sait pas qui est qui et où il est dirigé par une personne indépendante de l'évaluation. Tous les tests devraient également faire appel à un éventail d'auditeurs.

Beaucoup de personnes, probablement la plupart, pensent avoir une audition exceptionnelle, mais seulement environ une sur vingt le fait réellement. C'est comme si nous pensions tous être d’excellents conducteurs.

Un bon son est quelque chose que l'on obtient en prenant beaucoup de soin et en travaillant de manière holistique.

Certaines personnes semblent très opiniâtres concernant la qualité du son et la manière de l'atteindre. Quelle est votre réponse à leur égard ?

Les personnes qui s’expriment en termes binaires, qui parlent en « obligations » et « interdictions », sont, d’après mon expérience, dans l’erreur. Je n’aime pas voir la compression ou tout autre outil audio recevoir une mauvaise réputation injustifiée. Non pas parce que j’en suis particulièrement partisan, ou un défenseur de la compression en particulier, mais parce que le bon son est le résultat d’un grand soin et d’une approche holistique. Les vrais perfectionnistes sont non binaires, utilisent l’ensemble de la boîte à outils et ne se laissent pas aller à des réductions simplistes.

Tout le traitement du son peut être mal exécuté ou bien réalisé. Bien réalisé, cela signifie que la bonne configuration est utilisée et appliquée là où elle est bénéfique. La compression dynamique peut être terrible si elle est mal appliquée, mais cela ne signifie pas qu’elle est universellement erronée. Appliquée correctement, c'est un atout incroyable.

Voir l'article complet

Compression audio dans l’interprétation simultanée à distance

Bonjour Richard, veuillez nous parler un peu de votre parcours et de vos activités.

Alors, vous êtes la personne idéale pour répondre à la question à un million de dollars : qu’est‑ce que la compression ?

Alors, sont-ils bons ou mauvais?

Alors, d’où vient la préoccupation concernant la compression ?

Passons à RSI. En quoi la qualité sonore en musique diffère-t-elle de la qualité sonore en parole ?

Ainsi, dans le cadre de l’interprétation simultanée, n’est‑il pas essentiel de disposer d’un accès aux fréquences allant jusqu’à 15 000 Hz ?

Il est affirmé que les plateformes RSI appliquent une compression de la plage dynamique qui entraîne un son de mauvaise qualité. Cette affirmation est‑elle vraie pour Interprefy ?

Parlons un instant des délégués, car nous avons tous vécu cette expérience où un orateur sonne tout simplement affreusement.

Comment résolvons‑nous cela ?

Ainsi, si nous comparions le son reçu via le matériel, tel qu’une console matérielle, et celui reçu via Interprefy, il n’y aurait pas grande différence tant que l’orateur utilise un équipement approprié ?

Alors, quelle est la différence entre le RSI et une solution matérielle ?

En revenant à la compression, que diriez‑vous à ceux qui souhaitent éliminer complètement la compression ?

Qu’en est‑il de l’utilisation de plusieurs fonctions de compression successives ? Cela est‑il automatiquement négatif ?

Certaines personnes semblent particulièrement compétentes pour évaluer des facteurs tels que la compression, devriez‑vous les utiliser pour vous aider ?

Certaines personnes semblent très opiniâtres concernant la qualité du son et la manière de l'atteindre. Quelle est votre réponse à leur égard ?