Les sous-titres fermés sont une technique efficace pour améliorer l'accessibilité, l'engagement et la rétention d'informations lors des présentations et des événements en direct. Cela, combiné aux changements des habitudes de consommation vidéo dans le domaine du streaming, a récemment accéléré l'adoption du sous-titrage alimenté par l'IA lors des événements en direct et des réunions d'affaires.
Mais lorsqu'il s'agit de choisir un fournisseur pour votre propre réunion ou événement, la question la plus fréquemment posée est : quelle est la précision des sous-titres automatiques en direct ?
La réponse rapide est que, dans des conditions idéales, les sous-titres automatiques dans les langues parlées peuvent atteindre jusqu'à 98 % de précision selon le taux d'erreur de mots (WER).
Et oui, there's une réponse longue, légèrement plus complexe. Dans cet article, nous voulons vous donner un aperçu de la façon dont la précision est mesurée, quels facteurs influencent la précision, et comment porter la précision à de nouveaux sommets.
Avant de plonger dans les chiffres, prenons du recul et examinons comment fonctionnent les sous-titres automatiques.
Les sous-titres automatiques convertissent la parole en texte qui s'affiche à l'écran en temps réel dans la même langue que la parole. ASR - Reconnaissance Automatique de la Parole - est une forme d'intelligence artificielle utilisée pour produire ces transcriptions de phrases parlées.
La technologie, souvent appelée "speech-to-text", est utilisée pour reconnaître automatiquement les mots dans l'audio et transcrire la voix en texte.
Les moteurs de traduction alimentés par l’IA traduisent automatiquement les sous-titres qui apparaissent dans une langue différente. Cela est également connu sous le nom de sous-titres ou légendes traduits par machine.
Dans cet article, nous couvrons les sous-titres automatiques. Si vous voulez connaître la précision des sous-titres traduits par IA, consultez cet article.
La Federal Communications Commission (FCC) a établi des caractéristiques essentielles en 2014 pour déterminer si les sous-titres sont "excellents" :
Tous les moteurs de reconnaissance vocale ne produisent pas des résultats identiques. Certains sont meilleurs en général, tandis que d’autres le sont davantage dans certaines langues. Et même en utilisant le même moteur, les résultats peuvent varier considérablement en fonction des accents, du niveau de bruit, des sujets, etc.
C’est pourquoi, chez Interprefy, nous évaluons constamment les meilleurs moteurs afin de déterminer ceux qui produisent les résultats les plus précis. En conséquence, Interprefy peut offrir aux utilisateurs la meilleure solution pour une langue spécifique, en tenant compte d’aspects tels que la latence et le coût. Dans des conditions idéales, nous avons observé une précision constante pouvant atteindre 98 % pour plusieurs langues.
Une entrée de qualité est requise pour que la technologie de reconnaissance vocale automatisée produise une sortie de qualité. C’est simple: plus la qualité et la clarté de l’audio et de la voix sont élevées, meilleurs sont les résultats.
La métrique la plus courante pour mesurer la précision de l'ASR est le taux d'erreur de mots (WER), qui compare la transcription réelle de l'orateur avec le résultat de la sortie de l'ASR.
Par exemple, si 4 mots sur 100 sont incorrects, la précision serait de 96%.
WER détermine la distance la plus courte entre un texte de transcription généré par un système de reconnaissance vocale et une transcription de référence produite par un humain (la vérité terrain).
Le taux d’erreur de mots (WER) aligne les séquences de mots correctement identifiées au niveau du mot avant de calculer le nombre total de corrections (substitutions, suppressions et insertions) nécessaires pour aligner complètement les textes de référence et de transcription. Le WER est ensuite calculé comme le rapport entre le nombre d’ajustements requis et le nombre total de mots dans le texte de référence. Un WER plus bas indique généralement un système de reconnaissance vocale plus précis.
Prenons un exemple d'un taux d'erreur de mots de 8,3 % - ou une précision de 91,7 % - et comparons les différences entre la transcription originale du discours et les sous‑titres créés par le SRA :
| Transcription originale: | Sortie des sous‑titres ASR: |
| Par exemple, je fais uniquement un usage très limité de l'essentiel fourni. Je souhaiterais développer un point particulier plus en détail, je crains que j'appelle les parlements d'états individuels à ratifier la convention seulement après que le rôle de la Cour européenne de justice ait été clarifié, ce qui pourrait avoir des effets très néfastes. | Par exemple, je aussi voudrait aimerais seulement une utilisation très limitée de la exemptions à condition que je souhaite approfondir un point particulier, je crains que le appel sur les parlements nationaux individuels pour ratifier la convention uniquement après que le rôle de la Cour européenne de justice a été clarifié pourrait avoir des effets très préjudiciables. |
Dans cet exemple, les légendes ont omis un mot et ont substitué quatre mots:
Le calcul du taux d'erreur de mots est donc :
WER = (suppressions + substitutions + insertions) / (suppressions + substitutions + correspondances) = (1 + 4 + 0) / (1 + 4 + 55) = 0.083
Dans l'exemple ci‑dessus, toutes les erreurs ne sont pas également impactantes.
La mesure du taux d’erreur (WER) peut être trompeuse car elle ne nous indique pas à quel point une erreur donnée est pertinente ou importante. Les erreurs simples, telles que l’orthographe alternative d’un même mot (movable/moveable), ne sont pas souvent perçues comme des erreurs par le lecteur, tandis qu’une substitution (exemptions/essentials) peut avoir un impact plus important.
Les chiffres du WER, en particulier pour les systèmes de reconnaissance vocale à haute précision, peuvent être trompeurs et ne correspondent pas toujours aux perceptions humaines de la justesse. Pour les humains, les différences de niveaux de précision entre 90 % et 99 % sont souvent difficiles à distinguer.
Interprefy a développé une métrique propriétaire et spécifique à chaque langue pour la reconnaissance automatique de la parole, appelée Perceived WER. Cette métrique ne compte que les erreurs qui affectent la compréhension humaine du discours et non toutes les erreurs. Les erreurs perçues sont généralement inférieures au WER, parfois jusqu’à 50 %. Un WER perçu de 5 à 8 % est généralement à peine perceptible pour l’utilisateur.
Le graphique ci-dessous montre la différence entre le WER et le WER perçu pour un système ASR très précis. Notez la différence de performance pour différents ensembles de données (S0‑S4) de la même langue.
Comme le montre le graphique, le taux d’erreur perçu par les humains est souvent nettement meilleur que le taux d’erreur statistique.
Le graphique ci-dessous illustre les différences de précision entre divers systèmes ASR travaillant sur le même jeu de données vocales dans une certaine langue en utilisant le WER perçu.
Nous avons constaté une précision de 97% pour nos sous‑titres automatiques grâce à la combinaison de notre solution technique unique et à l’attention que nous portons à nos clients. Alexander Davydov, Responsable de la livraison IA chez Interprefy
Si vous'êtes à la recherche de sous‑titres automatiques très précis lors d’un événement, trois points clés doivent être pris en compte :
Utilisez une solution de premier plan
Au lieu de choisir un moteur prêt à l'emploi pour couvrir toutes les langues, optez pour un fournisseur qui utilise le meilleur moteur disponible pour chaque langue de votre événement.
Vous souhaitez comprendre ce que le meilleur moteur peut vous offrir ? Lisez notre article : L'avenir des sous-titres en direct : comment l'IA d'Interprefy favorise l'accessibilité
Optimisez le moteur
Choisissez un fournisseur capable de compléter l'IA avec un dictionnaire sur mesure afin de garantir que les noms de marques, les noms atypiques et les acronymes soient correctement capturés.
Assurez une entrée audio de haute qualité
Si l’entrée audio est mauvaise, le système ASR ne pourra pas atteindre la qualité de sortie. Assurez‑vous que la parole soit capturée fort et clairement.