Espace d'apprentissage | Interprefy

Comprendre la précision des sous-titres IA : Un guide complet

Écrit par Markus Aregger | avril 13, 2023

Les sous-titres fermés sont une technique efficace pour améliorer l'accessibilité, l'engagement et la rétention d'informations lors des présentations et des événements en direct. Cela, combiné aux changements des habitudes de consommation vidéo dans le domaine du streaming, a récemment accéléré l'adoption du sous-titrage alimenté par l'IA lors des événements en direct et des réunions d'affaires.

Mais lorsqu'il s'agit de choisir un fournisseur pour votre propre réunion ou événement, la question la plus fréquemment posée est : quelle est la précision des sous-titres automatiques en direct ?

La réponse rapide est que, dans des conditions idéales, les sous-titres automatiques dans les langues parlées peuvent atteindre jusqu'à 98 % de précision selon le taux d'erreur de mots (WER).

Et oui, there's une réponse longue, légèrement plus complexe. Dans cet article, nous voulons vous donner un aperçu de la façon dont la précision est mesurée, quels facteurs influencent la précision, et comment porter la précision à de nouveaux sommets.

Dans cet article

  1. Comment le sous-titrage automatique fonctionne
  2. Qu'est-ce qui est considéré comme une bonne qualité de sous-titrage?
  3. Quels facteurs influencent la précision ?
  4. Mesurer la précision du sous‑titres automatiques
  5. Comprendre le taux d’erreur de mots (WER)
  6. Obtenez des sous-titres fermés d'une précision exceptionnelle pour vos événements en direct

Avant de plonger dans les chiffres, prenons du recul et examinons comment fonctionnent les sous-titres automatiques.

Comment le sous-titrage automatique fonctionne

Sous-titres automatiques

Les sous-titres automatiques convertissent la parole en texte qui s'affiche à l'écran en temps réel dans la même langue que la parole. ASR - Reconnaissance Automatique de la Parole - est une forme d'intelligence artificielle utilisée pour produire ces transcriptions de phrases parlées.

La technologie, souvent appelée "speech-to-text", est utilisée pour reconnaître automatiquement les mots dans l'audio et transcrire la voix en texte.

Sous‑titres traduits par IA

Les moteurs de traduction alimentés par l’IA traduisent automatiquement les sous-titres qui apparaissent dans une langue différente. Cela est également connu sous le nom de sous-titres ou légendes traduits par machine.

Article recommandé

Pourquoi devriez‑vous envisager d’ajouter des sous‑titres en direct à votre prochain événement

Lire l'article →

Dans cet article, nous couvrons les sous-titres automatiques. Si vous voulez connaître la précision des sous-titres traduits par IA, consultez cet article.

Qu'est-ce qui est considéré comme une bonne qualité de sous-titrage?

La Federal Communications Commission (FCC) a établi des caractéristiques essentielles en 2014 pour déterminer si les sous-titres sont "excellents" :

  • Exactitude -Les sous-titres doivent correspondre aux mots prononcés, dans la plus grande mesure possible
  • Complétude - Les sous‑titres couvrent du début à la fin de la diffusion, dans la plus grande mesure possible.
  • Placement - Les sous‑titres ne masquent pas le contenu visuel important et sont faciles à lire.
  • Synchronisation - Les sous-titres s’alignent avec la piste audio et apparaissent à une vitesse lisible.

Image : Sous‑titres en direct traduits par IA lors d’un webinaire

Quels facteurs influencent la précision ?

Le moteur d'IA sélectionné

Tous les moteurs de reconnaissance vocale ne produisent pas des résultats identiques. Certains sont meilleurs en général, tandis que d’autres le sont davantage dans certaines langues. Et même en utilisant le même moteur, les résultats peuvent varier considérablement en fonction des accents, du niveau de bruit, des sujets, etc.

C’est pourquoi, chez Interprefy, nous évaluons constamment les meilleurs moteurs afin de déterminer ceux qui produisent les résultats les plus précis. En conséquence, Interprefy peut offrir aux utilisateurs la meilleure solution pour une langue spécifique, en tenant compte d’aspects tels que la latence et le coût. Dans des conditions idéales, nous avons observé une précision constante pouvant atteindre 98 % pour plusieurs langues.

La qualité de l'entrée audio

Une entrée de qualité est requise pour que la technologie de reconnaissance vocale automatisée produise une sortie de qualité. C’est simple: plus la qualité et la clarté de l’audio et de la voix sont élevées, meilleurs sont les résultats.

  • Qualité audio - Tout comme l'interprétation de conférence, le matériel d'entrée audio de mauvaise qualité, tel que les microphones intégrés aux ordinateurs, peut avoir un impact négatif.
  • Élocution claire & prononciation - Les présentateurs qui parlent fort, à un bon rythme, et clairement, seront généralement sous-titrés avec une plus grande précision.
  • Bruit de fond - Fort grondement, aboiements de chiens ou frottement de papier capté par le microphone peut détériorer fortement la qualité de l'entrée audio.
  • Accents - Les locuteurs ayant des accents inhabituels ou forts, ainsi que les locuteurs non natifs, posent des problèmes pour de nombreux systèmes de reconnaissance vocale.
  • Parole qui se chevauche - Si deux personnes se parlent en même temps, le système aura beaucoup de mal à identifier correctement le bon interlocuteur.
Article recommandé

Quel est le degré de précision des sous-titres dans Zoom, Teams et Interprefy ?

Lire l'article →

Comment mesurer la précision des sous-titres automatiques

La métrique la plus courante pour mesurer la précision de l'ASR est le taux d'erreur de mots (WER), qui compare la transcription réelle de l'orateur avec le résultat de la sortie de l'ASR.

Par exemple, si 4 mots sur 100 sont incorrects, la précision serait de 96%.  

Comprendre le taux d’erreur de mots (WER)

WER détermine la distance la plus courte entre un texte de transcription généré par un système de reconnaissance vocale et une transcription de référence produite par un humain (la vérité terrain).

Le taux d’erreur de mots (WER) aligne les séquences de mots correctement identifiées au niveau du mot avant de calculer le nombre total de corrections (substitutions, suppressions et insertions) nécessaires pour aligner complètement les textes de référence et de transcription. Le WER est ensuite calculé comme le rapport entre le nombre d’ajustements requis et le nombre total de mots dans le texte de référence. Un WER plus bas indique généralement un système de reconnaissance vocale plus précis.

Exemple de taux d’erreur de mots : précision de 91,7 %

Prenons un exemple d'un taux d'erreur de mots de 8,3 % - ou une précision de 91,7 % - et comparons les différences entre la transcription originale du discours et les sous‑titres créés par le SRA :

Transcription originale: Sortie des sous‑titres ASR:
Par exemple, je fais uniquement un usage très limité de l'essentiel fourni. Je souhaiterais développer un point particulier plus en détail, je crains que j'appelle les parlements d'états individuels à ratifier la convention seulement après que le rôle de la Cour européenne de justice ait été clarifié, ce qui pourrait avoir des effets très néfastes. Par exemple, je aussi voudrait aimerais seulement une utilisation très limitée de la exemptions à condition que je souhaite approfondir un point particulier, je crains que le appel sur les parlements nationaux individuels pour ratifier la convention uniquement après que le rôle de la Cour européenne de justice a été clarifié pourrait avoir des effets très préjudiciables.

 

Dans cet exemple, les légendes ont omis un mot et ont substitué quatre mots:

  • Mesures: {'matches': 55, 'deletions': 1, 'insertions': 0, 'substitutions': 4}
  • Substitutions : [('too', 'do'), ('use', 'used'), ('exemptions', 'essentials'), ('the', 'i')]
  • Suppressions : ['would']

Le calcul du taux d'erreur de mots est donc :

WER = (suppressions + substitutions + insertions) / (suppressions + substitutions + correspondances) = (1 + 4 + 0) / (1 + 4 + 55) = 0.083

Le WER néglige la nature des erreurs

Dans l'exemple ci‑dessus, toutes les erreurs ne sont pas également impactantes.

La mesure du taux d’erreur (WER) peut être trompeuse car elle ne nous indique pas à quel point une erreur donnée est pertinente ou importante. Les erreurs simples, telles que l’orthographe alternative d’un même mot (movable/moveable), ne sont pas souvent perçues comme des erreurs par le lecteur, tandis qu’une substitution (exemptions/essentials) peut avoir un impact plus important.

Les chiffres du WER, en particulier pour les systèmes de reconnaissance vocale à haute précision, peuvent être trompeurs et ne correspondent pas toujours aux perceptions humaines de la justesse. Pour les humains, les différences de niveaux de précision entre 90 % et 99 % sont souvent difficiles à distinguer.

Taux d'erreur de mots perçu

Interprefy a développé une métrique propriétaire et spécifique à chaque langue pour la reconnaissance automatique de la parole, appelée Perceived WER. Cette métrique ne compte que les erreurs qui affectent la compréhension humaine du discours et non toutes les erreurs. Les erreurs perçues sont généralement inférieures au WER, parfois jusqu’à 50 %. Un WER perçu de 5 à 8 % est généralement à peine perceptible pour l’utilisateur.

Le graphique ci-dessous montre la différence entre le WER et le WER perçu pour un système ASR très précis. Notez la différence de performance pour différents ensembles de données (S0‑S4) de la même langue.

Comme le montre le graphique, le taux d’erreur perçu par les humains est souvent nettement meilleur que le taux d’erreur statistique.

Le graphique ci-dessous illustre les différences de précision entre divers systèmes ASR travaillant sur le même jeu de données vocales dans une certaine langue en utilisant le WER perçu.  

Obtenez des sous-titres fermés d'une précision exceptionnelle pour vos événements en direct

Nous avons constaté une précision de 97% pour nos sous‑titres automatiques grâce à la combinaison de notre solution technique unique et à l’attention que nous portons à nos clients. Alexander Davydov, Responsable de la livraison IA chez Interprefy

Si vous'êtes à la recherche de sous‑titres automatiques très précis lors d’un événement, trois points clés doivent être pris en compte : 

Utilisez une solution de premier plan

Au lieu de choisir un moteur prêt à l'emploi pour couvrir toutes les langues, optez pour un fournisseur qui utilise le meilleur moteur disponible pour chaque langue de votre événement.

Vous souhaitez comprendre ce que le meilleur moteur peut vous offrir ? Lisez notre article : L'avenir des sous-titres en direct : comment l'IA d'Interprefy favorise l'accessibilité

Optimisez le moteur

Choisissez un fournisseur capable de compléter l'IA avec un dictionnaire sur mesure afin de garantir que les noms de marques, les noms atypiques et les acronymes soient correctement capturés.

Assurez une entrée audio de haute qualité

Si l’entrée audio est mauvaise, le système ASR ne pourra pas atteindre la qualité de sortie. Assurez‑vous que la parole soit capturée fort et clairement.