Le sous-titrage est une technique efficace pour améliorer l'accessibilité, l'engagement et la mémorisation des informations lors des présentations et des événements en direct. Ce phénomène, conjugué à l'évolution des habitudes de consommation vidéo dans le domaine du streaming, a récemment accéléré l'adoption du sous-titrage automatique par intelligence artificielle lors d'événements en direct et de réunions professionnelles.
Mais lorsqu'il s'agit de choisir un prestataire pour votre propre réunion ou événement, la question qui revient le plus souvent est la suivante : les sous-titres automatiques en direct sont-ils précis ?
La réponse courte est que, dans des conditions idéales, les sous-titres automatiques dans les langues parlées peuvent atteindre une précision allant jusqu'à 98 %, évaluée par le taux d'erreur sur les mots (WER).
Et oui, la réponse est plus longue et un peu plus complexe. Dans cet article, nous vous proposons un aperçu de la mesure de la précision, des facteurs qui l'influencent et des moyens de l'améliorer encore.
Avant de nous pencher sur les chiffres, prenons un peu de recul et examinons comment fonctionnent les sous-titres automatiques.
Le sous-titrage automatique convertit la parole en texte qui s'affiche à l'écran en temps réel, dans la même langue. La reconnaissance vocale automatique (ASR) est une forme d'intelligence artificielle utilisée pour produire ces transcriptions de phrases prononcées.
Cette technologie, souvent appelée « transcription vocale », permet de reconnaître automatiquement les mots dans un enregistrement audio et de transcrire la voix en texte.
Les moteurs de traduction automatique basés sur l'intelligence artificielle traduisent automatiquement les légendes qui apparaissent dans une autre langue. On parle alors de sous-titres traduits automatiquement.
Cet article traite des sous-titres automatiques. Pour en savoir plus sur la précision des sous-titres traduits par IA, consultez cet article .
La Commission fédérale des communications (FCC) a établi en 2014 des caractéristiques essentielles pour déterminer si les sous-titres sont « excellents » :
Les moteurs de transcription vocale ne produisent pas tous des résultats identiques. Certains sont globalement plus performants, tandis que d'autres le sont davantage pour certaines langues. Et même avec un même moteur, les résultats peuvent varier considérablement selon l'accent, le niveau sonore, le sujet abordé, etc.
C’est pourquoi, chez Interprefy, nous évaluons en permanence les meilleurs moteurs de traduction afin de déterminer lesquels produisent les résultats les plus précis. Ainsi, Interprefy peut proposer à ses utilisateurs la solution optimale pour chaque langue, en tenant compte de critères tels que la latence et le coût. Dans des conditions idéales, nous avons constaté une précision constante atteignant 98 % pour plusieurs langues.
Pour qu'une technologie de reconnaissance vocale automatique produise un résultat de qualité, une entrée audio de qualité est indispensable. C'est simple : plus la qualité et la clarté de l'audio et de la voix sont élevées, meilleurs seront les résultats.
La mesure la plus courante pour évaluer la précision de la reconnaissance automatique de la parole (ASR) est le taux d'erreur de mots (WER), qui compare la transcription réelle du locuteur avec le résultat de la sortie ASR.
Par exemple, si 4 mots sur 100 sont incorrects, la précision serait de 96 %.
Le WER détermine la distance la plus courte entre un texte de transcription généré par un système de reconnaissance vocale et une transcription de référence produite par un humain (la vérité terrain).
Le WER aligne les séquences de mots correctement identifiées au niveau du mot avant de calculer le nombre total de corrections (substitutions, suppressions et insertions) nécessaires pour un alignement complet entre le texte de référence et la transcription. Le WER est ensuite calculé comme le rapport entre le nombre d'ajustements nécessaires et le nombre total de mots du texte de référence. Un WER plus faible indique généralement un système de reconnaissance vocale plus précis.
Prenons l'exemple d'un taux d'erreur de 8,3 % (soit une précision de 91,7 %) et comparons les différences entre la transcription originale du discours et les sous-titres créés par la reconnaissance automatique de la parole (ASR) :
| Transcription originale : | Sortie des sous-titres ASR : |
| Par exemple, je souhaite que l'usage des dispositions essentielles . J'aimerais aborder un point particulier plus en détail : je crains que appeler les parlements des États membres à ratifier la convention seulement après que le rôle de la Cour de justice de l'Union européenne ait été clarifié puisse avoir des effets très néfastes. | Par exemple, je souhaiterais moi aussi exemptions ne soient utilisées que de manière très limitée. J'aimerais aborder un point particulier plus en détail : je crains que l' appel lancé aux parlements des États membres pour qu'ils ne ratifient la convention qu'après que le rôle de la Cour de justice de l'Union européenne ait été clarifié puisse avoir des effets très néfastes. |
Dans cet exemple, les légendes omettaient un mot et en substituaient quatre :
Le calcul du taux d'erreur de mots est donc le suivant :
WER = (délétions + substitutions + insertions) / (délétions + substitutions + correspondances) = (1 + 4 + 0) / (1 + 4 + 55) = 0,083
Dans l'exemple ci-dessus, toutes les erreurs n'ont pas le même impact.
Le taux d'erreur de mots (WER) peut être trompeur car il ne nous renseigne pas sur la pertinence ou l'importance d'une erreur. Des erreurs simples, comme l'orthographe alternative d'un même mot (movable/moveable), ne sont généralement pas perçues comme telles par le lecteur, tandis qu'une substitution (exemptions/essentials) peut avoir un impact plus important.
Les taux de reconnaissance vocale (WER), notamment pour les systèmes de haute précision, peuvent être trompeurs et ne correspondent pas toujours à la perception humaine de la justesse. Pour l'être humain, il est souvent difficile de distinguer les différences de précision entre 90 et 99 %.
Interprefy a développé une métrique d'erreur de reconnaissance automatique de la parole (ASR) propriétaire et spécifique à chaque langue, appelée WER perçue. Cette métrique ne comptabilise que les erreurs qui affectent la compréhension humaine de la parole, et non toutes les erreurs. Les erreurs perçues sont généralement inférieures au WER, parfois même de 50 %. Un WER perçu de 5 à 8 % est généralement à peine perceptible pour l'utilisateur.
Le graphique ci-dessous illustre la différence entre le WER et le WER perçu pour un système de reconnaissance automatique de la parole (ASR) très précis. Notez la différence de performance pour différents ensembles de données (S0 à S4) d'une même langue.
Comme le montre le graphique, le WER perçu par les humains est souvent nettement meilleur que le WER statistique.
Le graphique ci-dessous illustre les différences de précision entre divers systèmes de reconnaissance automatique de la parole (ASR) fonctionnant sur le même ensemble de données vocales dans une langue donnée, en utilisant le taux d'erreur de mots perçu (WER).
Grâce à notre solution technique unique et à l'attention que nous portons à nos clients, nos sous-titres automatiques atteignent une précision de 97 %. – Alexander Davydov, Responsable de la mise en œuvre de l'IA chez Interprefy
Si vous souhaitez bénéficier de sous-titres automatiques très précis lors d'un événement, voici trois points clés à prendre en compte :
Utilisez une solution de pointe
Au lieu de choisir un moteur standard pour couvrir toutes les langues, optez pour un fournisseur qui utilise le meilleur moteur disponible pour chaque langue de votre événement.
Vous souhaitez découvrir ce que le meilleur moteur de sous-titrage peut vous offrir ? Consultez notre article : L’avenir du sous-titrage en direct : comment l’IA d’Interprefy améliore l’accessibilité.
Optimisez le moteur
Choisissez un fournisseur capable de compléter l'IA par un dictionnaire sur mesure afin de garantir que les noms de marques, les noms inhabituels et les acronymes soient correctement pris en compte.
Assurez-vous d'une entrée audio de haute qualité
Si la qualité audio en entrée est mauvaise, le système de reconnaissance automatique de la parole (ASR) ne pourra pas fournir une sortie de qualité optimale. Assurez-vous que la voix soit captée forte et claire.