Sous-titrage multilingue

SYSTRAN a travaillé sur 2 variations de la tâche de génération de sous-titres automatiques multilingues :

  • En partant du sous-titre de référence français de france.tv access (traduction de sous-titres, nécessite que la vidéo soit déjà sous-titrée dans une langue de départ)
  • En partant de la transcription alignée du LISN (génération de sous-titres à partir de la bande son, peut concerner n’importe quelle vidéo)

3 générations de modèles ont été développées et évaluées au fil du projet :

V0 – Août 2020 – Preuve de concept – Modèle de traduction de sous-titres

  • Système unique multilingue, du français vers toutes les autres langues
  • Quantité de données d’entraînement : 135 millions de lignes parallèles (0.74% annotées avec une segmentation propre aux sous-titres)
  • Prend comme source le sous-titre français provenant de france.tv access
  • Intégration : développement d’un premier code, du ttml source au ttml cible
  • Evaluation : interne (toutes langues)

V1 – Avril 2021 – Modèle de génération de sous-titres à partir de la reconnaissance vocale

  • Système unique multilingue, du français et anglais vers toutes les autres langues
  • Quantité de données d’entraînement : 14,3 millions de lignes parallèles (20% annotées avec une segmentation propre aux sous-titres)
  • Prend comme source la reconnaissance vocale segmentée générée par le LISN : tâche plus intéressante car permet de générer des sous-titres pour une émission qui n’en aurait pas d’existants
  • Intégration : ajout des couleurs signalant le type de prise de parole (personne à l’écran, hors écran, voix off, langue étrangère, chanson…)
  • Évaluation : interne (toutes langues), métier (anglais, espagnol), utilisateurs (espagnol)

V2 – Juillet 2021 – Modèle de traduction de sous-titres aidée par le contexte

  • Système monolingue, du français vers anglais, standard en traduction automatique
  • Quantité de données d’entraînement : 1,2 million de lignes parallèles (22% annotées avec une segmentation propre aux sous-titres, 79% contextualisées avec la source et la cible précédentes concaténées à l’exemple présent)
  • Prend comme source le sous-titre français provenant de france.tv access, pour évaluer la qualité de la traduction et segmentation sans effets de bord introduits par la reconnaissance vocale
  • Prise en compte du contexte précédent en source et cible
  • Intégration : amélioration des couleurs et introduction des entêtes (tirets, nom du locuteur) provenant du français, timecodes ajustés pour éviter des sous-titres trop courts (durée minimale 19 images =760ms) ou trop rapprochés (intervalle minimal 8 images = 320ms). Les timecodes utilisés sont ceux des sous-titres français pour toutes les émissions de stock, et ceux de la reconnaissance vocale – plus proches du temps réel – pour toutes les émissions en direct.
  • Evaluation : interne (anglais), métier (anglais), utilisateurs (anglais)

Démonstration des systèmes de sous-titrage français > anglais dans 3 domaines :

  • en haut à gauche : sous-titres originaux
  • en haut à droite : Système v0
  • en bas à gauche : Système v1
  • en bas à droite : Système v2

MOOC (apprendre)

Série (se divertir)

Journal de 20h (s’informer)

Les évaluations internes et métier, complétées par celles des utilisateurs finaux de sous-titres menées par le LUTIN et HC, concordent à montrer des progrès mesurables au fil du projet, notamment en anglais entre la première version du système (développement en avril 2021, évaluation en mai-juillet 2021) et la seconde version du système (développement en juillet 2021, évaluation en août-novembre 2021), et en particulier dans les émissions de stock tels que les documentaires et magazines. Les avancées sont perceptibles tant sur le contenu que son intégration en sous-titres (synchronisation, affichage des couleurs, locuteurs), qui a une forte importance pour l’expérience utilisateur.

Au vu de ses critères de qualité, france.tv access conclut que les sorties des modèles automatiques développés ne sont pas directement utilisables pour une diffusion à l’antenne. En revanche, l’utilité de ces sorties automatiques reste considérée par SYSTRAN dans d’autres contextes – contextes où les moyens humains spécialisés sont moins importants pour faire face au besoin de traduction, ce qui a pour résultat actuel le non-sous-titrage et la non-accessibilité du contenu – et dans d’autres chaînes de production (avec post-édition, formation, information sur l’émission, etc.).

Haut de page