Les modèles pré-entraînés à l'épreuve des langues rares : expériences de reconnaissance de mots sur la langue japhug (sino-tibétain)

We describe in this work the latest results obtained in interdisciplinary work to support "fundamental language documentation" through the use of speech recognition tools. Specifically, the focus is on the development of a speech recognition system for Japhug, an endangered minority language of China. The practical goal is to reduce the transcription workload of field linguists. We show how a new deep learning approach based on the language-specific tuning of a generic pre-trained representation model, XLS-R, using a Transformer architecture, significantly improves the quality of phonemic transcription, in a setting where only a few hours of annotated data are available. Most significantly, this method allows for reaching the stage of automatic word recognition. Nevertheless, we note difficulties in implementation, in terms of learning stability. The question of the evaluation of the tool by field linguists is also addressed.

Nous décrivons dans ce travail des résultats obtenus dans le cadre d'explorations interdisciplinaires visant à venir en appui aux linguistes « de terrain » au moyen d'outils de Reconnaissance Automatique de la Parole. Spécifiquement, nous nous focalisons sur le développement d'un système de reconnaissance de la parole pour le japhug, langue rare de Chine. L'objectif consiste à réduire l'effort de transcription des linguistes « de terrain ». Nous montrons comment une nouvelle approche neuronale fondée sur la spécialisation d'un modèle de représentation générique pré-entraîné multilingue XLS-R reposant sur une architecture de type Transformer permet d'améliorer significativement la qualité de la transcription phonémique dans le cas où seules quelques heures de données annotées sont disponibles, et surtout de progresser jusqu'à la reconnaissance automatique de mots. Nous relevons néanmoins des difficultés de mise en oeuvre, en termes de stabilité de l'apprentissage. La question de l'évaluation de l'outil par les linguistes de terrain est également abordée.

Mots clés

Computational Language Documentation Automatic Speech Recognition Open Science Deep Learning linguistic fieldwork Japhug

Documentation computationnelle des langues Reconnaissance automatique de la parole Science ouverte Apprentissage machine Linguistique de terrain Japhug

Domaines

Linguistique

Fichier principal

JEP2022_Transformers_Japhug.pdf (204.87 Ko)

RecoMotsJaphug_JEP2022_poster.pdf (847.72 Ko)

Origine : Fichiers produits par l'(les) auteur(s)
Licence : CC BY NC SA - Paternité - Pas d'utilisation commerciale - Partage selon les Conditions Initiales

Licence : CC BY NC SA - Paternité - Pas d'utilisation commerciale - Partage selon les Conditions Initiales

Alexis Michaud : Connectez-vous pour contacter le contributeur

https://shs.hal.science/halshs-03625580

Soumis le : jeudi 31 mars 2022-05:42:54

Dernière modification le : jeudi 4 avril 2024-21:39:50

Dates et versions

halshs-03625580 , version 1 (31-03-2022)

Licence

Paternité - Pas d'utilisation commerciale - Partage selon les Conditions Initiales

Identifiants

HAL Id : halshs-03625580 , version 1
DOI : 10.21437/JEP.2022-52

Citer

Séverine Guillaume, Guillaume Wisniewski, Cécile Macaire, Guillaume Jacques, Alexis Michaud, et al.. Les modèles pré-entraînés à l'épreuve des langues rares : expériences de reconnaissance de mots sur la langue japhug (sino-tibétain). JEP 2022 - 34e Journées d’Études sur la Parole, Jun 2022, Noirmoutier, France. ⟨10.21437/JEP.2022-52⟩. ⟨halshs-03625580⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA CNRS UNIV-PARIS3 EHESS GIPSA LLF INALCO LIG LACITO CRLAO CAMPUS-AAR AAI CAMPUS-CONDORCET GIPSA-PPC GIPSA-SYLDO UP-SOCIETES-HUMANITES ASIES_ET_PACIFIQUE ANR LIG_SIDCH

354 Consultations

131 Téléchargements

Testing pre-trained models on un(der-)described languages: Automatic Speech Recognition experiments on the Japhug language