Plugging a neural phoneme recognizer into a simple language model: a workflow for low-resource settings - HAL-SHS - Sciences de l'Homme et de la Société Accéder directement au contenu
Communication Dans Un Congrès Année : 2022

Plugging a neural phoneme recognizer into a simple language model: a workflow for low-resource settings

Intégration d'un système de reconnaissance neuronale des phonèmes et d'un modèle de langue simple : une chaîne de traitement pour les scénarios à faibles ressources

Résumé

Recently, several works have shown that fine-tuning a multilingual model of speech representation (typically XLS-R) with very small amounts of annotated data allows for the development of phonemic transcription systems of sufficient quality to help field linguists in their efforts to document the languages of the world. In this work, we explain how the quality of these systems can be improved by a very simple method, namely integrating them with a language model. Our experiments on an endangered language, Japhug (Trans-Himalayan/Tibeto-Burman), show that this approach can significantly reduce the WER, reaching the stage of automatic recognition of entire words.
Des travaux récents montrent que la spécialisation (*fine-tuning*) d'un modèle multilingue de représentation de la parole (tel que XLS-R) au moyen de très petites quantités de données annotées permet d'obtenir des systèmes de transcription phonémique de qualité suffisante pour être utile aux linguistes de terrain dans leur entreprise de documentation des langues du monde. Dans ce travail, nous exposons une méthode très simple qui permet d'améliorer la qualité de ces systèmes : leur intégration avec un modèle de langue. Nos expériences sur une langue menacée, le japhug (famille trans-himalayenne/tibéto-birmane), montrent que cette approche peut réduire significativement le taux d'erreur sur les mots (WER: *Word Error Rate*), et mener au stade de la reconnaissance automatique de mots entiers.
Fichier principal
Vignette du fichier
Interspeech2022_ASR_Endangered.pdf (152.72 Ko) Télécharger le fichier
Poster_Interspeech2022_ASR_Endangered.pdf (432.88 Ko) Télécharger le fichier
Slideshow_Interspeech2022_ASR_Endangered.pdf (343.72 Ko) Télécharger le fichier
Video_Interspeech2022_ASR_Endangered.mp4 (23.08 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Licence : CC BY NC SA - Paternité - Pas d'utilisation commerciale - Partage selon les Conditions Initiales
Licence : CC BY NC SA - Paternité - Pas d'utilisation commerciale - Partage selon les Conditions Initiales
Licence : CC BY NC SA - Paternité - Pas d'utilisation commerciale - Partage selon les Conditions Initiales
Licence : CC BY NC SA - Paternité - Pas d'utilisation commerciale - Partage selon les Conditions Initiales

Dates et versions

halshs-03625581 , version 1 (31-03-2022)
halshs-03625581 , version 2 (03-07-2022)

Licence

Paternité - Pas d'utilisation commerciale - Partage selon les Conditions Initiales

Identifiants

Citer

Séverine Guillaume, Guillaume Wisniewski, Benjamin Galliot, Minh-Châu Nguyễn, Maxime Fily, et al.. Plugging a neural phoneme recognizer into a simple language model: a workflow for low-resource settings. Interspeech 2022 - 23rd Annual Conference of the International Speech Communication Association, Sep 2022, Incheon, South Korea. pp.4905-4909, ⟨10.21437/Interspeech.2022-11314⟩. ⟨halshs-03625581v2⟩
836 Consultations
454 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More