Spécialisation de modèles neuronaux pour la transcription phonémique : premiers pas vers la reconnaissance de mots pour les langues rares - HAL-SHS - Sciences de l'Homme et de la Société Accéder directement au contenu
Communication Dans Un Congrès Année : 2021

A first step towards automatic word recognition for low-resource languages

Spécialisation de modèles neuronaux pour la transcription phonémique : premiers pas vers la reconnaissance de mots pour les langues rares

Résumé

We describe the latest results we have obtained in the development of NLP (Natural Language Processing) tools to reduce the transcription and annotation workload of field linguists, as part of workflows to document and describe the world's languages. We show how a new deep learning approach based on the fine-tuning of a generic representation model allows to significantly improve the quality of automatic phonemic transcription, and, more significantly, to take a first step towards automatic word recognition for low-resource languages.
Nous décrivons les résultats les plus récents que nous avons obtenus dans le cadre du développement d'outils de Traitement Automatique des Langues (TAL) pour réduire l'effort de transcription et d'annotation que doivent fournir les linguistes « de terrain » au fil de leur travail de documentation et description de langues rares. En particulier, nous montrons comment une nouvelle approche neuronale fondée sur la spécialisation d'un modèle de représentation générique permet d'améliorer significativement la qualité de la transcription phonémique automatique, et surtout d'envisager la reconnaissance automatique de mots, approchant ainsi du stade de la reconnaissance automatique de la parole au sens plein du terme.
Fichier principal
Vignette du fichier
LIFT_reco_final.pdf (79.88 Ko) Télécharger le fichier
LIFT_reco_presentation.pdf (1.29 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

halshs-03475443 , version 1 (10-12-2021)

Licence

Paternité - Pas d'utilisation commerciale - Partage selon les Conditions Initiales

Identifiants

  • HAL Id : halshs-03475443 , version 1

Citer

Cécile Macaire, Guillaume Wisniewski, Séverine Guillaume, Benjamin Galliot, Guillaume Jacques, et al.. Spécialisation de modèles neuronaux pour la transcription phonémique : premiers pas vers la reconnaissance de mots pour les langues rares. Journées scientifiques du Groupement de recherche "Linguistique informatique, formelle et de terrain" (GDR LIFT), Dec 2021, Grenoble, France. ⟨halshs-03475443⟩
187 Consultations
113 Téléchargements

Partager

Gmail Facebook X LinkedIn More