Les coréférences à l'oral : une expérience d'apprentissage automatique sur le corpus ANCOR

Résumé : Cet article présente CROC (Coreference Resolution for Oral Corpus), le premier sys-tème de résolution des coréférences en français reposant sur des techniques d'apprentissage automatique. Une des spécificités du système réside dans son apprentissage sur des données exclusivement orales, à savoir ANCOR (anaphore et coréférence dans les corpus oraux), le premier corpus de français oral transcrit annoté en relations anaphoriques. En l'état actuel, le système CROC nécessite un repérage préalable des mentions. Nous détaillons les choix des traits – issus du corpus ou calculés – utilisés par l'apprentissage, et nous présentons un ensemble d'expérimentations avec ces traits. Les scores obtenus sont très proches de ceux de l'état de l'art des systèmes conçus pour l'écrit. Nous concluons alors en donnant des perspectives sur la réalisation d'un système end-to-end valable à la fois pour l'oral transcrit et l'écrit.
Type de document :
Article dans une revue
Traitement Automatique des Langues, ATALA, 2015, Traitement automatique du langage parlé, 55 (2), pp.97-121. 〈http://www.atala.org/-Volume-55-〉
Liste complète des métadonnées

Littérature citée [28 références]  Voir  Masquer  Télécharger

https://halshs.archives-ouvertes.fr/halshs-01153297
Contributeur : Frédéric Landragin <>
Soumis le : mardi 19 mai 2015 - 15:23:12
Dernière modification le : lundi 6 novembre 2017 - 10:49:46
Document(s) archivé(s) le : mardi 15 septembre 2015 - 06:16:37

Fichier

14_TAL.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : halshs-01153297, version 1

Collections

Citation

Adèle Désoyer, Frédéric Landragin, Isabelle Tellier, Anaïs Lefeuvre, Jean-Yves Antoine. Les coréférences à l'oral : une expérience d'apprentissage automatique sur le corpus ANCOR. Traitement Automatique des Langues, ATALA, 2015, Traitement automatique du langage parlé, 55 (2), pp.97-121. 〈http://www.atala.org/-Volume-55-〉. 〈halshs-01153297〉

Partager

Métriques

Consultations de la notice

303

Téléchargements de fichiers

128