Apprentissage automatique d'un modèle de résolution de la coréférence à partir de données orales transcrites du français : le système CROC - HAL Accéder directement au contenu
Communication dans un congrès Année : 2015

Machine Learning for Coreference Resolution of Transcribed Oral French Data: the CROC System

Apprentissage automatique d'un modèle de résolution de la coréférence à partir de données orales transcrites du français : le système CROC

Résumé

We present CROC (Coreference Resolution for Oral Corpus), the first machine learning system for coreference resolution in French. One specific aspect of the system is that it has been trained on data that are exclusively oral, namely ANCOR (ANaphora and Coreference in ORal corpus), the first corpus in oral French with anaphorical relations annotations. In its current state, the CROC system requires pre-annotated mentions. We detail the features that we chose to be used by the learning algorithms, and we present a set of experiments with these features. The scores we obtain are close to those of state-of-the-art systems for written English. Then we give future works on the design of an end-to-end system for oral and written French.
Cet article présente CROC (Coreference Resolution for Oral Corpus), un premier système de résolution des coréférences en français reposant sur des techniques d'apprentissage automatique. Une des spécificités du système réside dans son apprentissage sur des données exclusivement orales, à savoir ANCOR (anaphore et coréférence dans les corpus oraux), le premier corpus de français oral transcrit annoté en relations anaphoriques. En l'état actuel, le système CROC nécessite un repérage préalable des mentions. Nous détaillons les choix des traits – issus du corpus ou calculés – utilisés par l'apprentissage, et nous présentons un ensemble d'expérimentations avec ces traits. Les scores obtenus sont très proches de ceux de l'état de l'art des systèmes conçus pour l'écrit. Nous concluons alors en donnant des perspectives sur la réalisation d'un système end-to-end valable à la fois pour l'oral transcrit et l'écrit.
Fichier principal
Vignette du fichier
15_TALN.pdf ( 132.96 Ko ) Télécharger
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

halshs-01162174, version 1 (16-06-2015)

Identifiants

  • HAL Id : halshs-01162174 , version 1

Citer

Adèle Désoyer, Frédéric Landragin, Isabelle Tellier. Apprentissage automatique d'un modèle de résolution de la coréférence à partir de données orales transcrites du français : le système CROC. Vingt-deuxième Conférence sur le Traitement Automatique des Langues Naturelles, Jun 2015, Caen, France. pp.439-445. ⟨halshs-01162174⟩
383 Consultations
666 Téléchargements
Dernière date de mise à jour le 20/04/2024
comment ces indicateurs sont-ils produits

Partager

Gmail Facebook Twitter LinkedIn Plus