Apprentissage automatique d'un modèle de résolution de la coréférence à partir de données orales transcrites du français : le système CROC

We present CROC (Coreference Resolution for Oral Corpus), the first machine learning system for coreference resolution in French. One specific aspect of the system is that it has been trained on data that are exclusively oral, namely ANCOR (ANaphora and Coreference in ORal corpus), the first corpus in oral French with anaphorical relations annotations. In its current state, the CROC system requires pre-annotated mentions. We detail the features that we chose to be used by the learning algorithms, and we present a set of experiments with these features. The scores we obtain are close to those of state-of-the-art systems for written English. Then we give future works on the design of an end-to-end system for oral and written French.

Cet article présente CROC (Coreference Resolution for Oral Corpus), un premier système de résolution des coréférences en français reposant sur des techniques d'apprentissage automatique. Une des spécificités du système réside dans son apprentissage sur des données exclusivement orales, à savoir ANCOR (anaphore et coréférence dans les corpus oraux), le premier corpus de français oral transcrit annoté en relations anaphoriques. En l'état actuel, le système CROC nécessite un repérage préalable des mentions. Nous détaillons les choix des traits – issus du corpus ou calculés – utilisés par l'apprentissage, et nous présentons un ensemble d'expérimentations avec ces traits. Les scores obtenus sont très proches de ceux de l'état de l'art des systèmes conçus pour l'écrit. Nous concluons alors en donnant des perspectives sur la réalisation d'un système end-to-end valable à la fois pour l'oral transcrit et l'écrit.

Mots clés

Dialogue corpus Coreference resolution Machine learning Mention-pair model

Corpus de dialogues Détection de coréférences Apprentissage Modèles à paires de mentions

Domaines

Linguistique Sciences de l'information et de la communication

Liste complète des métadonnées

Format du dépôt	Fichier
Type de dépôt	Communication dans un congrès
Titre	en Machine Learning for Coreference Resolution of Transcribed Oral French Data: the CROC System fr Apprentissage automatique d'un modèle de résolution de la coréférence à partir de données orales transcrites du français : le système CROC
Résumé	en We present CROC (Coreference Resolution for Oral Corpus), the first machine learning system for coreference resolution in French. One specific aspect of the system is that it has been trained on data that are exclusively oral, namely ANCOR (ANaphora and Coreference in ORal corpus), the first corpus in oral French with anaphorical relations annotations. In its current state, the CROC system requires pre-annotated mentions. We detail the features that we chose to be used by the learning algorithms, and we present a set of experiments with these features. The scores we obtain are close to those of state-of-the-art systems for written English. Then we give future works on the design of an end-to-end system for oral and written French. fr Cet article présente CROC (Coreference Resolution for Oral Corpus), un premier système de résolution des coréférences en français reposant sur des techniques d'apprentissage automatique. Une des spécificités du système réside dans son apprentissage sur des données exclusivement orales, à savoir ANCOR (anaphore et coréférence dans les corpus oraux), le premier corpus de français oral transcrit annoté en relations anaphoriques. En l'état actuel, le système CROC nécessite un repérage préalable des mentions. Nous détaillons les choix des traits – issus du corpus ou calculés – utilisés par l'apprentissage, et nous présentons un ensemble d'expérimentations avec ces traits. Les scores obtenus sont très proches de ceux de l'état de l'art des systèmes conçus pour l'écrit. Nous concluons alors en donnant des perspectives sur la réalisation d'un système end-to-end valable à la fois pour l'oral transcrit et l'écrit.
Auteur(s)	Adèle Désoyer ^{1, 2} , Frédéric Landragin ² , Isabelle Tellier ² 1 MoDyCo - Modèles, Dynamiques, Corpus ( 1057 ) - Université Paris Nanterre Bâtiment A - Bureau 402 A 200, avenue de la République 92001 Nanterre Cedex - France Université Paris Nanterre UMR7114 ( 116205 ) ; Centre National de la Recherche Scientifique UMR7114 ( 441569 ) 2 Lattice - Lattice - Langues, Textes, Traitements informatiques, Cognition - UMR 8094 ( 104851 ) - Lattice - ENS 1, rue Maurice Arnoux 92120 Montrouge - France Université Sorbonne Nouvelle - Paris 3 ( 52995 ) ; Université Sorbonne Paris Cité ( 303171 ) ; Centre National de la Recherche Scientifique UMR8094 ( 441569 ) ; Université Paris Sciences et Lettres ( 564132 ) ; Département Littératures et langage - ENS Paris ( 1072648 ) ; École normale supérieure - Paris ( 59704 ) ; Université Paris Sciences et Lettres ( 564132 )
Langue du document	Français
Source	Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles (TALN'2015)
Vulgarisation	Non
Actes	Oui
Comité de lecture	Oui
Invité	Non
Audience	Internationale
Date de publication	2015-06
Page/Identifiant	439-445
Titre du congrès	Vingt-deuxième Conférence sur le Traitement Automatique des Langues Naturelles
Date début congrès	2015-06-22
Date fin congrès	2015-06-25
Ville	Caen
Pays	France
URL du congrès ou éditeur	http://www.atala.org/
Domaine(s)	Sciences de l'Homme et Société/Linguistique Sciences de l'Homme et Société/Sciences de l'information et de la communication
Mots-clés	en Dialogue corpus, Coreference resolution, Machine learning, Mention-pair model fr Corpus de dialogues, Détection de coréférences, Apprentissage, Modèles à paires de mentions

Fichier principal

15_TALN.pdf ( 132.96 Ko )

Origine : Fichiers produits par l'(les) auteur(s)

Frédéric Landragin : Connectez-vous pour contacter le contributeur

https://shs.hal.science/halshs-01162174

Soumis le : mardi 16 juin 2015 à 17:30:27

Dernière modification le : vendredi 19 avril 2024 à 16:18:57

Archivage à long terme le : mardi 25 avril 2017 à 05:48:45

Dates et versions

halshs-01162174, version 1 (16-06-2015)

Identifiants

HAL Id : halshs-01162174 , version 1

Citer

Adèle Désoyer, Frédéric Landragin, Isabelle Tellier. Apprentissage automatique d'un modèle de résolution de la coréférence à partir de données orales transcrites du français : le système CROC. Vingt-deuxième Conférence sur le Traitement Automatique des Langues Naturelles, Jun 2015, Caen, France. pp.439-445. ⟨halshs-01162174⟩

Exporter

BibTeX TEI Dublin Core DC Terms EndNote Datacite

Collections

ENS-PARIS CNRS UNIV-PARIS3 LATTICE MODYCO PSL UNIV-PARIS-LUMIERES UNIV-PARIS-NANTERRE

383 Consultations

666 Téléchargements

Dernière date de mise à jour le 20/04/2024

Machine Learning for Coreference Resolution of Transcribed Oral French Data: the CROC System