Peut-on bien chunker avec de mauvaises étiquettes POS ?

Résumé : Dans cet article, nous testons deux approches distinctes pour chunker un corpus oral transcrit, en cherchant à minimiser les étapes de correction manuelle. Nous ré-utilisons tout d'abord un chunker appris sur des données écrites, puis nous tentons de ré-apprendre un chunker spécifique de l'oral à partir de données annotées et corrigées manuellement, mais en faible quantité. L'objectif est d'atteindre les meilleurs résultats possibles pour le chunker en se passant autant que possible de la correction manuelle des étiquettes POS. Nos expériences montrent qu'il est possible d'apprendre un nouveau chunker performant pour l'oral à partir d'un corpus de référence annoté de petite taille, sans intervention sur les étiquettes POS. Abstract. In this paper, we test two distinct approaches to chunk transcribed oral data, trying to minimize the phases of manual correction. First, we use an existing chunker, learned from written texts, then we try to learn a new specific chunker from a small amount of manually corrected labeled oral data. The purpose is to reach the best possible results for the chunker with as few manual corrections of the POS labels as possible. Our experiments show that it is possible to learn a new effective chunker for oral data from a labeled reference corpus of small size, without any manual correction of POS labels
Document type :
Conference papers
Complete list of metadatas

Cited literature [17 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-01024274
Contributor : Iris Eshkol, Eshkol-Taravella <>
Submitted on : Thursday, July 9, 2015 - 4:48:05 PM
Last modification on : Wednesday, May 22, 2019 - 3:46:02 PM
Long-term archiving on : Wednesday, April 26, 2017 - 2:30:22 AM

File

Paper_O-E.2.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01024274, version 2

Citation

Isabelle Tellier, Iris Eshkol-Taravella, Yoann Dupont, Ilaine Wang. Peut-on bien chunker avec de mauvaises étiquettes POS ?. TALN 2014, Jul 2014, Marseille, France. pp.125-136. ⟨hal-01024274v2⟩

Share

Metrics

Record views

239

Files downloads

123