Peut-on bien chunker avec de mauvaises étiquettes POS ?

Résumé : . Dans cet article, nous testons deux approches distinctes pour chunker un corpus oral transcrit, en cherchant à minimiser les étapes de correction manuelle. Nous ré-utilisons tout d'abord un chunker appris sur des données écrites, puis nous tentons de ré-apprendre un chunker spécifique de l'oral à partir de données annotées et corrigées manuellement, mais en faible quantité. L'objectif est d'atteindre les meilleurs résultats possibles pour le chunker en se passant autant que possible de la correction manuelle des étiquettes POS. Nos expériences montrent qu'il est possible d'apprendre un nouveau chunker performant pour l'oral à partir d'un corpus de référence annoté de petite taille, sans intervention sur les étiquettes POS.
Document type :
Conference papers
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01024274
Contributor : Iris Eshkol, Eshkol-Taravella <>
Submitted on : Thursday, July 24, 2014 - 4:27:25 PM
Last modification on : Wednesday, May 22, 2019 - 3:46:02 PM
Long-term archiving on : Monday, November 24, 2014 - 2:40:20 PM

File

taln2014.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01024274, version 1

Collections

Citation

Iris Eshkol-Taravella, Isabelle Tellier, Yoann Dupont, Ilaine Wang. Peut-on bien chunker avec de mauvaises étiquettes POS ?. TALN 2014, Jul 2014, Marseille, France. pp.125-136. ⟨hal-01024274v1⟩

Share

Metrics

Record views

175

Files downloads

97