P. Pos, Comme l'erreur en chunking n'est pas beaucoup plus importante que l'erreur en POS, la solution de corriger les POS apparaît a priori comme la plus « naturelle ». Cette correction manuelle des POS améliore le résultat du chunking de 10 points de F-mesure en moyenne, mais reste 10 points en dessous des performances moyennes du chunker sur l'écrit. Même avec un étiquetage POS parfait

. La-dernière-expérience-est-la-plus-prometteuse, oral (y compris pour la reconnaissance des interjections par exemple) d'assez bonne qualité, en s'appuyant uniquement sur un petit nombre de données annotées, qui plus est avec des étiquettes POS médiocres (et non adaptées à l'oral) Les erreurs du POS ont bien été compensées par l'apprentissage du chunker, qui fait en moyenne moins d'erreurs de chunking qu'il n'y a d'erreurs d'étiquetage POS. Les mots, même en petites quantités, permettent cette compensation

A. A. , C. L. Et, and T. F. , Building a treebank for french, 2003.

A. Habert-b, A. G. Barras-c, . Boula-de-mareüil-p, and . Paroubek-p, A disfluency study for cleaning spontaneous speech automatic transcripts and improving speech language models, Proceedings of Isca tutorial and research workshop on disfluency in spontaneous speech (diss'03), pp.67-70, 2003.

A. and G. J. Villaneau, Quand le TAL robuste s'attaque au langage parlé : analyse incrémentale pour la compréhension de la parole spontanée, pp.25-34, 2003.

A. , M. A. Et, and F. N. , Automatic rich annotation of large corpus of conversational transcribed speech: the chunking task of the epac project, Proceedings of LREC, 2008.

B. O. , C. M. , D. A. Et, and W. P. , Corpus oraux et chunking, Actes de Journées d'étude sur la parole (JEP), 2008.

B. O. , C. M. , and D. A. Et-watrin-p, Partial parsing of spontaneous spoken French, Proceedings of 7th International Conference on Language Resources and Evaluation (LREC'10), 2010.

B. Jeanjean-c, Le français parlé, transcription et édition, 1987.

C. M. Tellier-i, Evaluating the impact of external lexical ressources unto a crf-based multiword segmenter and part-of-speech tagger, Proceedings of LREC 2012, 2012.

E. I. Tellier-i and T. S. Billot-s, Étiqueter un corpus oral par apprentissage automatique à l'aide de connaissances linguistiques, 2010.

E. Baude-o, M. D. Hriba-l, . Dugua-c, and . Tellier-i, Un grand corpus oral « disponible » : le corpus d'Orléans, pp.17-46, 1968.

L. T. , C. O. , and E. Yvon-f, Practical very large scale CRFs, Proceedings of ACL'2010, pp.504-513, 2010.

L. J. , M. A. , and E. Pereira-f, Conditional random fields: Probabilistic models for segmenting and labeling sequence data, Proceedings of ICML 2001, pp.282-289, 2001.

T. I. , D. D. Eshkol-i, and C. A. Martinet-m, Apprentissage automatique d'un chunker pour le français, 2012.

T. I. Eshkol-i and T. S. Prost-j-p, POS-tagging for Oral Texts with CRF and Category Decomposition, Research in Computer Science, special issue : Natural Language Processing and its Applications, pp.79-90, 2010.

V. A. Veronis, Etiquetage grammatical des corpus de parole : problèmes et perspectives. L'oral spontané, pp.113-133, 1999.