donnent des indices précieux pour caractériser les propriétés les plus discriminantes qui distinguent un texte (ou un ensemble de textes) d'un autre ,
applicable à d'autres corpus puisqu'elle permet d'explorer en isolant les caractéristiques d'un texte de façon ordonnée et hiérarchique à partir du lexique, des étiquettes morpho-syntaxiques, et des structures syntaxiques. Nos expériences suggèrent ainsi que, face à un nouveau texte de l'ancien français, il conviendrait de suivre la méthode suivante ,
un très grand nombre de données annotées ou, au contraire, de données annotées moins nombreuses mais plus proches des données cibles est une question commune à de nombreux domaines Avec cet article, nous esquissons une méthode générale qui pourra trouver des applications dans d'autres contextes faisant intervenir des corpus hétérogèes Building a treebank for french, Treebanks, pp.165-187, 2003. ,
Parsing poorly standardized language dependency on old french, 13th Treebank and Language Theory (TLT), 2014. ,
La base de français médiéval (bfm) : états et perspectives . Le nouveau corpus d'Amsterdam : actes de l'atelier de Lauterbad, pp.23-26, 2006. ,
Conditional random fields : Probabilistic models for segmenting and labeling sequence data, Proceedings of the 18th International Conference on Machine Learning, pp.282-289, 2001. ,
Practical very large scale CRFs, Proceedings the 48th Annual Meeting of the Association for Computational Linguistics (ACL), pp.504-513, 2010. ,
Classification de sentiments multi-domaines en contexte hétérogène et passage à l'echelle, COnférence en Recherche d'Information et Applications (CORIA), 2013. ,
Parsing heterogeneous corpora with a rich dependency grammar, Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14) European Language Resources Association (ELRA), 2014. ,
Adapt a text-oriented chunker for oral data : How much manual effort is necessary ?, The 14th International Conference on Intelligent Data Engineering and Automated Learning (IDEAL'2013), 2013. ,