Résumé : Le recours croissant aux très grands corpus pour améliorer les systèmes de Traitement Automatique des Langues TAL suppose de maîriser l'homogénéité lexicale morphosyntaxique et syntaxique des données utilisées. Cela implique en amont le développement d'outils de calibrage de textes. Nous mettons en place de tels outils et la méthodologie associée dans le cadre de l'appel d'offres ELRA "Contribution à la réalisation de corpus du français contemporain" Nous montrons sur les rubriques principales du journal Le Monde les premiers réultats de cette approche Nous précisons les contraintes qui en résultent pour les chaînes de traitement de corpus au regard des propositions existant dans le domaine
https://halshs.archives-ouvertes.fr/halshs-00151840
Contributor : Serge Heiden <>
Submitted on : Friday, June 15, 2007 - 3:25:24 PM Last modification on : Thursday, December 10, 2020 - 11:07:10 AM Long-term archiving on: : Thursday, April 8, 2010 - 6:57:35 PM
Serge Heiden, Pierre Lafon, Gabriel Illouz, Benoît Habert, Serge Fleury, et al.. Prendre Le Monde en main : choix d'architecture. RIAO 2000, 2000, Pagination non précisée. ⟨halshs-00151840⟩