555 articles – 3712 references  [version française]
HAL: halshs-00549779, version 1

Detailed view  Export this paper
10th International Conference on the Statistical Analysis of Textual Data - JADT 2010, Rome : Italie (2010)
TXM : Une plateforme logicielle open-source pour la textométrie - conception et développement
Serge Heiden 1, Jean-Philippe Magué 1, Bénédicte Pincemin 1
(2010-06-09)

Le projet de recherche Fédération des recherches et développements en textométrie autour de la création d'une plateforme logicielle ouverte diffuse sa plateforme d'analyse textométrique de corpus XML-TEI en ligne. La conception de cette plateforme repose sur une synthèse des fonctionnalités des logiciels de textométrie existants. Elle s'appuie sur le recensement des technologies logicielles open-source disponibles et efficaces pour manipuler des ressources numériques XML et Unicode, et sur un état de l'art des moteurs de recherche en texte intégral sur corpus structurés et étiquetés. L'architecture consiste en une boîte à outils Java articulant un composant moteur de recherche (IMS CWB), un environnement de calcul statistique (R) et un module d'importation de corpus XML-TEI. La plateforme est diffusée sous la forme d'une boite à outils en open-source pour les développeurs informatique mais également sous la forme de deux applications pour les utilisateurs finaux de la textométrie : une application à installer sur un poste local (Windows ou Linux) et une application web accessible en ligne. Encore au début de son développement, la plateforme n'implémente à l'heure actuelle que quelques fonctionnalités essentielles, mais sa diffusion en open-source autorise un développement communautaire ouvert. Cela doit faciliter son évolution et l'intégration de nouveaux modèles et méthodes.
1:  Interactions, Corpus, Apprentissages, Représentations (ICAR)
CNRS : UMR5191 – Université Lumière - Lyon II – Ecole Normale Supérieure Lettres et Sciences Humaines – INRP – École Normale Supérieure - Lyon
Humanities and Social Sciences/Methods and statistics

Humanities and Social Sciences/Linguistics

Computer Science/Digital Libraries

Computer Science/Computation and Language

Computer Science/Document and Text Processing

Statistics/Applications
textométrie – open-source – moteur de recherche plein texte – analyse statistique – xml-tei – traitement automatique de la langue – tal – eclipse rcp – framework grails
Attached file list to this document: 
PDF
Heiden_al_jadt2010.pdf(780.9 KB)