555 articles – 3712 references  [version française]
HAL: halshs-00549779, version 1

Short view  Export this paper
TXM : Une plateforme logicielle open-source pour la textométrie - conception et développement
Heiden S., Magué J.-P., Pincemin B.
Dans Statistical Analysis of Textual Data - Proceedings of 10th International Conference Journées d'Analyse statistique des Données Textuelles - 10th International Conference on the Statistical Analysis of Textual Data - JADT 2010, Rome : Italy (2010) - http://halshs.archives-ouvertes.fr/halshs-00549779
TXM : Une plateforme logicielle open-source pour la textométrie - conception et développement
Serge Heiden () 1, Jean-Philippe Magué () 1, Bénédicte Pincemin 1
1:  Interactions, Corpus, Apprentissages, Représentations (ICAR)
http://icar.univ-lyon2.fr/
CNRS : UMR5191 – Université Lumière - Lyon II – Ecole Normale Supérieure Lettres et Sciences Humaines – INRP – École Normale Supérieure - Lyon
5, av Pierre Mendès-France 69676 BRON CEDEX
France
French
2009-10-30

Le projet de recherche Fédération des recherches et développements en textométrie autour de la création d'une plateforme logicielle ouverte diffuse sa plateforme d'analyse textométrique de corpus XML-TEI en ligne. La conception de cette plateforme repose sur une synthèse des fonctionnalités des logiciels de textométrie existants. Elle s'appuie sur le recensement des technologies logicielles open-source disponibles et efficaces pour manipuler des ressources numériques XML et Unicode, et sur un état de l'art des moteurs de recherche en texte intégral sur corpus structurés et étiquetés. L'architecture consiste en une boîte à outils Java articulant un composant moteur de recherche (IMS CWB), un environnement de calcul statistique (R) et un module d'importation de corpus XML-TEI. La plateforme est diffusée sous la forme d'une boite à outils en open-source pour les développeurs informatique mais également sous la forme de deux applications pour les utilisateurs finaux de la textométrie : une application à installer sur un poste local (Windows ou Linux) et une application web accessible en ligne. Encore au début de son développement, la plateforme n'implémente à l'heure actuelle que quelques fonctionnalités essentielles, mais sa diffusion en open-source autorise un développement communautaire ouvert. Cela doit faciliter son évolution et l'intégration de nouveaux modèles et méthodes.
The research project Federation and Research Developments in Textometry around the creation of an Open- Source Platform distributes its XML-TEI encoded corpus textometric analysis platform online. The design of this platform is based on a synthesis of features of existing textometric software. It relies on identifying the open-source software technology available and effectively processing digital resources encoded in XML and Unicode, and on a state of the art of open-source full-text search engines on structured and annotated corpora. The architecture is based on a Java toolkit component articulating a search engine (IMS CWB), a statistical computing environment (R) and a module for importing XML-TEI encoded corpora. The platform is distributed as an open-source toolkit for developers and in the form of two applications for end users of textometry: a local application to install on a workstation (Windows or Linux) and an online web application. Still early in its development, the platform implements at present only a few essential features, but its distribution in open-source already allows an open community development. This should facilitate its development and integration of new models and methods.

Conference proceedings
Humanities and Social Sciences/Methods and statistics
Humanities and Social Sciences/Linguistics
Computer Science/Digital Libraries
Computer Science/Computation and Language
Computer Science/Document and Text Processing
Statistics/Applications

Statistical Analysis of Textual Data - Proceedings of 10th International Conference Journées d'Analyse statistique des Données Textuelles
international
2010-06-09
2
3
1021-1032
Edizioni Universitarie di Lettere Economia Diritto
Sergio Bolasco, Isabella Chiari, Luca Giuliano

10th International Conference on the Statistical Analysis of Textual Data - JADT 2010
2010-06-09
2010-06-11
Rome
Italy

textométrie – open-source – moteur de recherche plein texte – analyse statistique – xml-tei – traitement automatique de la langue – tal – eclipse rcp – framework grails
textometry – open-source – full text search engine – statistical analysis – xml-tei – natural language processing – eclipse rcp – grails framework
Project Id ANR-06-CORP-029
Year 2006
Project acronyme Textométrie
Project title Fédération des recherches et développements en textométrie autour de la création d'une plateforme logicielle ouverte
Intitule Corpus et outils de la recherche en sciences humaines et sociales
Acronyme CORP
Attached file list to this document: 
PDF
Heiden_al_jadt2010.pdf(780.9 KB)