TXM : Une plateforme logicielle open-source pour la textométrie - conception et développement

Résumé : Le projet de recherche Fédération des recherches et développements en textométrie autour de la création d'une plateforme logicielle ouverte diffuse sa plateforme d'analyse textométrique de corpus XML-TEI en ligne. La conception de cette plateforme repose sur une synthèse des fonctionnalités des logiciels de textométrie existants. Elle s'appuie sur le recensement des technologies logicielles open-source disponibles et efficaces pour manipuler des ressources numériques XML et Unicode, et sur un état de l'art des moteurs de recherche en texte intégral sur corpus structurés et étiquetés. L'architecture consiste en une boîte à outils Java articulant un composant moteur de recherche (IMS CWB), un environnement de calcul statistique (R) et un module d'importation de corpus XML-TEI. La plateforme est diffusée sous la forme d'une boite à outils en open-source pour les développeurs informatique mais également sous la forme de deux applications pour les utilisateurs finaux de la textométrie : une application à installer sur un poste local (Windows ou Linux) et une application web accessible en ligne. Encore au début de son développement, la plateforme n'implémente à l'heure actuelle que quelques fonctionnalités essentielles, mais sa diffusion en open-source autorise un développement communautaire ouvert. Cela doit faciliter son évolution et l'intégration de nouveaux modèles et méthodes.
Type de document :
Communication dans un congrès
Sergio Bolasco, Isabella Chiari, Luca Giuliano. 10th International Conference on the Statistical Analysis of Textual Data - JADT 2010, Jun 2010, Rome, Italie. Edizioni Universitarie di Lettere Economia Diritto, 2 (3), pp.1021-1032, 2010
Liste complète des métadonnées

https://halshs.archives-ouvertes.fr/halshs-00549779
Contributeur : Serge Heiden <>
Soumis le : mercredi 22 décembre 2010 - 15:43:24
Dernière modification le : mardi 21 juin 2016 - 09:33:40
Document(s) archivé(s) le : vendredi 2 décembre 2016 - 12:42:43

Fichier

Heiden_al_jadt2010.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : halshs-00549779, version 1

Collections

Citation

Serge Heiden, Jean-Philippe Magué, Bénédicte Pincemin. TXM : Une plateforme logicielle open-source pour la textométrie - conception et développement. Sergio Bolasco, Isabella Chiari, Luca Giuliano. 10th International Conference on the Statistical Analysis of Textual Data - JADT 2010, Jun 2010, Rome, Italie. Edizioni Universitarie di Lettere Economia Diritto, 2 (3), pp.1021-1032, 2010. <halshs-00549779>

Partager

Métriques

Consultations de
la notice

1549

Téléchargements du document

735