Découverte de configurations de traits textuels pour la caractérisation des segments d'obsolescence - HAL-SHS - Sciences de l'Homme et de la Société Accéder directement au contenu
Article Dans Une Revue Document numérique - Revue des sciences et technologies de l'information. Série Document numérique Année : 2010

Découverte de configurations de traits textuels pour la caractérisation des segments d'obsolescence

Résumé

This paper presents a data-driven methodology for the automatic identification of text segments which contain information requiring updating ("obsolescence segments"). Our approach views markers as configurations of textual features and involves tagging text for a wide range of feature types of variable scope. We then apply a statistical method based on association rules whereby feature combinations relevant for the detection of obsolescence emerge from the data : intrasentential, hierarchical, positional and external features. We propose an evaluation of the respective roles of the different feature types. The study is based on a corpus of encyclopaedic texts which have been manually annotated by experts from the field of publishing
Cet article présente une méthodologie de découverte de marqueurs envisagés comme des configurations de traits textuels pour la description et le repérage automatique de segments contenant des informations nécessitant des mises à jour (les segments d'obsolescence). La méthodologie mise en œuvre est fondée sur la prise en compte de traits textuels hétérogènes et à granularité variable. Nous mettons en place un système statistique à base de règles d'association pour faire émerger des données les combinaisons de traits pertinentes : traits intraphrastiques, hiérarchiques, positionnels et externes. Une évaluation de leur rôle en termes de performance est proposée. Nous travaillons sur un corpus de textes encyclopédiques annoté manuellement par des rédacteurs du monde de l'édition
Fichier principal
Vignette du fichier
LaigneletPeryTanguy_DocNum_VFinale-24dec.pdf (240.51 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

halshs-00953287 , version 1 (28-02-2014)

Identifiants

  • HAL Id : halshs-00953287 , version 1

Citer

Marion Laignelet, Marie-Paule Péry-Woodley, Ludovic Tanguy. Découverte de configurations de traits textuels pour la caractérisation des segments d'obsolescence. Document numérique - Revue des sciences et technologies de l'information. Série Document numérique, 2010, 13 (3), pp.41-69. ⟨halshs-00953287⟩
124 Consultations
173 Téléchargements

Partager

Gmail Facebook X LinkedIn More