Nouvelles perspectives en extraction d'information - HAL Accéder directement au contenu
Article dans une revue Revue des Sciences et Technologies de l'Information - Série TSI : Technique et Science Informatiques Année : 2002

Nouvelles perspectives en extraction d'information

Résumé

The aim of Information Extraction (IE) consists in recognizing and extracting a specific set of information from a corpus of texts, and structuring it in a predefined format. IE has fostered an increasing interest in the last decade, and is likely to lead to industrial applications in a close future. After a short presentation of the principles of the technology, this paper describes researches performed by our group. An operational system, designed for analysis of car crash reports is presented. Then we show how IE techniques can be used in new tasks of document processing: semantic encoding, reading assistance, composite document structuring. Finally we present some work in semantics aimed to improve the performances of nowadays systems.
L'extraction d'information (EI) est une technologie visant à reconnaître dans un corpus de documents textuels un ensemble d'informations spécifiques, à les extraire et à les structurer dans un format prédéfini. L'EI a connu un essor considérable ces dix dernières années et devrait conduire à des applications industrielles dans un avenir proche. Après une présentation des principes de cette technologie, cet article décrit les travaux menés dans notre groupe sur ce thème. Un système opérationnel, ayant permis d'analyser un corpus de constats d'accidents y est présenté. Nous montrons ensuite comment les techniques de l'EI peuvent être exploitées pour de nouvelles tâches de l'informatique documentaire : encodage sémantique, aide à la lecture, structuration de documents composites. Enfin nous présentons des travaux en sémantique susceptibles d'améliorer les performances des systèmes actuels.
Fichier principal
Vignette du fichier
Nouvelles_perspectives_en_extraction_information.pdf ( 584.72 Ko ) Télécharger
Loading...

Dates et versions

halshs-00009485, version 1 (08-03-2006)

Identifiants

  • HAL Id : halshs-00009485 , version 1

Citer

Michel Dupont, Jean-Marc Vuillaume, Bernard Victorri, Patrice Enjalbert, Yann Mathet, et al.. Nouvelles perspectives en extraction d'information. Revue des Sciences et Technologies de l'Information - Série TSI : Technique et Science Informatiques, 2002, 1 (21), pp.37-63. ⟨halshs-00009485⟩
617 Consultations
753 Téléchargements
Dernière date de mise à jour le 06/04/2024
comment ces indicateurs sont-ils produits

Partager

Gmail Facebook Twitter LinkedIn Plus