Extraction de données à partir de pages HTML<br />par création semi-automatique de règles XSLT - HAL-SHS - Sciences de l'Homme et de la Société Accéder directement au contenu
Proceedings/Recueil Des Communications Année : 2003

Extraction de données à partir de pages HTML
par création semi-automatique de règles XSLT

Résumé

L'extraction des données à partir des sources web suscite un intérêt
particulier ces dernières années. Cependant il n'existe aucun standard, car les
sources d'information Web restent très hétérogènes. Il y a quand même un point
commun – elles sont toutes disponibles en format HTML pour être visualisées
dans le navigateur client. Cet article présente une méthodologie et les outils
associés d'extraction de données à partir de documents HTML. Notre approche
est basée sur des technologies XML pour effectuer l'extraction des données,
notamment XHTML et XSLT. Afin de valider notre méthodologie, nous avons
créé une application nommée XPFE WRAPPER, un générateur semiautomatique
de «wrappers1» qui a été développé sur la plate-forme XPFE de
Mozilla
Fichier principal
Vignette du fichier
IC2003Final.pdf (85.74 Ko) Télécharger le fichier
Loading...

Dates et versions

halshs-00097805 , version 1 (22-09-2006)

Identifiants

  • HAL Id : halshs-00097805 , version 1

Citer

Nicolas Georgiev, Jean-Marc Labat, Jean-Luc Minel, Laurent Nicolas. Extraction de données à partir de pages HTML
par création semi-automatique de règles XSLT. IC'2003, 2003, France. pp.117-127, 2003. ⟨halshs-00097805⟩
209 Consultations
1122 Téléchargements

Partager

Gmail Facebook X LinkedIn More