Extraction de données à partir de pages HTML<br />par création semi-automatique de règles XSLT

Nicolas Georgiev; Jean-Marc Labat; Jean-Luc Minel; Laurent Nicolas

Proceedings/Recueil Des Communications Année : 2003

Extraction de données à partir de pages HTML
par création semi-automatique de règles XSLT

(1) , (1) , (2) , (1)

1
2

Nicolas Georgiev

Fonction : Auteur

Centre de Recherche en Informatique de Paris 5

Jean-Marc Labat

Fonction : Auteur

Centre de Recherche en Informatique de Paris 5

Jean-Luc Minel

Fonction : Auteur
PersonId : 461
IdHAL : jean-luc-minel
ORCID : 0000-0001-6253-6722
IdRef : 069458235

Modèles, Dynamiques, Corpus

Laurent Nicolas

Fonction : Auteur

Centre de Recherche en Informatique de Paris 5

Résumé

L'extraction des données à partir des sources web suscite un intérêt
particulier ces dernières années. Cependant il n'existe aucun standard, car les
sources d'information Web restent très hétérogènes. Il y a quand même un point
commun – elles sont toutes disponibles en format HTML pour être visualisées
dans le navigateur client. Cet article présente une méthodologie et les outils
associés d'extraction de données à partir de documents HTML. Notre approche
est basée sur des technologies XML pour effectuer l'extraction des données,
notamment XHTML et XSLT. Afin de valider notre méthodologie, nous avons
créé une application nommée XPFE WRAPPER, un générateur semiautomatique
de «wrappers1» qui a été développé sur la plate-forme XPFE de
Mozilla

Mots clés

Wrappers Données Semi-structurées Extraction de Données <br />Transformations XSL XSLT XML

Domaines

Linguistique

Fichier principal

IC2003Final.pdf (85.74 Ko)

Jean-Luc Minel : Connectez-vous pour contacter le contributeur

https://shs.hal.science/halshs-00097805

Soumis le : vendredi 22 septembre 2006-14:17:58

Dernière modification le : jeudi 21 décembre 2023-17:18:03

Archivage à long terme le : lundi 5 avril 2010-23:48:50

Dates et versions

halshs-00097805 , version 1 (22-09-2006)

Identifiants

HAL Id : halshs-00097805 , version 1

Citer

Nicolas Georgiev, Jean-Marc Labat, Jean-Luc Minel, Laurent Nicolas. Extraction de données à partir de pages HTML
par création semi-automatique de règles XSLT. IC'2003, 2003, France. pp.117-127, 2003. ⟨halshs-00097805⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS MODYCO UNIV-PARIS-LUMIERES UNIV-PARIS-NANTERRE

209 Consultations

1122 Téléchargements

Extraction de données à partir de pages HTMLpar création semi-automatique de règles XSLT

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager

Extraction de données à partir de pages HTML
par création semi-automatique de règles XSLT