Méthodologie d'évaluation de la cohérence inter-représentations pour l'intégration de bases de données spatiales. Une approche combinant l'utilisation de métadonnées et l'apprentissage automatique. - HAL-SHS - Sciences de l'Homme et de la Société Accéder directement au contenu
Thèse Année : 2005

Methodology for assessing consistency between multiple representations for spatial databases integration.
An approach combining the use of metadata and machine learning.

Méthodologie d'évaluation de la cohérence inter-représentations pour l'intégration de bases de données spatiales. Une approche combinant l'utilisation de métadonnées et l'apprentissage automatique.

Résumé

Nowadays most databases are run independently. An independence that leads to a series of
problems: repeated efforts of maintenance and updating, difficulty in proceeding with an analysis at
various levels and no guarantee of coherence between sources.
Joint management of these sources requires them to be integrated in order to define the explicit
links between the various bases and to provide a unified vision. Our thesis deals with this issue. It
concentrates in particular on the means of relating data and of assessing coherence between multiple
representations. We have sought to systematically analyse each difference in representation between
matching data so as to determine whether it results from different criteria used for data capture or from
errors in the capture itself, the aim being to ensure coherent data integration.
In order to study the conformity of representations, we suggest exploiting existing database
specifications. These documents describe specific selection and modelling rules for objects. They are
reference metadata used to determine whether representations are equivalent or incoherent. But their
use is insufficient since specifications described in a natural language can be imprecise or incomplete.
So the data contained in the bases is a second interesting source of knowledge. If one uses machine
learning techniques to analyse how they tally, it becomes possible to establish evaluation rules that
enable a justification of the conformity of representations.
The methodology we put forward is based upon these elements. It consists in a coherence
evaluation process and a knowledge acquisition proceeding. The process comprises several steps: data
enrichment, intra-base control, matching, inter-bases control, and the final assessment. Each of these
steps exploits knowledge inferred from the specifications or induced from the data through learning.
The benefit of using machine learning techniques is twofold: not only does it enable to acquire
evaluation rules, it also reveals the discrepancy tolerated in the data when compared to the written
specifications.
This approach has been carried out on NGI databases that showed different levels of detail.
A l'heure actuelle, la plupart des bases de données spatiales sont gérées de manière indépendante.
Cette indépendance pose différents problèmes : elle multiplie les efforts de maintenance et de mise à
jour, elle rend difficile la mise en œuvre d'analyses multi-niveaux et ne garantit pas une cohérence
entre les sources.
Une gestion conjointe de ces sources nécessite leur intégration qui permet de définir des liens
explicites entre les bases et d'en fournir une vision unifiée. Notre thèse s'inscrit dans ce cadre. Le sujet
que nous traitons porte en particulier sur la mise en correspondance des données et l'évaluation de la
cohérence inter-représentations. Nous cherchons à analyser automatiquement chaque différence de
représentation entre les données appariées afin d'en déduire si celle-ci résulte des critères de saisie
différents des bases ou d'erreurs de saisie. Cette évaluation vise à garantir une intégration cohérente
des données.
Pour étudier la conformité des représentations nous proposons d'exploiter les spécifications des
bases. Ces documents décrivent les règles de sélection et de modélisation des objets. Ils constituent
des métadonnées de référence pour juger si les représentations sont équivalentes ou incohérentes.
L'utilisation de ces documents est toutefois insuffisante. Les spécifications décrites en langue naturelle
peuvent être imprécises ou incomplètes. Dans ce contexte, les données des bases constituent une
seconde source de connaissances intéressante. L'analyse des correspondances à l'aide de techniques
d'apprentissage automatique permet d'induire des règles rendant possible la justification de la
conformité des représentations.
La méthodologie que nous proposons repose sur ces éléments. Elle se compose de deux méthodes :
MECO et MACO. La première est la Méthode d'Evaluation de la COhérence. Elle comprend plusieurs
étapes : l'enrichissement des données, le contrôle intra-base, l'appariement, le contrôle inter-bases et
l'évaluation finale. Chacune de ces étapes exploite des connaissances déduites des spécifications ou
induites des données par apprentissage automatique, en appliquant MACO (Méthode d'Acquisition de
connaissances pour l'évaluation de la COhérence). L'intérêt d'utiliser l'apprentissage est double. Outre
le fait qu'il permet d'acquérir des règles pour l'évaluation, il met en évidence l'écart toléré sur les
données par rapport aux spécifications papiers.
Notre approche a été mise en œuvre sur des bases de données de l'IGN présentant différents
niveaux de détail.
Fichier principal
Vignette du fichier
These_Sheeren_2005.pdf (6.28 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00085693 , version 1 (13-07-2006)

Identifiants

  • HAL Id : tel-00085693 , version 1

Citer

David Sheeren. Méthodologie d'évaluation de la cohérence inter-représentations pour l'intégration de bases de données spatiales. Une approche combinant l'utilisation de métadonnées et l'apprentissage automatique.. Autre [cs.OH]. Université Pierre et Marie Curie - Paris VI, 2005. Français. ⟨NNT : ⟩. ⟨tel-00085693⟩
392 Consultations
1825 Téléchargements

Partager

Gmail Facebook X LinkedIn More