Encodage SGML de corpus: application à l'étude d'un débat parlementaire - HAL-SHS - Sciences de l'Homme et de la Société Accéder directement au contenu
Article Dans Une Revue Mots: les langages du politique Année : 1999

Encodage SGML de corpus: application à l'étude d'un débat parlementaire

Résumé

Dans certains domaines de la science, telles la physique ou la psychologie expérimentale, on admet que l'outil d'observation puisse influencer la donnée observable. L'analyse de corpus informatisée, plus particulièrement la lexicométrie, n'échappe pas à ce phénomène, ce qui peut poser un problème de méthode relativement important. Faut-il systématiquement adapter un texte à l'outil qui permettra son traitement automatique pour assister son analyse ? Quels sont les risques à ne pas le faire ? Quelles stratégies adopter ? Y a-t-il un format de stockage ou de représentation du texte général qui permette de transformer aisément le texte pour tel ou tel outil d'analyse ? Etant donné la multitude d'outils d'analyse et de formats de stockage des données, il importe de se questionner sur la démarche d'encodage d'informations dans un texte à des fins d'analyses lexicométriques et de proposer des éléments de réponse aux questions posées systématiquement par l'étude du discours à l'aide d'outils traitant des corpus textuels sous forme électronique.

Dans cet article, après une analyse de la démarche et des enjeux de l'encodage de corpus, nous proposons un format et des outils d'encodage qui satisfont aux contraintes de la méthode.
Cet article est organisé comme suit : dans la section 2, nous définissons trois types d'informations fondamentaux pour les traitements lexicométriques. Dans la section 3, nous exposons une méthode normalisée d'encodage mise au point pour la base de textes de notre laboratoire en liaison avec les différents outils de traitement afférents. Enfin, dans la section 4, nous illustrons la démarche proposée en l'appliquant à un corpus de débats parlementaires pour montrer quelques exemples d'exploitation
Fichier principal
Vignette du fichier
mots1999.pdf (732.36 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

halshs-00151845 , version 1 (11-06-2007)

Identifiants

  • HAL Id : halshs-00151845 , version 1

Citer

Serge Heiden. Encodage SGML de corpus: application à l'étude d'un débat parlementaire. Mots: les langages du politique, 1999, N° 60, pp.113-132. ⟨halshs-00151845⟩

Collections

ENS-LYON CNRS UDL
123 Consultations
124 Téléchargements

Partager

Gmail Facebook X LinkedIn More