Catégorisation d'un corpus hétérogène de français médiéval - HAL Accéder directement au contenu
Communication dans un congrès Actes du colloque ‘JADT 2000 : 5es Journées Internationales d'Analyse Statistique des Données Textuelles' Lausanne, 2000 Année : 2000

Catégorisation d'un corpus hétérogène de français médiéval

Résumé

We have undertaken a morpho-syntactic tagging of the 2 millions words of our corpora of medieval texts. The external and internal heterogeneity of the texts make this task a difficult one. As a result, we had to resort to a double strategy.
Since there is actually no tool adapted to our corpora, we had first to rely on a programmable tagger in order to categorize a first text. As a second step, and building on the results obtained with the first text, we produced a tagger based on contextal rule learning. Using this latter tool we subsequently tagged a second, quite "similar" (in terms of external criteria) text. The success rate was 95%. This two-step process was then used once again to tag additional texts.
The next phase will be to evaluate the heterogeneity of texts according to internal criteria. This task involves the measurement of morpho-syntactic and semantic variation in accordance with statistical methods. It will enable us to correlate internal and external heterogeneity in order to elaborate a "fine-grained" typology of texts.
Nous avons entrepris l'étiquetage morpho-syntaxique des 2 millions d'occurrences de notre base de textes médiévaux. L'hétérogénéité externe et interne des textes entre eux complexifie la tâche, ce qui nous a conduit à élaborer une double stratégie.
Il n'existe pas actuellement d'outil adapté à notre corpus, d'où le recours, pour catégoriser un premier texte, à un étiqueteur programmable. Dans un second temps, nous avons construit, à partir de ce texte, un étiqueteur travaillant par apprentissage. Il a été utilisé pour étiqueter un texte "proche" (critères externes) du texte d'apprentissage, et nous avons obtenons un taux de réussite de 95%. La double procédure est ensuite réappliquée pour l'étiquetage des autres textes.
Par ailleurs, nous voulons désormais évaluer l'hétérogénéité entre textes selon des critères internes. Pour cela il s'agit de mesurer la variation morpho-syntaxique et sémantique selon des méthodes statistiques. Il s'agira ensuite de corréler hétérogénéité externe et interne afin d'élaborer une typologie fine des textes.
Fichier principal
Vignette du fichier
prevost-biblio8.pdf ( 317.65 Ko ) Télécharger
Loading...

Dates et versions

halshs-00087770, version 1 (26-07-2006)

Identifiants

  • HAL Id : halshs-00087770 , version 1

Citer

Sophie Prévost, Serge Heiden, Fernande Dupuis. Catégorisation d'un corpus hétérogène de français médiéval. Actes du colloque ‘JADT 2000 : 5es Journées Internationales d'Analyse Statistique des Données Textuelles' Lausanne, 2000, 2000, p. 485-492. ⟨halshs-00087770⟩
174 Consultations
143 Téléchargements
Dernière date de mise à jour le 20/04/2024
comment ces indicateurs sont-ils produits

Partager

Gmail Facebook Twitter LinkedIn Plus