Catégorisation d'un corpus hétérogène de français médiéval

Sophie Prévost; Serge Heiden; Fernande Dupuis

Communication dans un congrès Actes du colloque ‘JADT 2000 : 5es Journées Internationales d'Analyse Statistique des Données Textuelles' Lausanne, 2000 Année : 2000

Catégorisation d'un corpus hétérogène de français médiéval

(1) , (2) , (3)

1
2
3

Sophie Prévost

Fonction : Auteur
PersonId : 11364
IdHAL : sprevost
ORCID : 0000-0003-3623-3482
IdRef : 059781904

Langues, textes, traitement informatique, cognition

Serge Heiden

Fonction : Auteur
PersonId : 7692
IdHAL : serge-heiden
ORCID : 0000-0003-4682-7647
IdRef : 111293383

Interactions, Corpus, Apprentissages, Représentations

Fernande Dupuis

Fonction : Auteur
PersonId : 834562

Centre d'analyse de texte par ordinateur

Résumé

We have undertaken a morpho-syntactic tagging of the 2 millions words of our corpora of medieval texts. The external and internal heterogeneity of the texts make this task a difficult one. As a result, we had to resort to a double strategy.
Since there is actually no tool adapted to our corpora, we had first to rely on a programmable tagger in order to categorize a first text. As a second step, and building on the results obtained with the first text, we produced a tagger based on contextal rule learning. Using this latter tool we subsequently tagged a second, quite "similar" (in terms of external criteria) text. The success rate was 95%. This two-step process was then used once again to tag additional texts.
The next phase will be to evaluate the heterogeneity of texts according to internal criteria. This task involves the measurement of morpho-syntactic and semantic variation in accordance with statistical methods. It will enable us to correlate internal and external heterogeneity in order to elaborate a "fine-grained" typology of texts.

Nous avons entrepris l'étiquetage morpho-syntaxique des 2 millions d'occurrences de notre base de textes médiévaux. L'hétérogénéité externe et interne des textes entre eux complexifie la tâche, ce qui nous a conduit à élaborer une double stratégie.
Il n'existe pas actuellement d'outil adapté à notre corpus, d'où le recours, pour catégoriser un premier texte, à un étiqueteur programmable. Dans un second temps, nous avons construit, à partir de ce texte, un étiqueteur travaillant par apprentissage. Il a été utilisé pour étiqueter un texte "proche" (critères externes) du texte d'apprentissage, et nous avons obtenons un taux de réussite de 95%. La double procédure est ensuite réappliquée pour l'étiquetage des autres textes.
Par ailleurs, nous voulons désormais évaluer l'hétérogénéité entre textes selon des critères internes. Pour cela il s'agit de mesurer la variation morpho-syntaxique et sémantique selon des méthodes statistiques. Il s'agira ensuite de corréler hétérogénéité externe et interne afin d'élaborer une typologie fine des textes.

Mots clés

corpus hétérogène étiquetage morpho-syntaxique automatique apprentissage typologie diachronie morpho-syntaxe

Domaines

Linguistique Informatique et langage [cs.CL]

Liste complète des métadonnées

Format du dépôt	Fichier
Type de dépôt	Communication dans un congrès
Résumé	en We have undertaken a morpho-syntactic tagging of the 2 millions words of our corpora of medieval texts. The external and internal heterogeneity of the texts make this task a difficult one. As a result, we had to resort to a double strategy.<br />Since there is actually no tool adapted to our corpora, we had first to rely on a programmable tagger in order to categorize a first text. As a second step, and building on the results obtained with the first text, we produced a tagger based on contextal rule learning. Using this latter tool we subsequently tagged a second, quite "similar" (in terms of external criteria) text. The success rate was 95%. This two-step process was then used once again to tag additional texts.<br />The next phase will be to evaluate the heterogeneity of texts according to internal criteria. This task involves the measurement of morpho-syntactic and semantic variation in accordance with statistical methods. It will enable us to correlate internal and external heterogeneity in order to elaborate a "fine-grained" typology of texts. fr Nous avons entrepris l'étiquetage morpho-syntaxique des 2 millions d'occurrences de notre base de textes médiévaux. L'hétérogénéité externe et interne des textes entre eux complexifie la tâche, ce qui nous a conduit à élaborer une double stratégie.<br />Il n'existe pas actuellement d'outil adapté à notre corpus, d'où le recours, pour catégoriser un premier texte, à un étiqueteur programmable. Dans un second temps, nous avons construit, à partir de ce texte, un étiqueteur travaillant par apprentissage. Il a été utilisé pour étiqueter un texte "proche" (critères externes) du texte d'apprentissage, et nous avons obtenons un taux de réussite de 95%. La double procédure est ensuite réappliquée pour l'étiquetage des autres textes.<br />Par ailleurs, nous voulons désormais évaluer l'hétérogénéité entre textes selon des critères internes. Pour cela il s'agit de mesurer la variation morpho-syntaxique et sémantique selon des méthodes statistiques. Il s'agira ensuite de corréler hétérogénéité externe et interne afin d'élaborer une typologie fine des textes.
Titre	fr Catégorisation d'un corpus hétérogène de français médiéval
Auteur(s)	Sophie Prévost ¹ , Serge Heiden ² , Fernande Dupuis ³ 1 LaTTice - Langues, textes, traitement informatique, cognition ( 1242 ) - 1 rue Maurice Arnoux 92120 Montrouge - France École normale supérieure - Paris ( 59704 ) ; Université Paris Sciences et Lettres ( 564132 ) ; Université Paris Diderot - Paris 7 ( 300301 ) ; Centre National de la Recherche Scientifique UMR8094 ( 441569 ) 2 ICAR - Interactions, Corpus, Apprentissages, Représentations ( 51028 ) - 5, av Pierre Mendès-France 69676 BRON CEDEX - France École normale supérieure de Lyon ( 6818 ) ; Université Lumière - Lyon 2 ( 33804 ) ; INRP ( 300042 ) ; Ecole Normale Supérieure Lettres et Sciences Humaines ( 303652 ) ; Centre National de la Recherche Scientifique UMR5191 ( 441569 ) 3 ATO - Centre d'analyse de texte par ordinateur ( 17744 ) - Canada Université du Québec à Montréal = University of Québec in Montréal ( 360045 )
Vulgarisation	Non
Comité de lecture	Oui
Actes	Oui
Invité	Non
Langue du document	Français
Nom de la revue	Actes du colloque ‘JADT 2000 : 5es Journées Internationales d'Analyse Statistique des Données Textuelles' Lausanne, 2000
Titre de l'ouvrage	Actes du colloque ‘JADT 2000 : 5es Journées Internationales d'Analyse Statistique des Données Textuelles' Lausanne, 2000
Audience	Non spécifiée
Date de publication	2000
Volume	vol 2
Page/Identifiant	p. 485-492
Titre du congrès	Actes du colloque ‘JADT 2000 : 5es Journées Internationales d'Analyse Statistique des Données Textuelles' Lausanne, 2000
Date début congrès	2000
Domaine(s)	Sciences de l'Homme et Société/Linguistique Informatique [cs]/Informatique et langage [cs.CL]
Mots-clés	fr corpus hétérogène, étiquetage morpho-syntaxique automatique, apprentissage, typologie, diachronie, morpho-syntaxe

Fichier principal

prevost-biblio8.pdf ( 317.65 Ko )

Sophie Prévost : Connectez-vous pour contacter le contributeur

https://shs.hal.science/halshs-00087770

Soumis le : mercredi 26 juillet 2006 à 15:55:30

Dernière modification le : vendredi 19 avril 2024 à 16:18:55

Archivage à long terme le : lundi 5 avril 2010 à 22:48:54

Dates et versions

halshs-00087770, version 1 (26-07-2006)

Identifiants

HAL Id : halshs-00087770 , version 1

Citer

Sophie Prévost, Serge Heiden, Fernande Dupuis. Catégorisation d'un corpus hétérogène de français médiéval. Actes du colloque ‘JADT 2000 : 5es Journées Internationales d'Analyse Statistique des Données Textuelles' Lausanne, 2000, 2000, p. 485-492. ⟨halshs-00087770⟩

Exporter

BibTeX TEI Dublin Core DC Terms EndNote Datacite

Collections

ENS-LYON UNIV-PARIS7 ENS-PARIS CNRS UNIV-LYON2 ICAR CAMPUS-AAR AAI PSL UDL

174 Consultations

143 Téléchargements

Dernière date de mise à jour le 20/04/2024

Catégorisation d'un corpus hétérogène de français médiéval

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager