Lexicométrie sur corpus étiquetés - HAL-SHS - Sciences de l'Homme et de la Société Accéder directement au contenu
Communication Dans Un Congrès Année : 2004

Lexicométrie sur corpus étiquetés

Résumé

Tagged corpus are now widely available, and are of great interest for textual and linguistic studies. Some lexicometric softwares have new versions to handle such corpus, but these don't give complete satisfaction yet. However, a clear and powerful model of text for lexicometric procedures has been formalized, as a string of positions ; in each position one or several types are instanciated, from one or several sets of types, such as a set of spellings, or a set of lemmas, or a set of grammatical codes.
As regards the types definition, the way these kinds of linguistic information are recorded (the record axes) should not be confused with the views one can wish for a lexicometric analysis (the analysis axes). Actually, record axes are often irrelevant analysis axes. As regards the string of positions, some positions may be removed for the purposes of the analysis, so as to define the appropriate background retained from the text. Then the analysis can also be focussed on a given pattern, standing out against the background. We finally propose means to complete the results' display. These are naturally expressed and organized according to the analysis axis, but the introduction of views from some other axes may clarify, adjust or enrich their interpretation.
Devant la disponibilité et l'intérêt des corpus étiquetés, l'adaptation des logiciels de lexicométrie n'est pas encore pleinement satisfaisante. A cependant été explicité un modèle lexicométrique du texte, comme suite de positions en chacune desquelles s'instancie un type, et ce éventuellement pour plusieurs familles de types (graphies, lemmes, codes grammaticaux par exemple).
Il convient d'abord de pouvoir redéfinir des dimensions d'analyse fixant les types considérés, qui ne sont pas directement la reprise des dimensions d'enregistrement des informations dans l'étiquetage, celles-ci étant généralement non pertinentes si elles sont utilisées telles quelles. Quant aux positions, il est intéressant de pouvoir en masquer certaines (filtre fond / texte) puis de focaliser les calculs sur un motif donné (sélection forme / fond). Enfin, bien que les résultats doivent rester présentés selon la dimension d'analyse qui les structure, nous proposons des manières de leur associer des éclairages selon d'autres dimensions, pour clarifier, nuancer ou enrichir l'interprétation.
Fichier principal
Vignette du fichier
pincemin_jadt04_texte.pdf (40.22 Ko) Télécharger le fichier
pincemin_jadt04_graph_i.pdf (561.81 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

halshs-00168988 , version 1 (21-04-2009)

Identifiants

  • HAL Id : halshs-00168988 , version 1

Citer

Bénédicte Pincemin. Lexicométrie sur corpus étiquetés. 7es Journées internationales d'analyse statistique des données textuelles (JADT 2004), Mar 2004, Louvain-la-Neuve, Belgique. pp.865-873. ⟨halshs-00168988⟩
230 Consultations
411 Téléchargements

Partager

Gmail Facebook X LinkedIn More