Catégorisation sémantique des noms simples du lexique scientifique transdisciplinaire.
Résumé
Notre travail s'inscrit au sein du projet ANR TermITH dont l'objectif est l'indexation automatique d'écrits scientifiques en sciences humaines et sociales. Nous cherchons à établir une liste du lexique scientifique transdisciplinaire (LST : méthode, résultat) qui sera exploité lors de la détection de termes. Dans cette perspective, nous constituons des listes de mots simples (noms, adjectifs et verbes).
Notre processus d'extraction, combinant fréquence, dispersion et spécificité (Drouin 2007, Paquot 2010, Da Sylva 2010), se base sur l'utilisation conjointe d'un corpus d'articles scientifiques et d'un corpus de contraste diversifié (écrits journalistiques, fiction, oral transcrit, sous-titres) de grande échelle. La distribution régulière inter-disciplinaire et la non présence systématique dans les segments répétés nous permettent de filtrer nos listes. La validation finale s'effectue manuellement en s'appuyant sur les cooccurrents syntaxiques les plus productifs et sur des exemples phrastiques.
Nous présenterons une catégorisation sémantique établie en partant d'un échantillon de 150 noms dans notre lexique. Il s'agit d'analyser plus précisément les noms prototypiques du LST ainsi que ceux du lexique abstrait général en nous basant sur une méthode distributionnelle inspirée de la typologie de Flaux et Van de Velde (2000).
La catégorisation sémantique nous permettra d'affiner la détection de termes, en favorisant par exemple les cooccurrences LST-termes (Jacquey et al 2013).
Domaines
Linguistique
Loading...