Catégorisation sémantique des noms simples du lexique scientifique transdisciplinaire.

Notre travail s'inscrit au sein du projet ANR TermITH dont l'objectif est l'indexation automatique d'écrits scientifiques en sciences humaines et sociales. Nous cherchons à établir une liste du lexique scientifique transdisciplinaire (LST : méthode, résultat) qui sera exploité lors de la détection de termes. Dans cette perspective, nous constituons des listes de mots simples (noms, adjectifs et verbes). Notre processus d'extraction, combinant fréquence, dispersion et spécificité (Drouin 2007, Paquot 2010, Da Sylva 2010), se base sur l'utilisation conjointe d'un corpus d'articles scientifiques et d'un corpus de contraste diversifié (écrits journalistiques, fiction, oral transcrit, sous-titres) de grande échelle. La distribution régulière inter-disciplinaire et la non présence systématique dans les segments répétés nous permettent de filtrer nos listes. La validation finale s'effectue manuellement en s'appuyant sur les cooccurrents syntaxiques les plus productifs et sur des exemples phrastiques. Nous présenterons une catégorisation sémantique établie en partant d'un échantillon de 150 noms dans notre lexique. Il s'agit d'analyser plus précisément les noms prototypiques du LST ainsi que ceux du lexique abstrait général en nous basant sur une méthode distributionnelle inspirée de la typologie de Flaux et Van de Velde (2000). La catégorisation sémantique nous permettra d'affiner la détection de termes, en favorisant par exemple les cooccurrences LST-termes (Jacquey et al 2013).

Mots clés

lexique transdisciplinaire catégorisation sémantique indexation

Domaines

Linguistique

Liste complète des métadonnées

Format du dépôt	Notice
Type de dépôt	Communication dans un congrès
Titre	fr Catégorisation sémantique des noms simples du lexique scientifique transdisciplinaire.
Résumé	fr Notre travail s'inscrit au sein du projet ANR TermITH dont l'objectif est l'indexation automatique d'écrits scientifiques en sciences humaines et sociales. Nous cherchons à établir une liste du lexique scientifique transdisciplinaire (LST : méthode, résultat) qui sera exploité lors de la détection de termes. Dans cette perspective, nous constituons des listes de mots simples (noms, adjectifs et verbes). Notre processus d'extraction, combinant fréquence, dispersion et spécificité (Drouin 2007, Paquot 2010, Da Sylva 2010), se base sur l'utilisation conjointe d'un corpus d'articles scientifiques et d'un corpus de contraste diversifié (écrits journalistiques, fiction, oral transcrit, sous-titres) de grande échelle. La distribution régulière inter-disciplinaire et la non présence systématique dans les segments répétés nous permettent de filtrer nos listes. La validation finale s'effectue manuellement en s'appuyant sur les cooccurrents syntaxiques les plus productifs et sur des exemples phrastiques. Nous présenterons une catégorisation sémantique établie en partant d'un échantillon de 150 noms dans notre lexique. Il s'agit d'analyser plus précisément les noms prototypiques du LST ainsi que ceux du lexique abstrait général en nous basant sur une méthode distributionnelle inspirée de la typologie de Flaux et Van de Velde (2000). La catégorisation sémantique nous permettra d'affiner la détection de termes, en favorisant par exemple les cooccurrences LST-termes (Jacquey et al 2013).
Auteur(s)	Sylvain Hatier ¹ , Agnès Tutin ¹ , Marie-Paule Jacques , Evelyne Jacquey ² , Laurence Kister ³ 1 LIDILEM - LInguistique et DIdactique des Langues Étrangères et Maternelles ( 26828 ) - Bâtiment Stendhal - CS40700 - 38058 Grenoble cedex 9 - France Université Stendhal - Grenoble 3 EA609 ( 5485 ) 2 ATILF - Analyse et Traitement Informatique de la Langue Française ( 190838 ) - Université de Lorraine, 44 Av de la Libération, BP 30687 54063 Nancy Cedex - France Université de Lorraine ( 413289 ) ; Centre National de la Recherche Scientifique UMR7118 ( 441569 ) 3 MSH Lorraine - Maison des Sciences de l'Homme Lorraine ( 178677 ) - 91, avenue de la Libération - BP 454 54 001 NANCY cedex - France Université de Lorraine ( 413289 ) ; Centre National de la Recherche Scientifique UAR3261 / USR3261 ( 441569 )
Langue du document	Anglais
Vulgarisation	Non
Actes	Non
Comité de lecture	Oui
Invité	Non
Audience	Internationale
Titre du congrès	Acfas 2014
Date début congrès	2014-05-12
Date fin congrès	2014-05-16
Ville	Montréal
Pays	Canada
Domaine(s)	Sciences de l'Homme et Société/Linguistique
Mots-clés	fr lexique transdisciplinaire, catégorisation sémantique, indexation

Laurence Kister : Connectez-vous pour contacter le contributeur

https://shs.hal.science/halshs-01111442

Soumis le : vendredi 30 janvier 2015 à 13:38:32

Dernière modification le : jeudi 4 avril 2024 à 20:56:28

Dates et versions

halshs-01111442, version 1 (30-01-2015)

Identifiants

HAL Id : halshs-01111442 , version 1

Citer

Sylvain Hatier, Agnès Tutin, Marie-Paule Jacques, Evelyne Jacquey, Laurence Kister. Catégorisation sémantique des noms simples du lexique scientifique transdisciplinaire.. Acfas 2014, May 2014, Montréal, Canada. ⟨halshs-01111442⟩

Exporter

BibTeX TEI Dublin Core DC Terms EndNote Datacite

Collections

UGA CNRS MSH_LORRAINE ATILF LIDILEM UNIV-LORRAINE

370 Consultations

0 Téléchargements

Dernière date de mise à jour le 20/04/2024