Approche statistique pour le filtrage terminologique des occurrences de candidats termes en texte intégral - HAL-SHS - Sciences de l'Homme et de la Société Accéder directement au contenu
Communication Dans Un Congrès Année : 2014

Approche statistique pour le filtrage terminologique des occurrences de candidats termes en texte intégral

Résumé

A la suite de (L'Homme, 2004), nous nous intéressons à la variation des termes en texte intégral et, en particulier à l'ambiguïté de leurs occurrences entre usage terminologique relevant d'un domaine de spécialité et usage non terminologique. Cette question est particulièrement sensible dans le cas des sciences humaines et sociales où il s'agit de pouvoir différencier un sens terminologique de "sujet", dans "le sujet de la phrase" (linguistique) ou dans "les réponses du sujet" (psychologie), et un sens général dans "le sujet de l'article", "le sujet de la conversation", etc. Pour contribuer à répondre à cette question, nous faisons l'hypothèse que ce sont les contextes autour des occurrences des candidats (et plus spécifiquement les paragraphes où elles se trouvent) qui donnent des indices sur le type d'usage, terminologique ou non terminologique, dont elles relèvent. L'exploitation des contextes autour des occurrences s'appuie sur une approche statistique. La méthode statistique employée est basée sur la distribution hypergéométrique et la notion de spécificité lexicale de Lafon (1980). Afin de déterminer le type d'usage d'une occurrence, on établit, à partir d'un corpus préalablement annoté manuellement, un profil statistiquement fondé de toutes les occurrences terminologiques et de toutes les occurrences non terminologiques. Ensuite, l'algorithme compare les profils statistiques établis, terminologique vs. non terminologique, avec les éléments du contexte de chaque occurrence. Les expériences ont été faites sur un corpus d’articles complets en linguistique extraits de la base Scientext. Les résultats obtenus sont évalués sur le plan quantitatif et qualitatif.

Domaines

Linguistique
Fichier non déposé

Dates et versions

halshs-01111437 , version 1 (30-01-2015)

Identifiants

  • HAL Id : halshs-01111437 , version 1

Citer

José Camacho-Collados, Mokhtar Boumedienne Billami, Evelyne Jacquey, Laurence Kister. Approche statistique pour le filtrage terminologique des occurrences de candidats termes en texte intégral. Jadt'14, Jun 2014, Paris, France. ⟨halshs-01111437⟩
79 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More