Normalisation et lemmatisation d'une question ouverte - HAL Accéder directement au contenu
Article dans une revue Journal de la Société Française de Statistique Année : 2001

Normalisation et lemmatisation d'une question ouverte

Résumé

La normalisation consiste à réduire les majuscules des noms communs, à uniformiser les orthographes multiples des noms propres, des dates et des chiffres ou de certains mots communs, à déployer les abréviations, etc. La lemmatisation associe à ces graphies normalisées un lemme correspondant à l'entrée du dictionnaire et une catégorie grammaticale. Ces tâches sont confiées à un automate dont l'efficacité est testée sur les réponses à une question ouverte dans une enquête sur les causes de divorce. Par rapport aux formes graphiques brutes, les données lemmatisées réduisent le nombre de mots différents et permettent de retrouver les principaux thèmes. Elles mettent également à jour certaines déformations produites par la manière dont les enquêteurs retranscrivent les réponses.
Fichier principal
Vignette du fichier
LabbeGrenobleMSH2001.pdf ( 115.46 Ko ) Télécharger
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

halshs-00799938, version 1 (12-03-2013)

Identifiants

  • HAL Id : halshs-00799938 , version 1

Citer

Dominique Labbé. Normalisation et lemmatisation d'une question ouverte : Les femmes face au changement familial. Journal de la Société Française de Statistique, 2001, 4 (142), pp.37-57. ⟨halshs-00799938⟩

Collections

UGA CNRS
241 Consultations
702 Téléchargements
Dernière date de mise à jour le 05/05/2024
comment ces indicateurs sont-ils produits

Partager

Gmail Facebook Twitter LinkedIn Plus