s'authentifier
version française rss feed
HAL : edutice-00718390, version 1

Fiche détaillée  Récupérer au format
Intercompréhension, Grenoble : France (2012)
Stratégies pour l'anonymisation systématique d'un corpus d'interactions plurilingues
Christophe Reffay 1, François-Marie Blondel 1, Emmanuel Giguet 2
(07/2012)

Dans le champ de l'analyse des interactions textuelles, les chercheurs désirant partager leurs corpus font face à de grandes difficultés pour en éliminer les marques d'identification des personnes physiques. La loi européenne suggère pourtant que ces marques soient soigneusement retirées avant toute publication. Dans la suite des outils de la plateforme Calico dédiée à l'analyse des interactions en ligne, nous proposons ici un procédé interactif d'anonymisation systématique, fonctionnant sans dictionnaire a priori et donc applicable à toute langue. Ce procédé a été appliqué à un premier corpus plurilingue issu de Galanet. Cet article souligne les difficultés de l'anonymisation et présente les premiers résultats de cette expérience. Au-delà de la transformation elle-même, nous proposons deux stratégies de fouille afin de détecter de nouvelles graphies pouvant révéler des données personnelles.
1 :  Sciences Techniques Éducation Formation (STEF)
INRP – École normale supérieure de Cachan - ENS Cachan
2 :  Groupe de Recherche en Informatique, Image, Automatique et Instrumentation de Caen (GREYC)
CNRS : UMR6072 – Université de Caen Basse-Normandie – Ecole Nationale Supérieure d'Ingénieurs de Caen
Sciences de l'Homme et Société/Education
Anonymisation – Données personnelles – Corpus plurilingue – Partage de données
Liste des fichiers attachés à ce document : 
PDF
ReffayBlondelGiguet_complet.pdf(306.6 KB)