| HAL : edutice-00718390, version 1 |
| Fiche détaillée | Récupérer au format |
|
|
| Intercompréhension, Grenoble : France (2012) |
|
|
|
|
| Stratégies pour l'anonymisation systématique d'un corpus d'interactions plurilingues |
|
|
| Christophe Reffay 1François-Marie Blondel 1 |
|
|
| (07/2012) |
|
|
| Dans le champ de l'analyse des interactions textuelles, les chercheurs désirant partager leurs corpus font face à de grandes difficultés pour en éliminer les marques d'identification des personnes physiques. La loi européenne suggère pourtant que ces marques soient soigneusement retirées avant toute publication. Dans la suite des outils de la plateforme Calico dédiée à l'analyse des interactions en ligne, nous proposons ici un procédé interactif d'anonymisation systématique, fonctionnant sans dictionnaire a priori et donc applicable à toute langue. Ce procédé a été appliqué à un premier corpus plurilingue issu de Galanet. Cet article souligne les difficultés de l'anonymisation et présente les premiers résultats de cette expérience. Au-delà de la transformation elle-même, nous proposons deux stratégies de fouille afin de détecter de nouvelles graphies pouvant révéler des données personnelles. |
|
|
|
|
|
|
|
|
|
|
| 1 : | Sciences Techniques Éducation Formation (STEF) |
| INRP – École normale supérieure de Cachan - ENS Cachan | |
| 2 : | Groupe de Recherche en Informatique, Image, Automatique et Instrumentation de Caen (GREYC) |
| CNRS : UMR6072 – Université de Caen Basse-Normandie – Ecole Nationale Supérieure d'Ingénieurs de Caen | |
|
|
|
|
|
|
|
|
| Discipline | : | Sciences de l'Homme et Société/Education |
|
|
| Anonymisation – Données personnelles – Corpus plurilingue – Partage de données |
|
|
| Liste des fichiers attachés à ce document : | |||||
|
|
|
| edutice-00718390, version 1 | |
| http://edutice.archives-ouvertes.fr/edutice-00718390 | |
| oai:edutice.archives-ouvertes.fr:edutice-00718390 | |
| Déposé par : Christophe Reffay | |
| Soumis le : Lundi 16 Juillet 2012, 18:52:32 | |
| Dernière modification le : Lundi 16 Juillet 2012, 21:28:51 | |