Effacement de dimensions de similarité textuelle pour l'exploration de collections de rapports d'incidents aéronautiques - HAL-SHS - Sciences de l'Homme et de la Société Accéder directement au contenu
Communication Dans Un Congrès Année : 2012

Effacement de dimensions de similarité textuelle pour l'exploration de collections de rapports d'incidents aéronautiques

Nikola Tulechki
  • Fonction : Auteur
  • PersonId : 761385
  • IdRef : 189552239
Ludovic Tanguy

Résumé

In this paper we study the relationship between external classification and textual similarity in collections of incident reports. Our goal is to complement the existing classification-based analysis strategies by automatically establishing similarity links between documents in such a way that they do not reflect the dominant organisation of the classification schemas. In order to discover such transversal dimensions of similarity, we compute association scores between terms and classes and exlude the most correlated terms from the similarity calculation. We demonstrate on a 500 document corpus that by using this method, we can isolate topics that would otherwise have been masked by the dominant dimensions of similarity in the collection.
Cet article étudie le lien entre la similarité textuelle et une classification extrinsèque dans des collections de rapports d'incidents aéronautiques. Nous cherchons à compléter les stratégies d'analyse de ces collections en établissant automatiquement des liens de similarité entre les documents de façon à ce qu'ils ne reflètent pas l'organisation des schémas de codification utilisés pour leur classement. Afin de mettre en évidence les dimensions de variation transversales à la classification, nous calculons un score de dépendance entre les termes et les classes et excluons du calcul de similarité les termes les plus corrélés à une classe donnée. Nous montrons par une application sur 500 documents que cette méthode permet effectivement de dégager des thématiques qui seraient passées inaperçues au vu de la trop grande saillance des similarités de haut niveau.
Fichier principal
Vignette du fichier
TALN-12.pdf (103.21 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

halshs-00953538 , version 1 (28-02-2014)

Identifiants

  • HAL Id : halshs-00953538 , version 1

Citer

Nikola Tulechki, Ludovic Tanguy. Effacement de dimensions de similarité textuelle pour l'exploration de collections de rapports d'incidents aéronautiques. Conférence annuelle du Traitement Automatique des Langues Naturelles (TALN), 2012, Grenoble, France. (publication en ligne). ⟨halshs-00953538⟩
200 Consultations
117 Téléchargements

Partager

Gmail Facebook X LinkedIn More