Similarité de second ordre pour l'exploration de bases textuelles multilingues - HAL-SHS - Sciences de l'Homme et de la Société Accéder directement au contenu
Communication Dans Un Congrès Année : 2013

Similarité de second ordre pour l'exploration de bases textuelles multilingues

Résumé

This paper describes the use of second order similarities for identifying similar texts inside a corpus of aviation incident reports written in both French and English. We use a second bilingual corpus to construct pairs of reference documents and map each target document to a vector so each coordinate represents a similarity score between this document and the part of the reference corpus written in the same language. We evaluate the system using a large corpus of translated incident reports. The results are promising and validate the approach.
Cet article décrit l'utilisation de la technique de similarité de second ordre pour l'identification de textes semblables au sein d'une base de rapports d'incidents aéronautiques mélangeant les langues française et anglaise. L'objectif du système est, pour un document donné, de retrouver des documents au contenu similaire quelle que soit leur langue. Nous utilisons un corpus bilingue aligné de rapports d'accidents aéronautiques pour construire des paires de pivots et indexons les documents avec des vecteurs de similarités, tels que chaque coordonnée correspond au score de similarité entre un document dans une langue donnée et la partie du pivot de la même langue. Nous évaluons les performances du système sur un volumineux corpus de rapports d'incidents aéronautiques pour lesquels nous disposons de traductions. Les résultats sont prometteurs et valident la technique.
Fichier principal
Vignette du fichier
sim2-final.pdf (193.44 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

halshs-00953757 , version 1 (28-02-2014)

Identifiants

  • HAL Id : halshs-00953757 , version 1

Citer

Nikola Tulechki, Ludovic Tanguy. Similarité de second ordre pour l'exploration de bases textuelles multilingues. 20e conférence du Traitement Automatique du Langage Naturel (TALN), 2013, Sables d'Olonne, France. (publication en ligne). ⟨halshs-00953757⟩
131 Consultations
88 Téléchargements

Partager

Gmail Facebook X LinkedIn More