Une expérience d'attribution d'auteur. Le corpus Saint-Jean. - HAL-SHS - Sciences de l'Homme et de la Société Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2017

Une expérience d'attribution d'auteur. Le corpus Saint-Jean.

Dominique Labbé
  • Fonction : Auteur
  • PersonId : 952972

Résumé

With the collaboration of J. Savoy, a corpus has been compiled in order to test the methods of authorship attribution (200 excerpts drawn out of 68 novels by 31 authors). The vocabulary differences between texts are measured by the intertextual distance. With the help of the nearest neighbour method, all excerpts are correctly attributed but this attribution requires that every author should have at least two texts in the corpus. In the absence of this condition, the smallest distances are used (associated with a confidence interval). This method attributes, without error, 8 excerpts out of 10. Two classifications (hierarchical and tree-classification) lead to the same results. A standardized scale of the intertextual distance makes it possible to attribute a text in a simple and safe way without having to repeat the whole procedure.
Avec la collaboration de J. Savoy, dans le but de tester les méthodes d'attribution d'auteur, il a été constitué un corpus de 200 extraits tirés de 68 romans par 31 auteurs différents. Les différences de vocabulaire entre les textes sont mesurées grâce à la distance intertextuelle. Tous les extraits sont correctement attribués avec la technique du plus proche voisin mais cette méthode exige que les auteurs aient au moins deux textes dans le corpus. En l'absence de cette condition, on utilise les plus petites distances, en définissant un intervalle de confiance. Cette méthode permet d'attribuer, sans erreur, 8 extraits sur 10. Deux classifications (hiérarchique et arborée) aboutissent aux mêmes résultats. Une échelle standardisée de la distance intertextuelle permet d'attribuer un texte de manière simple et sûre sans avoir à reprendre l'ensemble de la procédure.
Fichier principal
Vignette du fichier
LabbeSaintJean2017.pdf (1.16 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

halshs-01627373 , version 1 (01-11-2017)

Identifiants

Citer

Dominique Labbé. Une expérience d'attribution d'auteur. Le corpus Saint-Jean.. [Rapport de recherche] PACTE - Université Grenoble Alpes. 2017. ⟨halshs-01627373⟩
88 Consultations
253 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More