Skip to Main content Skip to Navigation
Journal articles

Automatic Segmentation of Texts and Corpora

Résumé : Le découpage des grands corpus de textes est l'une des questions cruciales posées aux études littéraires. Il est proposé une double méthode. L'analyse de la croissance du vocabulaire (type-token ratio) met en lumière les principaux changements de rythme. Ces résultats sont complétés par l'étude de la diversité du vocabulaire. Un algorithme de segmentation, associé à un test de validité, indique le découpage optimal. La méthode est appliquée aux oeuvres de Racine, Corneille et aux discours du Général de Gaulle.
Document type :
Journal articles
Complete list of metadata

Cited literature [20 references]  Display  Hide  Download

https://halshs.archives-ouvertes.fr/halshs-00290976
Contributor : Dominique Labbé Connect in order to contact the contributor
Submitted on : Sunday, July 8, 2012 - 10:15:44 PM
Last modification on : Tuesday, November 16, 2021 - 4:19:26 AM
Long-term archiving on: : Tuesday, October 9, 2012 - 2:20:07 AM

File

LabbeLabbeHubertJQL04.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : halshs-00290976, version 1

Citation

Cyril Labbé, Dominique Labbé, Pierre Hubert. Automatic Segmentation of Texts and Corpora. Journal of Quantitative Linguistics, Taylor & Francis (Routledge), 2004, 11, pp.193-213. ⟨halshs-00290976⟩

Share

Metrics

Record views

742

Files downloads

769