Automatic Segmentation of Texts and Corpora

Cyril Labbé; Dominique Labbé; Pierre Hubert

Article dans une revue Journal of Quantitative Linguistics Année : 2004

Automatic Segmentation of Texts and Corpora

(1) , (2) , (3)

1
2
3

Cyril Labbé

Fonction : Auteur
PersonId : 9675
IdHAL : cyril-labbe

Systèmes d’Information - inGénierie et Modélisation Adaptables

Dominique Labbé

Fonction : Auteur
PersonId : 952972

Pacte, Laboratoire de sciences sociales

Pierre Hubert

Fonction : Auteur

Université Pierre et Marie Curie - Paris 6

Résumé

Le découpage des grands corpus de textes est l'une des questions cruciales posées aux études littéraires. Il est proposé une double méthode. L'analyse de la croissance du vocabulaire (type-token ratio) met en lumière les principaux changements de rythme. Ces résultats sont complétés par l'étude de la diversité du vocabulaire. Un algorithme de segmentation, associé à un test de validité, indique le découpage optimal. La méthode est appliquée aux oeuvres de Racine, Corneille et aux discours du Général de Gaulle.

Mots clés

Type token ratio Segmentation Croissance du vocabulaire Diversité du vocabulaire Test de validité Sheffé Racine de Gaulle

Domaines

Science politique

Liste complète des métadonnées

Format du dépôt	Fichier
Type de dépôt	Article dans une revue
Titre	en Automatic Segmentation of Texts and Corpora
Résumé	fr Le découpage des grands corpus de textes est l'une des questions cruciales posées aux études littéraires. Il est proposé une double méthode. L'analyse de la croissance du vocabulaire (type-token ratio) met en lumière les principaux changements de rythme. Ces résultats sont complétés par l'étude de la diversité du vocabulaire. Un algorithme de segmentation, associé à un test de validité, indique le découpage optimal. La méthode est appliquée aux oeuvres de Racine, Corneille et aux discours du Général de Gaulle.
Auteur(s)	Cyril Labbé ¹ , Dominique Labbé ² , Pierre Hubert ³ 1 SIGMA - Systèmes d’Information - inGénierie et Modélisation Adaptables ( 49642 ) - Laboratoire LIG – bâtiment IMAG - 700 avenue Centrale – Domaine Universitaire CS 40700 – 38058 GRENOBLE Cedex 9 - France Laboratoire d'Informatique de Grenoble ( 24471 ) ; Université Pierre Mendès France - Grenoble 2 ( 3886 ) ; Université Joseph Fourier - Grenoble 1 ( 51016 ) ; Institut polytechnique de Grenoble - Grenoble Institute of Technology ( 89889 ) ; Institut National Polytechnique de Grenoble ( 300275 ) ; Centre National de la Recherche Scientifique UMR5217 ( 441569 ) 2 PACTE - Pacte, Laboratoire de sciences sociales ( 675 ) - Siège : IEP - BP 48 38040 Grenoble cedex 9 - France Université Pierre Mendès France - Grenoble 2 ( 3886 ) ; Université Joseph Fourier - Grenoble 1 ( 51016 ) ; Sciences Po Grenoble - Institut d'études politiques de Grenoble ( 89636 ) ; Centre National de la Recherche Scientifique UMR5194 ( 441569 ) 3 UPMC - Université Pierre et Marie Curie - Paris 6 ( 93591 ) - 4 place Jussieu - 75005 Paris - France
Langue du document	Anglais
Nom de la revue	Journal of Quantitative Linguistics (ISSN : 0929-6174) Publié par Taylor & Francis (Routledge)
Vulgarisation	Non
Comité de lecture	Oui
Audience	Internationale
Date de publication	2004-12
Volume	11
Page/Identifiant	193-213
Commentaire	Maison d'édition néerlandaise
Domaine(s)	Sciences de l'Homme et Société/Science politique
Mots-clés	fr Type, token ratio, Segmentation, Croissance du vocabulaire, Diversité du vocabulaire, Test de validité, Sheffé, Racine, de Gaulle

Fichier principal

LabbeLabbeHubertJQL04.pdf ( 157.91 Ko )

Origine : Fichiers produits par l'(les) auteur(s)

Dominique Labbé : Connectez-vous pour contacter le contributeur

https://shs.hal.science/halshs-00290976

Soumis le : dimanche 8 juillet 2012 à 22:15:44

Dernière modification le : jeudi 25 avril 2024 à 03:08:44

Archivage à long terme le : mardi 9 octobre 2012 à 02:20:07

Dates et versions

halshs-00290976, version 1 (08-07-2012)

Identifiants

HAL Id : halshs-00290976 , version 1

Citer

Cyril Labbé, Dominique Labbé, Pierre Hubert. Automatic Segmentation of Texts and Corpora. Journal of Quantitative Linguistics, 2004, 11, pp.193-213. ⟨halshs-00290976⟩

Exporter

BibTeX TEI Dublin Core DC Terms EndNote Datacite

Collections

UPMC UGA CNRS PACTE LIG LIG_GLSI_SIGMA SORBONNE-UNIVERSITE LIG_SIDCH SCIENCESPO_GRENOBLE

279 Consultations

375 Téléchargements

Dernière date de mise à jour le 20/04/2024

Automatic Segmentation of Texts and Corpora

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager