Mesures et savoirs : Quelles méthodes pour l’histoire culturelle à l’heure du big data ?

Marianne Reboul; Alexandre Gefen

doi:10.1515/sem-2018-0103

Article dans une revue Semiotica Année : 2019

Mesures et savoirs : Quelles méthodes pour l’histoire culturelle à l’heure du big data ?

(1) , (2)

1
2

Marianne Reboul

Fonction : Auteur
PersonId : 744557
IdHAL : marianne-reboul
IdRef : 22005018X

École normale supérieure de Lyon

Alexandre Gefen

Fonction : Auteur
PersonId : 15588
IdHAL : alexandre-gefen
ORCID : 0000-0001-6751-6747
IdRef : 060381736

THALIM - Théorie et histoire des arts et des littératures de la modernité - UMR 7172

Résumé

Quantitative analysis of cultural history has begun with the appearance of massive open-source data, such as Google Books, and has been renown as "cultural economicsˮ. It is now open to researchers and literary critics, thus allowing to have access to cultural facts and their evolution through textual marks within digitalized data. Those massive corpora cannot be analyzed blindly as they may not all be equipped with substantial metadata, or might, in worst case scenarios, be very noisy. For massive corpora, that is to say with billions of words, common visualization tools such as Voyant Tools or TXM, and the methods those softwares use to analyze data, cannot be reliably efficient. Within the margins of a project about literary History, between the Labex OBVIL and the Stanford Literary Lab, aiming at defining literature as a word, concept and semantic field, and at drawing an empirical history of literature, we analyzed 1618 French books, that is to say a 140 million word corpus, from the end of the "Ancien Régime" up to the Second World War. To do so, we used different experimental text mining techniques, combining distant and close reading analysis. In this article, we shall explore different kinds of text mining, such as (frequencial) closed measures, unsupervised machine analysis (topic model-ing), semi-open methods (collocations), each time pointing out their benefits and drawbacks. We shall then demonstrate how necessary it is to apply to a deeper and more precise text mining, using substantial metadata, such as lemmatized data, syntactical structure and semantic analysis (such as word vectors). We shall in the end demonstrate how a substantial study of big literary corpora cannot disjoint distant and close reading, as both tend to prove or contradict one another in a most effective way for producing evolutive representations of the history of literature.

L'analyse quantitative de l'histoire culturelle a été ouverte par la mise à disposition de corpus de masse tel que celui de Google fbooks (500 milliards de mots, 5 millions d'ouvrages, soit environ 4% de la littérature mondiale) et a été popularisé sous le nom de « culturonomics ». Elle s'ouvre désormais aux chercheurs, en promettant un accès profond aux faits culturels et à leurs évolutions qui affleurent à travers leurs traces textuelles dans les corpus tex-tuelles numérisées. Encore faut-il pouvoir interroger ces corpus dont la taille et la nature posent des problèmes scientifiques nouveaux, leur dimension les rendant illisibles directement et mettant échec les méthodes de fouille et les outils traditionnels d'analyse statistique des données en imposant des méthodes statistiques nouvelles et le saut vers des formes d'intelligence visuelles origina-les. Dans le cadre d'un projet mené entre le Labex « Obvil » de Paris-Sorbonne et le Literary Lab de Stanford sur l'histoire de l'idée de littéraire (la définition de la littérature comme mot, comme concept et comme champ), et visant à produire une histoire empirique de la littérature, nous avons mené depuis deux ans des expériences de fouille d'un corpus de critique littéraire de 1618 titres, 140 millions de mots (dont plus de 50 000 occurrences du lemme « littérature ») de la fin de l'Ancien Régime à la Seconde Guerre mondiale. En présentant des exemples développés dans cette première expérimentation à grande échelle de mesure de l'histoire des idées, on présentera les méthodes de text mining contemporaines en essayant d'éprouver leur pertinence heuristique et de leur capacité à faire remonter des données signifiantes pour l'histoire et la théorie littéraire. On fera l'hypothèse que toute enquête quantitative sérieuse mobilise désormais non une échelle intermédiaire standard et immédiatement lisible, mais le maniement d'outils statistiques dont l'interprétation en sciences humai-nes pose des problèmes particuliers qui, paradoxalement, ne peuvent être résolus que par leur articulation étroite à du close reading et à des mesures fines.

Mots clés

history of literature text mining distributional semantics distant-close reading big data

Domaines

Méthodes et statistiques Littératures

Liste complète des métadonnées

Format du dépôt	Fichier
Type de dépôt	Article dans une revue
Résumé	en Quantitative analysis of cultural history has begun with the appearance of massive open-source data, such as Google Books, and has been renown as "cultural economicsˮ. It is now open to researchers and literary critics, thus allowing to have access to cultural facts and their evolution through textual marks within digitalized data. Those massive corpora cannot be analyzed blindly as they may not all be equipped with substantial metadata, or might, in worst case scenarios, be very noisy. For massive corpora, that is to say with billions of words, common visualization tools such as Voyant Tools or TXM, and the methods those softwares use to analyze data, cannot be reliably efficient. Within the margins of a project about literary History, between the Labex OBVIL and the Stanford Literary Lab, aiming at defining literature as a word, concept and semantic field, and at drawing an empirical history of literature, we analyzed 1618 French books, that is to say a 140 million word corpus, from the end of the "Ancien Régime" up to the Second World War. To do so, we used different experimental text mining techniques, combining distant and close reading analysis. In this article, we shall explore different kinds of text mining, such as (frequencial) closed measures, unsupervised machine analysis (topic model-ing), semi-open methods (collocations), each time pointing out their benefits and drawbacks. We shall then demonstrate how necessary it is to apply to a deeper and more precise text mining, using substantial metadata, such as lemmatized data, syntactical structure and semantic analysis (such as word vectors). We shall in the end demonstrate how a substantial study of big literary corpora cannot disjoint distant and close reading, as both tend to prove or contradict one another in a most effective way for producing evolutive representations of the history of literature. fr L'analyse quantitative de l'histoire culturelle a été ouverte par la mise à disposition de corpus de masse tel que celui de Google fbooks (500 milliards de mots, 5 millions d'ouvrages, soit environ 4% de la littérature mondiale) et a été popularisé sous le nom de « culturonomics ». Elle s'ouvre désormais aux chercheurs, en promettant un accès profond aux faits culturels et à leurs évolutions qui affleurent à travers leurs traces textuelles dans les corpus tex-tuelles numérisées. Encore faut-il pouvoir interroger ces corpus dont la taille et la nature posent des problèmes scientifiques nouveaux, leur dimension les rendant illisibles directement et mettant échec les méthodes de fouille et les outils traditionnels d'analyse statistique des données en imposant des méthodes statistiques nouvelles et le saut vers des formes d'intelligence visuelles origina-les. Dans le cadre d'un projet mené entre le Labex « Obvil » de Paris-Sorbonne et le Literary Lab de Stanford sur l'histoire de l'idée de littéraire (la définition de la littérature comme mot, comme concept et comme champ), et visant à produire une histoire empirique de la littérature, nous avons mené depuis deux ans des expériences de fouille d'un corpus de critique littéraire de 1618 titres, 140 millions de mots (dont plus de 50 000 occurrences du lemme « littérature ») de la fin de l'Ancien Régime à la Seconde Guerre mondiale. En présentant des exemples développés dans cette première expérimentation à grande échelle de mesure de l'histoire des idées, on présentera les méthodes de text mining contemporaines en essayant d'éprouver leur pertinence heuristique et de leur capacité à faire remonter des données signifiantes pour l'histoire et la théorie littéraire. On fera l'hypothèse que toute enquête quantitative sérieuse mobilise désormais non une échelle intermédiaire standard et immédiatement lisible, mais le maniement d'outils statistiques dont l'interprétation en sciences humai-nes pose des problèmes particuliers qui, paradoxalement, ne peuvent être résolus que par leur articulation étroite à du close reading et à des mesures fines.
Titre	fr Mesures et savoirs : Quelles méthodes pour l’histoire culturelle à l’heure du big data ?
Auteur(s)	Marianne Reboul ¹ , Alexandre Gefen ² 1 ENS de Lyon - École normale supérieure de Lyon ( 6818 ) - 15 parvis René Descartes - BP 7000 - 69342 Lyon Cedex 07 - France 2 THALIM - THALIM - Théorie et histoire des arts et des littératures de la modernité - UMR 7172 ( 254015 ) - Site INHA, THALIM/ARIAS, Galerie Colbert, 2 rue Vivienne, 75002 Paris ; Site Sorbonne Nouvelle -- Paris 3, THALIM/Équipe Écritures de la modernité, Sorbonne Nouvelle - Paris 3, Maison de la Recherche 4, rue des Irlandais 75005 PARIS - France Université Sorbonne Nouvelle - Paris 3 ( 52995 ) ; Centre National de la Recherche Scientifique UMR7172 ( 441569 ) ; Département Arts - ENS Paris ( 1074934 ) ; École normale supérieure - Paris ( 59704 ) ; Université Paris Sciences et Lettres ( 564132 )
Audience	Internationale
Numéro	230
Comité de lecture	Oui
Vulgarisation	Non
Nom de la revue	Semiotica (ISSN : 0037-1998, ISSN électronique : 1613-3692) Publié par De Gruyter
Date de publication	2019-10-25
Volume	2019
Langue du document	Français
Page/Identifiant	97-120
Domaine(s)	Sciences de l'Homme et Société/Méthodes et statistiques Sciences de l'Homme et Société/Littératures
Mots-clés	en history of literature, text mining, distributional semantics, distant-close reading, big data
DOI	10.1515/sem-2018-0103

Fichier principal

Semiotica_GEFEN_REBOUL (1).pdf ( 2.25 Mo )

Origine : Fichiers produits par l'(les) auteur(s)

Alexandre Gefen : Connectez-vous pour contacter le contributeur

https://shs.hal.science/halshs-02430078

Soumis le : lundi 13 janvier 2020 à 12:07:26

Dernière modification le : vendredi 19 avril 2024 à 16:18:58

Archivage à long terme le : mardi 14 avril 2020 à 12:44:38

Dates et versions

halshs-02430078, version 1 (13-01-2020)

Identifiants

HAL Id : halshs-02430078 , version 1
DOI : 10.1515/sem-2018-0103

Citer

Marianne Reboul, Alexandre Gefen. Mesures et savoirs : Quelles méthodes pour l’histoire culturelle à l’heure du big data ?. Semiotica, 2019, 2019 (230), pp.97-120. ⟨10.1515/sem-2018-0103⟩. ⟨halshs-02430078⟩

Exporter

BibTeX TEI Dublin Core DC Terms EndNote Datacite

Collections

ENS-LYON ENS-PARIS CNRS UNIV-PARIS3 CAMPUS-AAR AAI PSL USPC THALIM UDL

255 Consultations

116 Téléchargements

Dernière date de mise à jour le 07/04/2024