Traitement de données issues d’un corpus écrit multilingue. Approche agile pour l’analyse du discours eurorégional

Marie-Hélène Hermand; Emmanuel Thouraud

doi:10.1051/shsconf/20152001009

Article dans une revue SHS Web of Conferences Année : 2015

Processing data from a multilingual corpus. Agile approach in an objective of discourse analysis

Traitement de données issues d’un corpus écrit multilingue. Approche agile pour l’analyse du discours eurorégional

(1, 2, 3) ,

1
2
3

Marie-Hélène Hermand

Fonction : Auteur
PersonId : 1049750
IdHAL : marie-helene-hermand
ORCID : 0000-0003-2486-9029
IdRef : 240711823

Médiation, Information, Communication, Art

Université Bordeaux Montaigne

UFR Sciences des territoires et de la communication (STC) - Université Bordeaux Montaigne

Emmanuel Thouraud

Fonction : Auteur

Résumé

The article presents some aspects of the model adapted to a corpus of around 600 texts (around 500 000 words) relative to the Euroregions. Complex and heterogeneous in several respects (technical, linguistic, editorial, generic, enunciative), the corpus raises the major challenge of the apprehension of multilingual data (French, Italian, Spanish, English, German, Dutch). Its handling required a suitable reflection and modeling process which we call "agile" because of its flexible and iterative character. The analysis platform can provide useful results for subsequent qualitative analysis of Euroregional discourse. It combines a proven part-of-speech tagger software (TreeTagger) with Perl modules and SQLite database developed to optimize simultaneous multilingual queries and automatic export of the results. The features related to the location of contextualized words and of co-occurrences, the collection of own names and detection of repeated segments serve as guides to express the needs of research, problems and proposed solutions. The analysis of the repeated expressions of decision and responsability in the corpus will illustrate the subject.

L'article présente quelques éléments de la procédure mise en place pour traiter un corpus comportant un peu plus de 600 textes (près de 500 000 mots) relatifs aux eurorégions. Complexe et hétérogène à plusieurs titres (technique, linguistique, éditorial, générique, énonciatif), le corpus pose la difficulté majeure de l’appréhension de données multilingues (français, italien, espagnol, anglais, allemand, néerlandais). Sa manipulation a nécessité une réflexion adaptée et une démarche de modélisation que nous qualifions d’« agile » en raison de son caractère souple et itératif. La plateforme d’analyse élaborée permet de disposer de résultats utiles à l’analyse qualitative ultérieure du discours eurorégional. Elle articule un logiciel d'analyse morpho-syntaxique éprouvé (TreeTagger) à des programmes (Perl) et à une base de données (SQLite) développés pour optimiser les requêtes multilingues simultanées et l’exportation automatique des résultats. Les fonctionnalités liées à la localisation contextualisée de mots-pivots et de co-occurrences, au recueil de dénominations et à la détection de segments répétés nous servent ici de guides pour exprimer les besoins de la recherche, les problèmes rencontrés et les solutions proposées. L'analyse d'observables récurrents, à savoir les notions de décision et de responsabilité, illustre le propos.

Mots clés

Multilingual corpora Multilingual textometry European discourse analysis Cross-border discourse analysis Euroregions

Corpus multilingues Textométrie multilingue Analyse du discours européen Analyse du discours transfrontalier Eurorégions

Domaines

Sciences de l'Homme et Société Sciences de l'information et de la communication Linguistique

Liste complète des métadonnées

Format du dépôt	Fichier
Type de dépôt	Article dans une revue
Titre	en Processing data from a multilingual corpus. Agile approach in an objective of discourse analysis fr Traitement de données issues d’un corpus écrit multilingue. Approche agile pour l’analyse du discours eurorégional
Résumé	en The article presents some aspects of the model adapted to a corpus of around 600 texts (around 500 000 words) relative to the Euroregions. Complex and heterogeneous in several respects (technical, linguistic, editorial, generic, enunciative), the corpus raises the major challenge of the apprehension of multilingual data (French, Italian, Spanish, English, German, Dutch). Its handling required a suitable reflection and modeling process which we call "agile" because of its flexible and iterative character. The analysis platform can provide useful results for subsequent qualitative analysis of Euroregional discourse. It combines a proven part-of-speech tagger software (TreeTagger) with Perl modules and SQLite database developed to optimize simultaneous multilingual queries and automatic export of the results. The features related to the location of contextualized words and of co-occurrences, the collection of own names and detection of repeated segments serve as guides to express the needs of research, problems and proposed solutions. The analysis of the repeated expressions of decision and responsability in the corpus will illustrate the subject. fr L'article présente quelques éléments de la procédure mise en place pour traiter un corpus comportant un peu plus de 600 textes (près de 500 000 mots) relatifs aux eurorégions. Complexe et hétérogène à plusieurs titres (technique, linguistique, éditorial, générique, énonciatif), le corpus pose la difficulté majeure de l’appréhension de données multilingues (français, italien, espagnol, anglais, allemand, néerlandais). Sa manipulation a nécessité une réflexion adaptée et une démarche de modélisation que nous qualifions d’« agile » en raison de son caractère souple et itératif. La plateforme d’analyse élaborée permet de disposer de résultats utiles à l’analyse qualitative ultérieure du discours eurorégional. Elle articule un logiciel d'analyse morpho-syntaxique éprouvé (TreeTagger) à des programmes (Perl) et à une base de données (SQLite) développés pour optimiser les requêtes multilingues simultanées et l’exportation automatique des résultats. Les fonctionnalités liées à la localisation contextualisée de mots-pivots et de co-occurrences, au recueil de dénominations et à la détection de segments répétés nous servent ici de guides pour exprimer les besoins de la recherche, les problèmes rencontrés et les solutions proposées. L'analyse d'observables récurrents, à savoir les notions de décision et de responsabilité, illustre le propos.
Auteur(s)	Marie-Hélène Hermand ^{1, 2, 3} , Emmanuel Thouraud 1 MICA - Médiation, Information, Communication, Art ( 136101 ) - MSHA, 10 esplanade des antilles, 33607 pessac cedex - France Université Bordeaux Montaigne UR4426 ( 412629 ) 2 UBM - Université Bordeaux Montaigne ( 412629 ) - France 3 UFR Sciences des territoires et de la communication (STC) - Université Bordeaux Montaigne ( 1161080 ) - UFR Sciences des territoires et de la communication (STC) Bâtiment R (village de modulaires), 1er étage Université Bordeaux Montaigne Esplanade des Antilles 33607 Pessac Tél : +33 (0)5 57 12 60 70 - France Université Bordeaux Montaigne ( 412629 )
Langue du document	Français
Nom de la revue	SHS Web of Conferences (ISSN : 2416-5182, ISSN électronique : 2261-2424) EDP Sciences Publié par EDP Sciences http://www.shs-conferences.org/fr/
Date de publication	2015
Volume	20
Page/Identifiant	01009
Vulgarisation	Non
Comité de lecture	Oui
Audience	Internationale
Domaine(s)	Sciences de l'Homme et Société Sciences de l'Homme et Société/Sciences de l'information et de la communication Sciences de l'Homme et Société/Linguistique
Mots-clés	en Multilingual corpora, Multilingual textometry, European discourse analysis, Cross-border discourse analysis, Euroregions fr Corpus multilingues, Textométrie multilingue, Analyse du discours européen, Analyse du discours transfrontalier, Eurorégions
DOI	10.1051/shsconf/20152001009

Fichier principal

icodoc2015_Hermand_Thouraud_version auteur.pdf ( 521.67 Ko )

Origine : Fichiers produits par l'(les) auteur(s)

Marie-Hélène Hermand : Connectez-vous pour contacter le contributeur

https://shs.hal.science/halshs-02168776

Soumis le : jeudi 16 novembre 2023 à 18:40:47

Dernière modification le : mercredi 29 novembre 2023 à 13:56:55

Dates et versions

halshs-02168776, version 1 (16-11-2023)

Identifiants

HAL Id : halshs-02168776 , version 1
DOI : 10.1051/shsconf/20152001009

Citer

Marie-Hélène Hermand, Emmanuel Thouraud. Traitement de données issues d’un corpus écrit multilingue. Approche agile pour l’analyse du discours eurorégional. SHS Web of Conferences, 2015, 20, pp.01009. ⟨10.1051/shsconf/20152001009⟩. ⟨halshs-02168776⟩

Exporter

BibTeX TEI Dublin Core DC Terms EndNote Datacite

Collections

UNIV-BORDEAUX-MONTAIGNE MICA

67 Consultations

0 Téléchargements

Dernière date de mise à jour le 20/04/2024

Processing data from a multilingual corpus. Agile approach in an objective of discourse analysis

Traitement de données issues d’un corpus écrit multilingue. Approche agile pour l’analyse du discours eurorégional

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager