Corpus complexes et standards : un retour sur le projet CoMeRe

Ciara R. Wigham; Céline Poudat

Article dans une revue Corpus Année : 2020

Corpus complexes et standards : un retour sur le projet CoMeRe

(1) , (2)

1
2

Ciara R. Wigham

Fonction : Auteur
PersonId : 10061
IdHAL : ciara-r-wigham
ORCID : 0000-0001-9704-1906
IdRef : 180756753

Laboratoire de Recherche sur le Langage

Céline Poudat

Fonction : Auteur
PersonId : 6110
IdHAL : celine-poudat
IdRef : 113209517

BCL, équipe Logométrie : corpus, traitements, modèles

Résumé

The aim of this contribution is to review the national research project CoMeRe (Communication Médiée par les Réseaux - Networked-Mediated Communication) and, in particular, focus on the the complexity of the corpus it developed, structured, and disseminated. The CoMeRe corpus is a reference corpus for computer-mediated communication (CMC) in French comprising fourteen sub-corpora. Fourteen researchers from eight different laboratories were involved in the project and three key words guided their collaborations: variety, standards, and open access. The CoMeRe corpus is composed of a wide range of heterogeneous CMC genres (emails, text chat, SMS, Internet discussion forums, blogs, tweets, Wikipedia discussions, interactions from synthetic worlds). In the first section of the article, we underline their main characteristics of the different CMC genres and highlight their similarities and differences. We then describe the choices made to support corpus interoperability: the fourteen sub-corpora were structured in a standardized manner in accordance with the Interaction Space model developed within the project (Chanier & Jin, 2013) and, in collaboration with European partners, following guidelines for standardizing CMC corpora in TEI (Text Encoding Initiative, 2019). The CoMeRe corpus was released in an open-access format so as to encourage future use by the scientific community. In the article’s conclusion, we underline the different implications of the corpus’ dissemination.

Le présent article se propose de revenir sur le projet national CoMeRe (Communication Médiée par les Réseaux) en insistant sur la complexité du corpus développé. Constitué de quatorze sous-corpus variés, le corpus CoMeRe est un corpus de référence de la communication médiée par les réseaux en français. Quatorze enseignants-chercheurs de huit laboratoires différents se sont impliqués dans le projet et ont été guidés par trois mots clés lors de leurs collaborations : variété, standards et accès ouvert. Le corpus CoMeRe a ainsi été construit sur une hypothèse de variété et contient une gamme étendue d'interactions de la CMR dont nous restituons les différences et les caractéristiques principales (courriels, clavardage, SMS, forums de discussion Internet, blogs, tweets, discussions Wikipédia, interactions provenant de mondes synthétiques). Nous détaillons ensuite comme le corpus CoMeRe a été rendu interopérable : les quatorze sous-corpus ont été standardisés, suivant le modèle de l'espace d'interaction élaboré lors du projet (Chanier & Jin, 2013) d'une part et suivant les propositions de représentation standardisée des corpus de la CMR en TEI (Text Encoding Initiative, 2019) élaborées en lien avec les partenaires européens. Enfin, les collègues tenaient à diffuser le corpus en accès ouvert pour permettre son utilisation par la communauté scientifique. Nous revenons sur les retombées du projet liées à la diffusion du corpus dans la conclusion de notre article.

Domaines

Linguistique

Liste complète des métadonnées

Format du dépôt	Fichier
Type de dépôt	Article dans une revue
Titre	en Corpus complexes et standards : un retour sur le projet CoMeRe
Résumé	en The aim of this contribution is to review the national research project CoMeRe (Communication Médiée par les Réseaux - Networked-Mediated Communication) and, in particular, focus on the the complexity of the corpus it developed, structured, and disseminated. The CoMeRe corpus is a reference corpus for computer-mediated communication (CMC) in French comprising fourteen sub-corpora. Fourteen researchers from eight different laboratories were involved in the project and three key words guided their collaborations: variety, standards, and open access. The CoMeRe corpus is composed of a wide range of heterogeneous CMC genres (emails, text chat, SMS, Internet discussion forums, blogs, tweets, Wikipedia discussions, interactions from synthetic worlds). In the first section of the article, we underline their main characteristics of the different CMC genres and highlight their similarities and differences. We then describe the choices made to support corpus interoperability: the fourteen sub-corpora were structured in a standardized manner in accordance with the Interaction Space model developed within the project (Chanier & Jin, 2013) and, in collaboration with European partners, following guidelines for standardizing CMC corpora in TEI (Text Encoding Initiative, 2019). The CoMeRe corpus was released in an open-access format so as to encourage future use by the scientific community. In the article’s conclusion, we underline the different implications of the corpus’ dissemination. fr Le présent article se propose de revenir sur le projet national CoMeRe (Communication Médiée par les Réseaux) en insistant sur la complexité du corpus développé. Constitué de quatorze sous-corpus variés, le corpus CoMeRe est un corpus de référence de la communication médiée par les réseaux en français. Quatorze enseignants-chercheurs de huit laboratoires différents se sont impliqués dans le projet et ont été guidés par trois mots clés lors de leurs collaborations : variété, standards et accès ouvert. Le corpus CoMeRe a ainsi été construit sur une hypothèse de variété et contient une gamme étendue d'interactions de la CMR dont nous restituons les différences et les caractéristiques principales (courriels, clavardage, SMS, forums de discussion Internet, blogs, tweets, discussions Wikipédia, interactions provenant de mondes synthétiques). Nous détaillons ensuite comme le corpus CoMeRe a été rendu interopérable : les quatorze sous-corpus ont été standardisés, suivant le modèle de l'espace d'interaction élaboré lors du projet (Chanier & Jin, 2013) d'une part et suivant les propositions de représentation standardisée des corpus de la CMR en TEI (Text Encoding Initiative, 2019) élaborées en lien avec les partenaires européens. Enfin, les collègues tenaient à diffuser le corpus en accès ouvert pour permettre son utilisation par la communauté scientifique. Nous revenons sur les retombées du projet liées à la diffusion du corpus dans la conclusion de notre article.
Auteur(s)	Ciara R. Wigham ¹ , Céline Poudat ² 1 LRL - Laboratoire de Recherche sur le Langage ( 500453 ) - Maison des Sciences de l'Homme, 4 rue Ledru, 63057 Clermont-Ferrand Cedex 1 - France Université Clermont Auvergne [2017-2020] EA999 ( 422708 ) 2 BCL, équipe Logométrie : corpus, traitements, modèles ( 452550 ) - Laboratoire BCL - UMR 7320 - CNRS - Université de Nice, Campus Saint-Jean d'Angély 3 / MSHS-SE, 24 avenue des Diables bleus, 06357 Nice Cedex 4 - France Bases, Corpus, Langage (UMR 7320 - UCA / CNRS) ( 199944 ) ; Université Nice Sophia Antipolis (1965 - 2019) ( 117617 ) ; Centre National de la Recherche Scientifique UMR7320 ( 441569 ) ; Université Côte d'Azur UMR7320 ( 1039632 )
Comité de lecture	Oui
Audience	Internationale
Vulgarisation	Non
Date de publication	2020-01
Langue du document	Français
Nom de la revue	Corpus (ISSN : 1638-9808, ISSN électronique : 1765-3126) Bases, Corpus, Langage - UMR 7320 Publié par Bases, Corpus, Langage - UMR 7320 http://corpus.revues.org/
Domaine(s)	Sciences de l'Homme et Société/Linguistique

Fichier principal

Wigham_Poudat_2020.pdf ( 936.07 Ko )

Origine : Fichiers produits par l'(les) auteur(s)

Ciara R. Wigham : Connectez-vous pour contacter le contributeur

https://shs.hal.science/halshs-02460613

Soumis le : lundi 3 février 2020 à 16:42:07

Dernière modification le : lundi 26 février 2024 à 11:22:13

Archivage à long terme le : lundi 4 mai 2020 à 12:17:02

Dates et versions

halshs-02460613, version 1 (03-02-2020)

Identifiants

HAL Id : halshs-02460613 , version 1

Citer

Ciara R. Wigham, Céline Poudat. Corpus complexes et standards : un retour sur le projet CoMeRe. Corpus, 2020. ⟨halshs-02460613⟩

Exporter

BibTeX TEI Dublin Core DC Terms EndNote Datacite

Collections

PRES_CLERMONT CNRS LRL BCL CAMPUS-AAR AAI UNIV-COTEDAZUR

159 Consultations

86 Téléchargements

Dernière date de mise à jour le 07/04/2024

Corpus complexes et standards : un retour sur le projet CoMeRe

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager