Corpus complexes et standards : un retour sur le projet CoMeRe - HAL Accéder directement au contenu
Article dans une revue Corpus Année : 2020

Corpus complexes et standards : un retour sur le projet CoMeRe

Résumé

The aim of this contribution is to review the national research project CoMeRe (Communication Médiée par les Réseaux - Networked-Mediated Communication) and, in particular, focus on the the complexity of the corpus it developed, structured, and disseminated. The CoMeRe corpus is a reference corpus for computer-mediated communication (CMC) in French comprising fourteen sub-corpora. Fourteen researchers from eight different laboratories were involved in the project and three key words guided their collaborations: variety, standards, and open access. The CoMeRe corpus is composed of a wide range of heterogeneous CMC genres (emails, text chat, SMS, Internet discussion forums, blogs, tweets, Wikipedia discussions, interactions from synthetic worlds). In the first section of the article, we underline their main characteristics of the different CMC genres and highlight their similarities and differences. We then describe the choices made to support corpus interoperability: the fourteen sub-corpora were structured in a standardized manner in accordance with the Interaction Space model developed within the project (Chanier & Jin, 2013) and, in collaboration with European partners, following guidelines for standardizing CMC corpora in TEI (Text Encoding Initiative, 2019). The CoMeRe corpus was released in an open-access format so as to encourage future use by the scientific community. In the article’s conclusion, we underline the different implications of the corpus’ dissemination.
Le présent article se propose de revenir sur le projet national CoMeRe (Communication Médiée par les Réseaux) en insistant sur la complexité du corpus développé. Constitué de quatorze sous-corpus variés, le corpus CoMeRe est un corpus de référence de la communication médiée par les réseaux en français. Quatorze enseignants-chercheurs de huit laboratoires différents se sont impliqués dans le projet et ont été guidés par trois mots clés lors de leurs collaborations : variété, standards et accès ouvert. Le corpus CoMeRe a ainsi été construit sur une hypothèse de variété et contient une gamme étendue d'interactions de la CMR dont nous restituons les différences et les caractéristiques principales (courriels, clavardage, SMS, forums de discussion Internet, blogs, tweets, discussions Wikipédia, interactions provenant de mondes synthétiques). Nous détaillons ensuite comme le corpus CoMeRe a été rendu interopérable : les quatorze sous-corpus ont été standardisés, suivant le modèle de l'espace d'interaction élaboré lors du projet (Chanier & Jin, 2013) d'une part et suivant les propositions de représentation standardisée des corpus de la CMR en TEI (Text Encoding Initiative, 2019) élaborées en lien avec les partenaires européens. Enfin, les collègues tenaient à diffuser le corpus en accès ouvert pour permettre son utilisation par la communauté scientifique. Nous revenons sur les retombées du projet liées à la diffusion du corpus dans la conclusion de notre article.
Fichier principal
Vignette du fichier
Wigham_Poudat_2020.pdf ( 936.07 Ko ) Télécharger
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

halshs-02460613, version 1 (03-02-2020)

Identifiants

  • HAL Id : halshs-02460613 , version 1

Citer

Ciara R. Wigham, Céline Poudat. Corpus complexes et standards : un retour sur le projet CoMeRe. Corpus, 2020. ⟨halshs-02460613⟩
159 Consultations
86 Téléchargements
Dernière date de mise à jour le 07/04/2024
comment ces indicateurs sont-ils produits

Partager

Gmail Facebook Twitter LinkedIn Plus