Constitution et exploitation d'un grand corpus de "données situées" Problèmes et solutions pour les Enquêtes Socio-Linguistiques à Orléans (1968-2008) - HAL Accéder directement au contenu
Communication dans un congrès Année : 2006

Constitution et exploitation d'un grand corpus de "données situées" Problèmes et solutions pour les Enquêtes Socio-Linguistiques à Orléans (1968-2008)

Résumé

Cette communication vise à présenter les problèmes méthodologiques et théoriques de la constitution et de l'exploitation d'un grand corpus oral de "données situées". L’Enquête Socio-Linguistique à Orléans (ESLO) réalisée à la fin des années 1960 a permis la constitution d’un grand corpus oral du français : le corpus d'Orléans. En plus de son intérêt quantitatif (317 heures d’enregistrements, soit ± 4 500 000 mots), ce corpus se distingue par un certain nombre de préoccupations méthodologiques alors nouvelles : souci d’une identification sociologique des locuteurs et de la situation, préservation de la cohérence discursive, observation de l’interaction et des conduites linguistiques, indexation des données contextuelles, adaptation à des interrogations multiples, etc. En 2005, le Centre Orléanais de Recherche en Anthropologie et en Linguistique (CORAL) a entrepris un double projet : mettre le corpus d'Orléans à la disposition de la communauté scientifique dans le respect des pratiques et outils actuels, et réaliser une nouvelle enquête variationniste à Orléans (ESLO2), conforme aux caractéristiques principales d'ESLO1, qui adapte à la situation contemporaine le cadre sociologique et linguistique. L’objectif à terme est, d’une part, de constituer un grand corpus de données situées (à terme environ 500 heures, 7 millions de mots), analysable de façon interne et comparative, de le mettre à la disposition de la communauté scientifique, et d'autre part, de participer ainsi à la réflexion sur l’évolution des modèles et des méthodes en linguistique variationniste. Un tel objectif présuppose de considérer les problèmes techniques et méthodologiques de la constitution et de l'exploitation des données situées comme ayant une place centrale dans la sélection, la représentation et l’analyse des faits de langue. Il s'agira, lors de cette communication, de présenter les premiers choix théoriques et techniques opérés par le CORAL : -segmentation, et transcription synchronisée conçue comme une simple annotation (repérage du matériel sonore) ; -gestion des données linguistiques et des données sociologiques et contextuelles pour des requêtes croisées (base de données XML natives, requêtes Xquery,); -balisage des données sensibles permettant une anonymisation modulable ; -codage et formats respectant le soucis d’intéropérabilité et de diffusion de données linguistiques situées ( TEI, recommandations W3C). L’enjeu de ces choix techniques est de taille puisqu’il s’agit ni plus ni moins de dépasser l’opposition données qualitatives / données quantitatives pour affirmer une linguistique fondée sur des données dont la méthodologie du traitement en masse ne doit exclure en rien la nature sociale de la langue. L’élaboration de grand corpus de données situées est ainsi l’occasion de répondre à l’objectif d’adéquation observationnelle d’une linguistique variationniste pour laquelle les données ne sont pas séparables de leurs conditions de production.
Loading...
Fichier non déposé

Dates et versions

halshs-01165954, version 1 (21-06-2015)

Identifiants

  • HAL Id : halshs-01165954 , version 1

Citer

Olivier Baude, Iris Eshkol. Constitution et exploitation d'un grand corpus de "données situées" Problèmes et solutions pour les Enquêtes Socio-Linguistiques à Orléans (1968-2008) . Corpus et pragmatique L'interaction verbale dans son contexte situationnel à la lumière des corpus et des bases de données, Sep 2006, Fribourg, Allemagne. ⟨halshs-01165954⟩

Collections

UNIV-ORLEANS
103 Consultations
0 Téléchargements
Dernière date de mise à jour le 06/04/2024
comment ces indicateurs sont-ils produits

Partager

Gmail Facebook Twitter LinkedIn Plus