Skip to Main content Skip to Navigation
Conference papers

De la variation à la norme, effets de codage dans les ESLOs

Résumé : Le projet VARILING , dont l’ancrage théorique est celui de la linguistique variationniste, a comme objectif non seulement de constituer un grand corpus oral de français parlé contenant à terme plus de 700 heures d’enregistrements sonores pour un volume de transcription estimé à 10 000 mots, mais également de le mettre à disposition de différentes disciplines scientifiques. Le corpus des ESLOs offre la particularité d’être constitué d’un corpus réalisé en 1968-1971 (ESLO1) avant l’avènement des outils technologiques de traitements des corpus oraux, et d’un second corpus en cours de réalisation (ESLO2) dont la méthodologie prend en compte l’évolution des outils et des théories. Cet objectif de constitution d’un corpus prototypique nécessite une démarche qui définit, à toutes les étapes de la réalisation, les contraintes de l’interopérabilité recherchée et leurs impacts sur la méthodologie et les analyses. Ainsi le codage des descripteurs des ressources primaires et des annotations linguistiques répond à un souci d’harmonisation de leur définition nécessaire au partage tout en engageant des choix théoriques. Or cette étape est particulièrement complexe dans le cas de données intrinsèquement hétérogènes. Cette communication vise à présenter les différentes réponses que l’équipe du projet VARILING tente d’apporter aux questions suivantes, rencontrées au fur et à mesure du projet de constitution d’un grand corpus oral variationniste : Coder pourquoi ? coder quoi ? Coder comment ? Dans un premier temps nous présenterons brièvement les choix opérés autour des étiquettes Dublincore/Olac pour le codage des métadonnées qui décrivent les ressources, concernant principalement la catégorisation des éléments situationnels comme les descripteurs du profil sociologique des locuteurs. Nous présenterons ensuite les choix dans VARILING du codage des transcriptions, cette opération étant considérée comme la première phase d’annotation d’objets linguistiques. Si le codage des caractères n’a pas posé de problème majeur, la phase de transcription s’est révélée beaucoup plus complexe notamment par le manque de conventions normalisées au sein de la communauté scientifique. Ainsi après un travail consacré à une expertise des usages actuels des outils et des conventions de codage des transcriptions par cinq grands projets internationaux qui a permis de discerner un ensemble d’éléments pour lesquels un consensus de catégorisation, de dénomination et de structuration des phénomènes est envisageable, l’équipe a développé des propositions autour d’un « double niveau interdépendant » qui offre la possibilité de répondre simultanément à un objectif d’interopérabilité et d’analyses spécifiques. Outre les différences de codage directement imputables à des divergences théoriques dont la typologie a été faite au préalable, un certain nombre de choix de codage ont été révélés après une première phase de test. Celle-ci a consisté à comparer des transcriptions réalisées par trois auteurs différents. La confrontation des choix opérés par ces différents codeurs confirme et affine empiriquement les enjeux révélés dans la phase préparatoire. En conclusion nous proposerons de ne pas restreindre l’objectif d’une normalisation du codage des corpus oraux à une volonté de définir les conditions techniques de l’échange des données. Il s’agit avant tout de concevoir la constitution de corpus comme nécessitant une démarche réflexive systématique. Le codage restant avant tout autre chose une opération d’explicitation des choix de définition et de catégorisation d’objets scientifiques pour laquelle la nécessité de normalisation ne doit pas masquer les enjeux théoriques.
Document type :
Conference papers
Complete list of metadata

https://halshs.archives-ouvertes.fr/halshs-01165953
Contributor : Olivier Baude <>
Submitted on : Sunday, June 21, 2015 - 12:24:00 AM
Last modification on : Monday, April 30, 2018 - 10:58:02 AM

Identifiers

  • HAL Id : halshs-01165953, version 1

Collections

Citation

Olivier Baude, Linda Hriba. De la variation à la norme, effets de codage dans les ESLOs. CATCOD, 2008, Orléans, France. ⟨halshs-01165953⟩

Share

Metrics

Record views

124