Un concordancier multi-niveaux et multimédia pour des corpus oraux - HAL-SHS - Sciences de l'Homme et de la Société Accéder directement au contenu
Communication Dans Un Congrès Année : 2014

Un concordancier multi-niveaux et multimédia pour des corpus oraux

Résumé

Concordances have always played an important role in the analysis of language corpora, for studies in humanities, literature, linguistics, translation and language teaching. However, very few of the available systems support multi-level queries against a richly-annotated, sound-aligned spoken corpus. The rapid growth in the development of spoken corpora, particularly for French, increases the need for scalable, high-performance solutions. We present the preliminary results of our project to develop a multi-level multimedia concordancer for spoken language corpora. We test our prototype on the PFC corpus of spoken French (1.5 million tokens, transcriptions aligned to the utterance level). Our tool allows researchers to query the corpus and produce concordances correlating several annotation levels (part-of-speech tags, lemmas, annotation of phonological phenomena such as the liaison and schwa, etc.) while allowing for multi-modal access to the associated sound recordings and other data.
Les concordanciers jouent depuis longtemps un rôle important dans l’analyse des corpus linguistiques, tout comme dans les domaines de la philologie, de la littérature, de la traduction et de l’enseignement des langues. Toutefois, il existe peu de concordanciers qui soient capables d’associer des annotations à plusieurs niveaux et synchronisées avec le signal sonore. L’essor des grands corpus de français parlé introduit une augmentation des exigences au niveau de la performance. Dans ce travail à caractère préliminaire, nous avons développé un prototype de concordancier multi-niveaux et multimédia, que nous avons testé sur le corpus de français parlé du projet Phonologie du Français Contemporain (PFC, 1,5 million de tokens de transcription alignée au niveau de l’énoncé). L’outil permet non seulement d’enrichir les résultats des concordances grâce aux données relevant de plusieurs couches d’annotation du corpus (annotation morphosyntaxique, lemme, codage de la liaison, codage du schwa etc.), mais aussi d’élargir les modalités d’accès au corpus.
Fichier principal
Vignette du fichier
Barreca 2014 concordancier.pdf (1.06 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

halshs-01078133 , version 1 (07-11-2014)

Identifiants

  • HAL Id : halshs-01078133 , version 1

Citer

Giulia Barreca, George Christodoulides. Un concordancier multi-niveaux et multimédia pour des corpus oraux. 21e Conférence sur le Traitement automatique des Langues Naturelles (TALN 2014), Jul 2014, Marseille, France. ⟨halshs-01078133⟩
167 Consultations
283 Téléchargements

Partager

Gmail Facebook X LinkedIn More