Méthodologie et algorithmiques pour la détection automatique des syllabes proéminentes dans les corpus de français parlé - HAL Accéder directement au contenu
Communication dans un congrès Année : 2008

Méthodologie et algorithmiques pour la détection automatique des syllabes proéminentes dans les corpus de français parlé

Résumé

1. Avant-propos
La ponctuation orthographique de l'écrit n'est pas opératoire pour transcrire l'oral
(Blanche-Benveniste, 1998 ; Béguelin, 2002), aussi tout le monde est d'accord
pour dire qu'il faut trouver d'autres façons pour segmenter les corpus de langue
parlée en ‘unités' de différents rangs, utiles pour la description des multiples
niveaux de l'analyse linguistique (grammaire, structure informationnelle, analyse
des interactions, etc.). Un des moyens les plus couramment convoqués pour ce
faire est la prosodie :
La transcription des corpus oraux à l'aide de la ponctuation de l'écrit est loin
d'être satisfaisante, et il serait largement préférable d'en transcrire la prosodie.
(Campione, 2003 : 103)
Toute transcription de la prosodie repose au minimum sur le repérage de syllabes
proéminentes et sur l'appréciation de degrés de frontière. Le système ToBI
(acronyme pour Tones and Break Index), développé dans la mouvance des travaux de
Pierrehumbert (1980) sur la phonologie supra-segmentale de l'anglais américain
standard, constitue le système de transcription de ce type le plus célèbre et le plus
répandu à l'heure actuelle1 :
Par sa notation des événements prosodiques sur une couche tonale en tons Haut et
Bas, événements liés aux syllabes accentuées (accent mélodique ou pitch accent),
aux frontières de constituants (tons de frontière ou boundary tones et accents de
syntagme, phrase accents), le système ToBI se veut à la fois proche de la réalité
phonétique et apparaître comme une notation phonétique à vocation universelle,
tout en étant lié par sa définition même à des entités phonologiques (Martin,
2003 : 109)
Même si la transcription de ces phénomènes prosodiques donne lieu à une
interprétation phonologique (consensuelle ou non), elle est effectuée
manuellement par des annotateurs humains. Elle exige donc un temps de
traitement considérable. De ce fait, elle demeure difficilement envisageable pour
le traitement de gros corpus. En outre, par son caractère manuel, elle reste
empirique, aléatoire et subjective. La variation inter-juges dans le repérage
d'objets prosodiques pertinents constitue un problème majeur. D'autre part,
restreindre les points prosodiques remarquables à des saillances de F0 pose un
problème de fond, surtout quand on sait que dans beaucoup de langues, et tel est
le cas du français, le marquage des phénomènes prosodiques est
multiparamétrique par essence2. D'où la nécessité de développer et de mettre en
oeuvre des algorithmes robustes pour leur identification (semi-)automatique dans
les corpus de langue parlée.
Dans cet article, nous exposons les premiers résultats d'un algorithme implémenté
sous Praat (Boersma and Weenink, 2007) pour effectuer une telle tâche. À partir
d'une transcription orthographique standard, notre système procède à une
phonétisation, à un alignement phonétique et à un étiquetage automatique du
signal en syllabes. Ensuite, une détection des proéminences syllabiques est
réalisée sur la base d'une analyse acoustique. Cette détection automatique a été
systématiquement comparée à une détection auditive et les divergences entre la
détection automatique et celle des annotateurs experts (humains) a permis
d'ajuster progressivement les seuils de l'algorithme.
Fichier principal
Vignette du fichier
8.Avanzi-et-al.pdf ( 314.65 Ko ) Télécharger
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

halshs-00358155, version 1 (13-02-2009)

Identifiants

  • HAL Id : halshs-00358155 , version 1

Citer

Anne Lacheret, Mathieu Avanzi, Jean-Philippe Goldman, Anne Catherine Simon, Antoine Auchlin. Méthodologie et algorithmiques pour la détection automatique des syllabes proéminentes dans les corpus de français parlé. Cahiers of French Language Studies, 2007, Bristol, Royaume-Uni. pp.2-30. ⟨halshs-00358155⟩
114 Consultations
397 Téléchargements
Dernière date de mise à jour le 20/04/2024
comment ces indicateurs sont-ils produits

Partager

Gmail Facebook Twitter LinkedIn Plus