Discourse and Prosody in spoken French: Why, what and how should one count? A comparative statistical perspective - HAL-SHS - Sciences de l'Homme et de la Société Accéder directement au contenu
Communication Dans Un Congrès Cahiers de linguistique française Année : 2014

Discourse and Prosody in spoken French: Why, what and how should one count? A comparative statistical perspective

Anne Lacheret
Sylvain Kahane

Résumé

In this paper we exhibit macrosyntactic and prosodic fea- tures that are characteristic not only of general discourse genres, but also of more specific types. In our quantitative study, we compare two methods for supervised classification: decision trees and SVM (support vector ma- chines). Furthermore, we address the issue of graphical representations of features through a PCA (principal component analysis). Four main con- clusions can be drawn: (i) in terms of performance , the support vector machines are better suited to our data than decision trees, (ii) certain situa- tional variables are better discriminated than others due to the granularity chosen for analysis, (iii) the principal component analysis is a good way for guessing the complementarity vs. redundancy of the features. All these points provide a valuable feedback on the role played by the intonosyntactic interface in the identification of discourse genres in spoken French.
Dans cet article, nous présentons un résumé de certains aspects méthodolo- giques et statistique de notre récent travail sur un corpus de français parlé. Pourquoi compter? Nous montrons comment une étude basée sur des don- nées linguistiques de l'oral, peut avoir une visée technique, où l'objectif se- rait par exemple d'obtenir des erreurs de classification faibles, ou bien avoir une visée plutôt interprétative, où l'objectif serait d'étudier les relations entre niveaux linguistique afin d'en tirer des conclusions. Comment comp- ter? En fonction de cette distinction, on montre que certaines méthodes sta- tistiques sont parfois plus ou moins adéquates. Par exemple, les méthodes de classification automatique de machine learning s'avèrent souvent très efficaces, mais peuvent se révéler beaucoup moins satisfaisante lorsqu'il s'agit de comprendre et d'expliquer l'influence d'une variable linguistique sur une autre. De la même manière, nous montrons qu'une analyse statis- tique peut être utile pour évaluer et même réduire la tâche d'annotation, en permettant par exemple l'identification des variables redondantes qui pour- raient alors être évitées. La discussion est basée sur de nombreux exemples tirés de notre récent travail sur le corpus Rhapsodie, qui est un corpus de français ordinaire, annoté en syntaxe, discours et en prosodie.

Domaines

Linguistique
Fichier principal
Vignette du fichier
3_Beliao_et_al_33-44.pdf (126.61 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

halshs-01066796 , version 1 (22-09-2014)

Identifiants

  • HAL Id : halshs-01066796 , version 1

Citer

Julie Beliao, Anne Lacheret, Sylvain Kahane. Discourse and Prosody in spoken French: Why, what and how should one count? A comparative statistical perspective. SWIP 3 - Swiss Workshop In Prosody, Sep 2014, Switzerland. pp.33-44. ⟨halshs-01066796⟩
103 Consultations
98 Téléchargements

Partager

Gmail Facebook X LinkedIn More