TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français

Antonio Balvet; Dejan Stosic; Aleksandra Miletic

doi:10.1051/shsconf/20140801035

Communication Dans Un Congrès SHS Web of Conferences Année : 2014

TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français

(1) , (2) , (2)

1
2

Antonio Balvet

Fonction : Auteur
PersonId : 704
IdHAL : antonio-balvet
ORCID : 0000-0002-3074-5594
IdRef : 114234396

Savoirs, Textes, Langage (STL) - UMR 8163

Dejan Stosic

Fonction : Auteur
PersonId : 11321
IdHAL : dejan-stosic
ORCID : 0000-0003-3853-983X
IdRef : 070166846

Cognition, Langues, Langage, Ergonomie

Aleksandra Miletic

Fonction : Auteur
PersonId : 1028050

Cognition, Langues, Langage, Ergonomie

Résumé

Le corpus TALC-sef (TAgged Literary Corpus in Serbian, English, French) est un corpus parallèle d'ouvrages littéraires en serbe, anglais et français, étiquetés en parties du discours et librement consultables via une interface en ligne. Il a été constitué par l'Université d'Arras, en collaboration avec l'Université Lille 3 et l'Université de Belgrade, dans une perspective d'études comparées en stylistique et linguistique. Le corpus TALC-sef représente au total plus de 2 millions de mots, il intègre notamment un corpus étiqueté, corrigé manuellement pour la langue serbe, de 150 000 mots. Dans cet article, nous présentons le mode de constitution du corpus parallèle dans son ensemble, puis nous nous attachons plus spécifiquement à l'élaboration du sous-corpus serbe étiqueté. Nous détaillons les choix linguistiques et techniques sous-jacents à la constitution de ce sous-corpus, qui vient compléter l'offre existante pour la linguistique sur corpus en serbe: à ce jour, le seul corpus librement disponible consiste en une traduction du roman 1984 de G. Orwell (100 000 mots), alors que nous proposons un corpus d'œuvres écrites à l'origine en Serbe, de 150 000 mots. La constitution de ce sous-corpus a permis l'élaboration de modèles d'étiquetage automatique pour trois étiqueteurs syntaxiques, dont Treetagger, TnT et BTagger, le plus efficace d'entre eux. Enfin, nous présentons les perspectives d'évolution du corpus existant, en termes d'enrichissement des annotations syntaxiques (analyses en dépendance en parallèle sur les trois langues), ainsi que les apports d'un tel corpus parallèle étiqueté pour la linguistique du français.

Mots clés

Corpus Parallèles Serbe Annotation Morpho-syntaxique

Domaines

Linguistique

Fichier principal

CMLF2014_TALC-sef_15-03-2014.pdf (393.31 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Antonio Balvet : Connectez-vous pour contacter le contributeur

https://shs.hal.science/halshs-01077789

Soumis le : lundi 27 octobre 2014-11:21:03

Dernière modification le : vendredi 19 avril 2024-16:18:56

Archivage à long terme le : mercredi 28 janvier 2015-10:32:24

Dates et versions

halshs-01077789 , version 1 (27-10-2014)

Identifiants

HAL Id : halshs-01077789 , version 1
DOI : 10.1051/shsconf/20140801035

Citer

Antonio Balvet, Dejan Stosic, Aleksandra Miletic. TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français. Congrès Mondial de Linguistique Française, Jul 2014, Berlin, Allemagne. pp.2551 - 2563, ⟨10.1051/shsconf/20140801035⟩. ⟨halshs-01077789⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

EPHE UNIV-TLSE2 CNRS CLLE STL CAMPUS-AAR AAI PSL UNIV-LILLE UNIV-BORDEAUX-MONTAIGNE

209 Consultations

228 Téléchargements

TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager