Développement de ressources pour le persan: PerLex2, nouveau lexique morphologique et MElt_fa, étiqueteur morphosyntaxique

Résumé : Nous présentons une nouvelle version de PerLex, lexique morphologique du persan, une version corrigée et partiellement réannotée du corpus étiqueté BijanKhan (BijanKhan, 2004) et MEltfa, un nouvel étique- teur morphosyntaxique librement disponible pour le persan. Après avoir développé une première version de PerLex (Sagot & Walther, 2010), nous en proposons donc ici une version améliorée. Outre une validation manuelle par- tielle, PerLex 2 repose désormais sur un inventaire de catégories linguistiquement motivé. Nous avons également développé une nouvelle version du corpus BijanKhan : elle contient des corrections significatives de la tokenisation ainsi qu'un réétiquetage à l'aide des nouvelles catégories. Cette nouvelle version du corpus a enfin été utilisée pour l'entraînement de MEltfa, notre étiqueteur morphosyntaxique pour le persan librement disponible, s'appuyant à la fois sur ce nouvel inventaire de catégories, sur PerLex 2 et sur le système d'étiquetage MElt (Denis & Sagot, 2009).
Type de document :
Communication dans un congrès
TALN 2011, 2011, Montpellier, France. 2011
Liste complète des métadonnées

Littérature citée [13 références]  Voir  Masquer  Télécharger

https://halshs.archives-ouvertes.fr/halshs-00751630
Contributeur : Géraldine Walther <>
Soumis le : mercredi 14 novembre 2012 - 15:57:52
Dernière modification le : vendredi 24 mars 2017 - 09:57:14
Document(s) archivé(s) le : samedi 17 décembre 2016 - 10:26:39

Fichier

taln11pergramshort.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : halshs-00751630, version 1

Collections

Citation

Benoît Sagot, Géraldine Walther, Pegah Faghiri, Pollet Samvelian. Développement de ressources pour le persan: PerLex2, nouveau lexique morphologique et MElt_fa, étiqueteur morphosyntaxique. TALN 2011, 2011, Montpellier, France. 2011. 〈halshs-00751630〉

Partager

Métriques

Consultations de
la notice

270

Téléchargements du document

121