Développement de ressources pour le persan: le nouveau lexique morphologique \perlex 2 et l'étiqueteur morphosyntaxique \meltfa

Abstract : Nous présentons une nouvelle version de PerLex, lexique morphologique du persan, une version corrigée et partiellement réannotée du corpus étiqueté BijanKhan (BijanKhan, 2004) et MEltfa, un nouvel étiqueteur morphosyntaxique librement disponible pour le persan. Après avoir développé une première version de PerLex (Sagot & Walther, 2010), nous en proposons donc ici une version améliorée. Outre une validation manuelle partielle, PerLex 2 repose désormais sur un inventaire de catégories linguistiquement motivé. Nous avons également développé une nouvelle version du corpus BijanKhan : elle contient des corrections significatives de la tokenisation ainsi qu'un réétiquetage à l'aide des nouvelles catégories. Cette nouvelle version du corpus a enfin été utilisée pour l'entraînement de MEltfa, notre étiqueteur morphosyntaxique pour le persan librement disponible, s'appuyant à la fois sur ce nouvel inventaire de catégories, sur PerLex 2 et sur le système d'étiquetage MElt (Denis & Sagot, 2009). We present a new version of PerLex, the morphological lexicon for the Persian language, a cor- rected and partially re-annotated version of the BijanKhan corpus (BijanKhan, 2004) and MEltfa, a new freely available POS-tagger for the Persian language. After PerLex's first version (Sagot & Walther, 2010), we propose an improved version of our morphological lexicon. Apart from a partial manual validation, PerLex 2 now relies on a set of linguistically motivated POS. Based on these POS, we also developped a new version of the BijanKhan corpus with significant corrections of the tokenisation. It has been re-tagged according to the new set of POS. The new version of the BijanKhan corpus has been used to develop MEltfa, our new freely-available POS-tagger for the Persian language, based on the new POS set, PerLex 2 and the MElt tagging system (Denis & Sagot, 2009).
Type de document :
Communication dans un congrès
Actes de TALN 2011, 2011, Montpellier, France. 2011
Liste complète des métadonnées

https://halshs.archives-ouvertes.fr/halshs-01441123
Contributeur : Alexandre Roulois <>
Soumis le : jeudi 19 janvier 2017 - 16:00:15
Dernière modification le : vendredi 15 mars 2019 - 09:44:01

Identifiants

  • HAL Id : halshs-01441123, version 1

Collections

Citation

Benoît Sagot, Géraldine Walther, Pegah Faghiri, Pollet Samvelian. Développement de ressources pour le persan: le nouveau lexique morphologique \perlex 2 et l'étiqueteur morphosyntaxique \meltfa. Actes de TALN 2011, 2011, Montpellier, France. 2011. 〈halshs-01441123〉

Partager

Métriques

Consultations de la notice

257