A fully inflected Arabic verb resource constructed from a lexicon of lemmas by using finite-state transducers - HAL Accéder directement au contenu
Article dans une revue Revue d'Information Scientifique & Technique Année : 2013

A fully inflected Arabic verb resource constructed from a lexicon of lemmas by using finite-state transducers

Une ressource de verbes arabes entièrement fléchie constituée à partir d'un dictionnaire de lemmes à l’aide de transducteurs finis

Résumé

We describe a fully inflected lexicon of 2.5 million verbal forms generated by using finite-state transducers. The lexicon is constituted of 15 400 verbal entries or lemmas. The lexicon of Arabic verbs is constructed on the basis of Semitic patterns and used in a resource-based method of morphological annotation of written Arabic text. An enhanced FST implementation for Semitic languages was created. This system is adapted also for generating inflected forms. The language resources can be easily updated. We propose an inflectional taxonomy that increases the lexicon readability and maintainability for Arabic speakers and linguists. Traditional grammar defines inflectional verbal classes by using verbal pattern-classes and root-classes, related to the nature of each of the triliteral root-consonants. Verbal pattern-classes are clearly defined but root-classes are complex. In our taxonomy, traditional pattern-classes are reused and rootclasses are simply redefined. Our taxonomy provides a straightforward encoding scheme for inflectional variations and orthographic adjustments due to assimilation and agglutination. We have tested and evaluated our resource against 10 000 diacriticized verb occurrences in the Nemlar corpus and compared it to Buckwalter resources. The lexical coverage is 99.9 %. A laptop needs two minutes in order to generate and compress the 2.5 million form lexicon into 4 Megabytes for fast retrieval. The analysis of a verb takes 0.5 millisecond.
Nous décrivons un lexique complètement fléchi de 2,5 millions de formes verbales générées par des transducteurs à états finis. Le lexique est constitué de 15 400 entrées ou lemmes. Le lexique de ces verbes arabes est construit sur la base des schèmes de la grammaire traditionnelle. Cette ressource verbale est ensuite utilisée par un logiciel d'annotation morphologique du texte écrit en arabe. Un ajustement de l’implémentation de ces transducteurs a été spécialement crée afin de traiter les langues sémitiques. Ce système est également adapté pour générer des formes fléchies. Les ressources linguistiques peuvent être facilement mis-à-jour. Nous proposons une taxonomie de la flexion verbale qui augmente la lisibilité du lexique et la maintenabilité pour les locuteurs et linguistes arabes. La grammaire traditionnelle définit des classes de flexion verbales en utilisant des classes de schèmes et des classes de racines, liées à la nature de chacune des consonnes d’une racine trilitères. Les classes de schèmes verbaux sont clairement définies alors que les classes de racines sont complexes. Dans notre taxonomie, les classes de schèmes traditionnelles sont réutilisées et les classes de racines sont redéfinies de façon plus simple. Notre taxonomie fournit un schéma de codage simple des variations flexionnelles et des ajustements orthographiques dus à l'assimilation ou à l'agglutination d’une particule grammaticale. Nous avons testé et évalué notre ressource sur 10 000 occurrences voyellées de verbes extraites du corpus Nemlar et nous l’avons comparé à la ressource de Buckwalter. La couverture lexicale est de 99,9%. Un ordinateur portable a besoin de deux minutes pour générer et compresser les 2,5 millions de formes fléchies en 4 Méga-octets pour une recherche rapide. L’analyse d’un verbe prend 0,5 milliseconde.
Fichier principal
Vignette du fichier
A_fully_inflected_Arabic_verb_resource_c.pdf ( 411.9 Ko ) Télécharger
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

halshs-01186734, version 1 (14-01-2016)

Identifiants

  • HAL Id : halshs-01186734 , version 1

Citer

Alexis Amid Neme. A fully inflected Arabic verb resource constructed from a lexicon of lemmas by using finite-state transducers. Revue d'Information Scientifique & Technique , 2013, 20 (2), pp.13. ⟨halshs-01186734⟩
162 Consultations
814 Téléchargements
Dernière date de mise à jour le 20/04/2024
comment ces indicateurs sont-ils produits

Partager

Gmail Facebook Twitter LinkedIn Plus