LGeRM Lemmatisation des mots en Moyen Français - HAL-SHS - Sciences de l'Homme et de la Société Accéder directement au contenu
Article Dans Une Revue Revue TAL : traitement automatique des langues Année : 2009

LGeRM Lemmatisation des mots en Moyen Français

Résumé

Unlike most modern languages, Middle French is a language whose spelling is not yet stabilized. There is a great deal of variation in the spelling of a word and accordingly the traditional methods for lemmatization cannot be used. LGeRM (Lemmes, Graphies et Règles Morphologiques) proposes a solution based on a databank containing known lemmatized spellings and a set of graphical and morphological rules specific to the medieval language. LGeRM can provide help in consulting a dictionary, browsing or lemmatizing medieval texts, and it can be useful in the electronic edition of manuscripts and the automatic construction of glossaries. This multipurpose tool is accessible on the Internet at www.atilf.fr/dmf.
Contrairement à la plupart des langues modernes, le moyen français est une langue dont l'orthographe n'est pas encore stabilisée. Il existe de très nombreuses variantes pour un même mot et en conséquence les méthodes classiques de lemmatisation ne peuvent pas s'appliquer. LGeRM (Lemmes, Graphies et Règles Morphologiques) propose une solution qui s'appuie sur une base de formes connues lemmatisées et sur un ensemble de règles graphémiques et morphologiques spécifiques de la langue médiévale. Il permet ainsi de faciliter la consultation d'un dictionnaire, l'interrogation et la lemmatisation de textes médiévaux et trouve des applications dans l'édition électronique de manuscrits et la construction automatique de glossaires. Cet outil polyvalent est accessible sur internet à l'adresse www.atilf.fr/dmf.

Domaines

Linguistique
Fichier principal
Vignette du fichier
TALSouvayPierrel2009-1.pdf (761.7 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

halshs-00396452 , version 1 (18-06-2009)

Identifiants

  • HAL Id : halshs-00396452 , version 1

Citer

Gilles Souvay, Jean-Marie Pierrel. LGeRM Lemmatisation des mots en Moyen Français. Revue TAL : traitement automatique des langues, 2009, 50 (2), pp.21. ⟨halshs-00396452⟩
451 Consultations
1244 Téléchargements

Partager

Gmail Facebook X LinkedIn More