Extraire et encoder l'information lexicale de Wiktionary : quel boulot pour étrangler le goulot ! - HAL Accéder directement au contenu
Article dans une revue Lexique Année : 2020

Extraire et encoder l'information lexicale de Wiktionary : quel boulot pour étrangler le goulot !

Résumé

We present in this article an effort carried out for a decade which consists in using the content of the Wiktionary collaborative dictionary in order to build free lexical resources. Its main result is the design of machine-readable dictionaries and inflectional lexicons for three languages (French, Italian and English). In this paper, we question the usefulness of such lexical resources at a time when mainstream NLP is based on machine learning and readily do without. We compare different methods of producing resources and more specifically of extracting information from Wiktionary. We then discuss the suitability of standard formats for encoding idiosyncratic resources such as Wiktionary and conclude on the need to prioritize, above all, the production and sharing of resources.
Nous présentons dans cet article une démarche menée depuis une décennie qui consiste à exploiter le contenu du dictionnaire collaboratif Wiktionary afin de construire des ressources lexicales libres. Notre approche a permis de doter trois langues (le français, l'italien et l'anglais) en dictionnaires électroniques et en lexiques flexionnels. Nous questionnons l’utilité des ressources lexicales à un moment où la plupart des systèmes de TAL par apprentissage automatique s’en passent complètement. Nous profitons également de ce retour d’expérience pour comparer différentes méthodes de production de ressources et plus spécifiquement différentes méthodes d’extraction d’informations à partir de Wiktionary. Nous discutons ensuite de la pertinence des formats standards pour l’encodage de ressources idiosyncratiques telles que Wiktionary. Nous concluons sur la nécessité de prioriser, avant tout, la production et le partage de ressources.
Fichier principal
Vignette du fichier
SajousEtAl2020_Lexique27_ExtraireInformationLexicaleWiktionary.pdf ( 259.98 Ko ) Télécharger
Origine : Accord explicite pour ce dépôt
Loading...

Dates et versions

halshs-03083521, version 1 (19-12-2020)

Licence

Paternité - Pas d'utilisation commerciale - Pas de modification - CC BY 4.0

Identifiants

  • HAL Id : halshs-03083521 , version 1

Citer

Franck Sajous, Basilio Calderone, Nabil Hathout. Extraire et encoder l'information lexicale de Wiktionary : quel boulot pour étrangler le goulot !. Lexique, 2020, Ressources Lexicales, 27, pp.121-144. ⟨halshs-03083521⟩
177 Consultations
81 Téléchargements
Dernière date de mise à jour le 20/04/2024
comment ces indicateurs sont-ils produits

Partager

Gmail Facebook Twitter LinkedIn Plus