Extraire et encoder l'information lexicale de Wiktionary : quel boulot pour étrangler le goulot !

Franck Sajous; Basilio Calderone; Nabil Hathout

Article dans une revue Lexique Année : 2020

Extraire et encoder l'information lexicale de Wiktionary : quel boulot pour étrangler le goulot !

(1) , (1) , (1)

Franck Sajous

Fonction : Auteur
PersonId : 10494
IdHAL : franck-sajous
ORCID : 0000-0001-9439-3658
IdRef : 253130522

Cognition, langues, langage, ergonomie

Basilio Calderone

Fonction : Auteur
PersonId : 17229
IdHAL : basilio-calderone
ORCID : 0000-0002-0160-7512

Cognition, langues, langage, ergonomie

Nabil Hathout

Fonction : Auteur
PersonId : 173055
IdHAL : nabil-hathout
ORCID : 0000-0003-4492-171X
IdRef : 118073397

Cognition, langues, langage, ergonomie

Résumé

We present in this article an effort carried out for a decade which consists in using the content of the Wiktionary collaborative dictionary in order to build free lexical resources. Its main result is the design of machine-readable dictionaries and inflectional lexicons for three languages (French, Italian and English). In this paper, we question the usefulness of such lexical resources at a time when mainstream NLP is based on machine learning and readily do without. We compare different methods of producing resources and more specifically of extracting information from Wiktionary. We then discuss the suitability of standard formats for encoding idiosyncratic resources such as Wiktionary and conclude on the need to prioritize, above all, the production and sharing of resources.

Nous présentons dans cet article une démarche menée depuis une décennie qui consiste à exploiter le contenu du dictionnaire collaboratif Wiktionary afin de construire des ressources lexicales libres. Notre approche a permis de doter trois langues (le français, l'italien et l'anglais) en dictionnaires électroniques et en lexiques flexionnels. Nous questionnons l’utilité des ressources lexicales à un moment où la plupart des systèmes de TAL par apprentissage automatique s’en passent complètement. Nous profitons également de ce retour d’expérience pour comparer différentes méthodes de production de ressources et plus spécifiquement différentes méthodes d’extraction d’informations à partir de Wiktionary. Nous discutons ensuite de la pertinence des formats standards pour l’encodage de ressources idiosyncratiques telles que Wiktionary. Nous concluons sur la nécessité de prioriser, avant tout, la production et le partage de ressources.

Mots clés

free lexical resources machine-readable dictionaries Wiktionary information extraction encoding formats

ressources lexicales libres dictionnaires électroniques Wiktionary extraction d'informations formats d'encodage

Domaines

Linguistique

Liste complète des métadonnées

Format du dépôt	Fichier
Type de dépôt	Article dans une revue
Résumé	en We present in this article an effort carried out for a decade which consists in using the content of the Wiktionary collaborative dictionary in order to build free lexical resources. Its main result is the design of machine-readable dictionaries and inflectional lexicons for three languages (French, Italian and English). In this paper, we question the usefulness of such lexical resources at a time when mainstream NLP is based on machine learning and readily do without. We compare different methods of producing resources and more specifically of extracting information from Wiktionary. We then discuss the suitability of standard formats for encoding idiosyncratic resources such as Wiktionary and conclude on the need to prioritize, above all, the production and sharing of resources. fr Nous présentons dans cet article une démarche menée depuis une décennie qui consiste à exploiter le contenu du dictionnaire collaboratif Wiktionary afin de construire des ressources lexicales libres. Notre approche a permis de doter trois langues (le français, l'italien et l'anglais) en dictionnaires électroniques et en lexiques flexionnels. Nous questionnons l’utilité des ressources lexicales à un moment où la plupart des systèmes de TAL par apprentissage automatique s’en passent complètement. Nous profitons également de ce retour d’expérience pour comparer différentes méthodes de production de ressources et plus spécifiquement différentes méthodes d’extraction d’informations à partir de Wiktionary. Nous discutons ensuite de la pertinence des formats standards pour l’encodage de ressources idiosyncratiques telles que Wiktionary. Nous concluons sur la nécessité de prioriser, avant tout, la production et le partage de ressources.
Titre	fr Extraire et encoder l'information lexicale de Wiktionary : quel boulot pour étrangler le goulot !
Auteur(s)	Franck Sajous ¹ , Basilio Calderone ¹ , Nabil Hathout ¹ 1 CLLE - Cognition, langues, langage, ergonomie ( 489956 ) - Maison de la Recherche 5 Allée Antonio Machado 31058 Toulouse cedex 9 - France École Pratique des Hautes Études UMR 5263 ( 110691 ) ; Université Paris Sciences et Lettres ( 564132 ) ; Université Toulouse - Jean Jaurès UMR 5263 ( 116256 ) ; Université de Toulouse ( 443875 ) ; Université Bordeaux Montaigne UMR 5263 ( 412629 ) ; Centre National de la Recherche Scientifique UMR5263 ( 441569 ) ; Toulouse Mind & Brain Institut ( 1149079 ) ; Université Toulouse - Jean Jaurès ( 116256 ) ; Université de Toulouse ( 443875 ) ; Université Toulouse III - Paul Sabatier FED4171 ( 217752 ) ; Université de Toulouse ( 443875 )
Nom de la revue	Lexique (ISSN : 0756-7138, ISSN électronique : 2804-7397) UMR 8163 STL « Savoirs, Textes, Langage » ; Université de Lille Publié par UMR 8163 STL « Savoirs, Textes, Langage » ; Université de Lille https://www.peren-revues.fr/lexique/
Page/Identifiant	121-144
Licence	Paternité - Pas d'utilisation commerciale - Pas de modification
Langue du document	Français
Vulgarisation	Non
Comité de lecture	Oui
Audience	Internationale
Date de publication	2020
Titre de la collection	Ressources Lexicales
Volume	27
Domaine(s)	Sciences de l'Homme et Société/Linguistique
Mots-clés	en free lexical resources, machine-readable dictionaries, Wiktionary, information extraction, encoding formats fr ressources lexicales libres, dictionnaires électroniques, Wiktionary, extraction d'informations, formats d'encodage

Fichier principal

SajousEtAl2020_Lexique27_ExtraireInformationLexicaleWiktionary.pdf ( 259.98 Ko )

Origine : Accord explicite pour ce dépôt

Franck Sajous : Connectez-vous pour contacter le contributeur

https://shs.hal.science/halshs-03083521

Soumis le : samedi 19 décembre 2020 à 10:57:11

Dernière modification le : vendredi 19 avril 2024 à 16:18:58

Dates et versions

halshs-03083521, version 1 (19-12-2020)

Licence

Paternité - Pas d'utilisation commerciale - Pas de modification - CC BY 4.0

Identifiants

HAL Id : halshs-03083521 , version 1

Citer

Franck Sajous, Basilio Calderone, Nabil Hathout. Extraire et encoder l'information lexicale de Wiktionary : quel boulot pour étrangler le goulot !. Lexique, 2020, Ressources Lexicales, 27, pp.121-144. ⟨halshs-03083521⟩

Exporter

BibTeX TEI Dublin Core DC Terms EndNote Datacite

Collections

EPHE UNIV-TLSE2 CNRS CLLE CAMPUS-AAR AAI PSL UNIV-BORDEAUX-MONTAIGNE UNIV-UT3 UT3-TOULOUSEINP

177 Consultations

81 Téléchargements

Dernière date de mise à jour le 20/04/2024

Extraire et encoder l'information lexicale de Wiktionary : quel boulot pour étrangler le goulot !

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Partager