WEBAFFIX : une boîte à outils d'acquisition lexicale à partir du Web
Résumé
This paper deals with the design and use of Webaffix, a tool for semi-automatically detecting new word forms from the World Wide Web. We focus mainly on new derived words, i.e. coined from other lexemes through suffixation and/or prefixation processes. We develop the techniques and methods used in Webaffix, along with a sample of results obtained via several studies on French. Resources such as the ones created through the use of Webaffix are useful not only for natural language processing and information retrieval tasks, but also for the linguistic study of word creation.
Nous présentons ici Webaffix, un outil et une méthodologie qui permet d'enrichir et de constituer semi-automatiquement des données lexicales en utilisant le Web comme corpus. Notre approche concerne plus spécifiquement la détection et l'analyse d'unités lexicales construites par suffixation ou préfixation. Nous présentons les méthodes et techniques utilisées par Webaffix, en déclinant les différents modes d'utilisation que nous avons envisagés et mis en pratique, ainsi que des exemples de résultats produits par diverses campagnes d'utilisation. Les données ainsi recueillies sont utiles comme ressources pour différentes applications en traitement automatique des langues, mais permettent également d'étudier à grande échelle les phénomènes de création lexicale.
Origine : Fichiers produits par l'(les) auteur(s)
Loading...