Lexicons and grammars for language processing: industrial or handcrafted products? - HAL-SHS - Sciences de l'Homme et de la Société Access content directly
Book Sections Year : 2009

Lexicons and grammars for language processing: industrial or handcrafted products?

Eric Laporte

Abstract

During the recent years, the use of linguistic data for language processing (semantic ambiguity
resolution, translation...) increased progressively. Such data are now commonly called language
resources. A few years ago, nearly all the language resources used for this purpose were collections
of texts as the Brown Corpus and the Penn Treebank, but the use of electronic lexicons (WordNet,
FrameNet, VerbNet, ComLex, Lexicon-Grammar...) and formal grammars (TAG...) developed recently. This
development is slow because most processes of construction of lexicons and grammars are
manual, whereas the construction of corpora has always been highly automated.
However, more and more specialists of language processing realize that the information content of
lexicons and grammars is richer than that of corpora, and hence the former make more elaborate
processing possible. The difference in construction time is likely to be connected with the
difference in information content: the handcrafting of lexicons and grammars by linguists would
make them more informative than automatically generated data.
This situation can evolve into two directions: either specialists of language technology get
progressively used to handling manually constructed resources, which are more informative and
more complex, or the process of construction of lexicons and grammars is automated and
industrialized, which is the mainstream perspective. Both evolutions are already in progress, and a
tension exists between them. The relation between linguists and computer scientists depends on the
future of these evolutions, since the first implies training and hiring numerous linguists, whereas
the other depends essentially on solutions elaborated by computer engineers.
The aim of this article is to analyse practical examples of the language resources in question, and
to discuss about which of the two trends, handcrafting or generating industrially, or a combination
of both, can give the best results or is the most realistic.
L'utilisation de données linguistiques pour le traitement des langues : levée d'ambiguïtés sémantiques, traduction... a augmenté progressivement au cours des dernières années. De telles données sont communément appelées ressources linguistiques. Il y a quelques années, presque toutes les ressources linguistiques exploitées pour ce type d'usage étaient des collections de textes telles que le Corpus de Brown et le Corpus arboré de Penn, mais l'utilisation de lexiques électroniques (WordNet, FrameNet, VerbNet, ComLex, Lexique-Grammaire...) et de grammaires formelles (grammaires d'adjonction d'arbres...) s'est développé depuis. Cet essor est lent, car la plupart des processus de construction de lexiques et de grammaires sont manuels, alors que la construction de corpus a été très tôt en grande partie automatisée. Cependant, de plus en plus de spécialistes du traitement des langues jugent le contenu informatif des lexiques et des grammaires plus riche que celui des corpus, ce qui ouvre la possibilité de traitements plus élaborés. La différence dans la durée de construction de ces deux types de ressources est sans doute liée à la différence de richesse du contenu informatif : la construction artisanale de lexiques et de grammaires par les linguistes les rendrait plus informatifs que des données engendrées automatiquement.
Cette situation peut évoluer dans deux directions : ou les spécialistes de technologie linguistique se familiarisent progressivement avec la manipulation de ressources construites manuellement, plus informatives et plus complexes, ou les processus de construction de lexiques et de grammaires sont automatisés et industrialisés, ce qui est la perspective la plus répandue.
Les deux évolutions sont déjà à l'œuvre, et il existe une tension entre elles deux. Les relations entre linguistes et informaticiens dépendent du futur de ces évolutions, puisque celle-là suppose la formation et le recrutement de nombreux linguistes, alors que celle-ci dépend essentiellement de solutions élaborées par des ingénieurs de l'informatique.
Le but de cet article est d'analyser des exemples pratiques des ressources linguistiques en question, et de discuter sur la question de savoir laquelle des deux tendances, l'artisanale ou l'industrielle, ou une combinaison des deux, pourrait donner les meilleurs résultats ou s'avérer la plus réaliste.
Fichier principal
Vignette du fichier
artesOuIndustr.pdf (91.64 Ko) Télécharger le fichier
artesOuIndustr.compact.pdf (216.91 Ko) Télécharger le fichier
Origin : Files produced by the author(s)
Origin : Files produced by the author(s)
Loading...

Dates and versions

halshs-00400986 , version 1 (02-07-2009)

Identifiers

  • HAL Id : halshs-00400986 , version 1

Cite

Eric Laporte. Lexicons and grammars for language processing: industrial or handcrafted products?. Letícia Marcondes Rezende, Bento Carlos Dias da Silva, Juliana Bertucci Barbosa. Léxico e gramática: dos sentidos à construção da significação, Cultura acadêmica, pp.51-84, 2009, Trilhas Lingüísticas, 16. ⟨halshs-00400986⟩
250 View
648 Download

Share

Gmail Facebook X LinkedIn More