Linguistique de corpus et Traitement Automatique de la Langue. - HAL Accéder directement au contenu
Chapitre d'ouvrage Communication et connaissances : supports et médiations à l'âge de l'information / Jean-Gabriel Ganascia coordinateur Année : 2005

Linguistique de corpus et Traitement Automatique de la Langue.

Résumé

Le traitement automatique des langues (TAL) et la linguistique de corpus sont devenus, au cours des dernières années, des domaines-clés pour répondre aux besoins de notre société en terme d'analyse et d'exploitation de gisements d'information, le plus souvent sous forme textuelle, et aujourd'hui largement disponibles, en particulier sur le Web (Pierrel 2000). Une analyse de l'évolution de la linguistique au cours du dernier demi-siècle montre que sa confrontation avec l'informatique et les mathématiques lui a permis de se définir de nouvelles approches. C'est ainsi qu'au-delà d'une simple linguistique descriptive s'est développée une linguistique formelle, couvrant aussi bien les aspects lexicaux que syntaxiques ou sémantiques, qui tend à proposer des modèles s'appuyant sur une double validation, explicative d'un point de vue linguistique, opératoire d'un point de vue informatique. Par ailleurs la disponibilité de ressources textuelles électroniques de grandes tailles (corpus, bases de données textuelles, dictionnaires et lexiques) et les progrès de l'informatique, tant en matière de stockage que de puissance de calcul, ont créé, au cours des années 1990, un véritable engouement pour les approches statistiques et probabilistes sur « corpus » (Habert et col. 1995). Ainsi se structura petit à petit un nouveau champ de recherche : la linguistique de corpus (Habert et col. 1997) permettant au linguiste d'aller au-delà de l'accumulation de faits de langue et de confronter ses théories à l'usage effectif de la langue. Parallèlement, les besoins applicatifs ont conduit à de nombreux travaux en TAL.
Fichier principal
Vignette du fichier
JMP_chapitre_C_C.pdf ( 43.45 Ko ) Télécharger
Loading...

Dates et versions

halshs-00005041, version 1 (19-10-2005)

Identifiants

  • HAL Id : halshs-00005041 , version 1

Citer

Jean-Marie Pierrel. Linguistique de corpus et Traitement Automatique de la Langue.. Communication et connaissances : supports et médiations à l'âge de l'information / Jean-Gabriel Ganascia coordinateur, CNRS Editions, 2005. ⟨halshs-00005041⟩
182 Consultations
854 Téléchargements
Dernière date de mise à jour le 20/04/2024
comment ces indicateurs sont-ils produits

Partager

Gmail Facebook Twitter LinkedIn Plus