Lettres, mots, textes - Clefs d'accès à l'écrit numérique

Résumé : Les moteurs de recherche en texte intégral font partie des outils centraux pour l'anayse littéraire sur corpus numérique. Une introduction simple aux techniques usuelles (indexation par fichier inverse, modèle de l'espace vectoriel) permet de comprendre sur quoi reposent les différents modes d'accès au texte et de prendre en compte les biais induits par le traitement automatique. Avec une approche linguistique, on examine en particulier dans le détail le fonctionnement et la signification de l'ensemble des opérateurs booléens courants issus des langages documentaires (troncature, ET, OU, etc.), pour en maîtriser et adapter l'utilisation pour l'interrogation du texte intégral. On explique pourquoi certaines propositions novatrices (interrogation en langage naturel, pondération manuelle des mots-clés, tri par pertinence décroissante, représentations cartographiques...) peuvent s'avérer contre-productives, et supposent a minima un utilisateur averti. Le texte intégral se prête en définitive à trois approches dont il faut cultiver la complémentarité : il peut être vu comme une suite de lettres (perspective graphique), donnant notamment accès à certaines propriétés morphologiques quelquefois intéressantes en contexte multilingue ; le texte peut être naturellement analysé comme formé d'unités lexicales articulées syntaxiquement ; mais cette seconde persective ne doit pas occulter un point de vue textuel, qui restitue aux unités linguistiques les contextes conditionnant leur composition et leur interprétation.
Type de document :
Communication dans un congrès
Castagne, Eric ; Palma,Silvia. Journée scientifique "Sensibilisation aux outils informatiques et statistiques d'aide à l'analyse des textes", Feb 2001, Reims, France. CIRLEP, Presses Universitaires de Reims, pp.59-87, 2003, Recherches en Linguistique et Psychologie cognitive, 20
Liste complète des métadonnées

Littérature citée [10 références]  Voir  Masquer  Télécharger

https://halshs.archives-ouvertes.fr/halshs-00168992
Contributeur : Bénédicte Pincemin <>
Soumis le : mardi 21 avril 2009 - 17:16:09
Dernière modification le : jeudi 11 janvier 2018 - 06:18:12
Document(s) archivé(s) le : lundi 27 juin 2011 - 16:47:58

Fichier

pincemin_reims01.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : halshs-00168992, version 1

Collections

Citation

Bénédicte Pincemin. Lettres, mots, textes - Clefs d'accès à l'écrit numérique. Castagne, Eric ; Palma,Silvia. Journée scientifique "Sensibilisation aux outils informatiques et statistiques d'aide à l'analyse des textes", Feb 2001, Reims, France. CIRLEP, Presses Universitaires de Reims, pp.59-87, 2003, Recherches en Linguistique et Psychologie cognitive, 20. 〈halshs-00168992〉

Partager

Métriques

Consultations de la notice

245

Téléchargements de fichiers

152