Lettres, mots, textes - Clefs d'accès à l'écrit numérique

Résumé : Les moteurs de recherche en texte intégral font partie des outils centraux pour l'anayse littéraire sur corpus numérique. Une introduction simple aux techniques usuelles (indexation par fichier inverse, modèle de l'espace vectoriel) permet de comprendre sur quoi reposent les différents modes d'accès au texte et de prendre en compte les biais induits par le traitement automatique. Avec une approche linguistique, on examine en particulier dans le détail le fonctionnement et la signification de l'ensemble des opérateurs booléens courants issus des langages documentaires (troncature, ET, OU, etc.), pour en maîtriser et adapter l'utilisation pour l'interrogation du texte intégral. On explique pourquoi certaines propositions novatrices (interrogation en langage naturel, pondération manuelle des mots-clés, tri par pertinence décroissante, représentations cartographiques...) peuvent s'avérer contre-productives, et supposent a minima un utilisateur averti. Le texte intégral se prête en définitive à trois approches dont il faut cultiver la complémentarité : il peut être vu comme une suite de lettres (perspective graphique), donnant notamment accès à certaines propriétés morphologiques quelquefois intéressantes en contexte multilingue ; le texte peut être naturellement analysé comme formé d'unités lexicales articulées syntaxiquement ; mais cette seconde persective ne doit pas occulter un point de vue textuel, qui restitue aux unités linguistiques les contextes conditionnant leur composition et leur interprétation.
Liste complète des métadonnées

Cited literature [10 references]  Display  Hide  Download

https://halshs.archives-ouvertes.fr/halshs-00168992
Contributor : Bénédicte Pincemin <>
Submitted on : Tuesday, April 21, 2009 - 5:16:09 PM
Last modification on : Friday, January 4, 2019 - 5:33:00 PM
Document(s) archivé(s) le : Monday, June 27, 2011 - 4:47:58 PM

File

pincemin_reims01.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : halshs-00168992, version 1

Collections

Citation

Bénédicte Pincemin. Lettres, mots, textes - Clefs d'accès à l'écrit numérique. Journée scientifique "Sensibilisation aux outils informatiques et statistiques d'aide à l'analyse des textes", Feb 2001, Reims, France. pp.59-87. ⟨halshs-00168992⟩

Share

Metrics

Record views

260

Files downloads

194