HAL will be down for maintenance from Friday, June 10 at 4pm through Monday, June 13 at 9am. More information
Skip to Main content Skip to Navigation
Conference papers

Lettres, mots, textes - Clefs d'accès à l'écrit numérique

Résumé : Les moteurs de recherche en texte intégral font partie des outils centraux pour l'anayse littéraire sur corpus numérique. Une introduction simple aux techniques usuelles (indexation par fichier inverse, modèle de l'espace vectoriel) permet de comprendre sur quoi reposent les différents modes d'accès au texte et de prendre en compte les biais induits par le traitement automatique. Avec une approche linguistique, on examine en particulier dans le détail le fonctionnement et la signification de l'ensemble des opérateurs booléens courants issus des langages documentaires (troncature, ET, OU, etc.), pour en maîtriser et adapter l'utilisation pour l'interrogation du texte intégral. On explique pourquoi certaines propositions novatrices (interrogation en langage naturel, pondération manuelle des mots-clés, tri par pertinence décroissante, représentations cartographiques...) peuvent s'avérer contre-productives, et supposent a minima un utilisateur averti. Le texte intégral se prête en définitive à trois approches dont il faut cultiver la complémentarité : il peut être vu comme une suite de lettres (perspective graphique), donnant notamment accès à certaines propriétés morphologiques quelquefois intéressantes en contexte multilingue ; le texte peut être naturellement analysé comme formé d'unités lexicales articulées syntaxiquement ; mais cette seconde persective ne doit pas occulter un point de vue textuel, qui restitue aux unités linguistiques les contextes conditionnant leur composition et leur interprétation.
Complete list of metadata

Cited literature [10 references]  Display  Hide  Download

https://halshs.archives-ouvertes.fr/halshs-00168992
Contributor : Bénédicte Pincemin Connect in order to contact the contributor
Submitted on : Tuesday, April 21, 2009 - 5:16:09 PM
Last modification on : Tuesday, January 25, 2022 - 3:50:48 AM
Long-term archiving on: : Monday, June 27, 2011 - 4:47:58 PM

File

pincemin_reims01.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : halshs-00168992, version 1

Citation

Bénédicte Pincemin. Lettres, mots, textes - Clefs d'accès à l'écrit numérique. Journée scientifique "Sensibilisation aux outils informatiques et statistiques d'aide à l'analyse des textes", Feb 2001, Reims, France. pp.59-87. ⟨halshs-00168992⟩

Share

Metrics

Record views

137

Files downloads

129