Océriser les imprimés du XVIe siècle en langue française - HAL Accéder directement au contenu
Communication dans un congrès Année : 2024

Océriser les imprimés du XVIe siècle en langue française

Résumé

Depuis quelques années, la philologie computationnelle a ouvert la voie à de nouvelles approches pour l'étude des textes médiévaux et modernes. Ces approches nécessitent cependant des données en grande quantité que l'on ne peut obtenir qu'en extrayant les textes à partir des fac-similés numériques. Pour ce faire, la recherche a besoin d'outils efficaces, s'appuyant sur des guides qui garantissent une interopérabilité maximale entre les différents états d'une langue (ancien français, moyen français, etc.) et les différents types de textes (manuscrits, imprimés, etc.). Cet article se concentre sur la production imprimée du XVIe siècle, en langue française et en caractères gothiques, en prenant pour cas d'étude un corpus romand. Nous proposons deux modèles qui améliorent l'état de l'art actuel : l'un pour l'analyse de la mise en page et l'autre pour l'OCR. Ces modèles s'appuient sur un vocabulaire contrôlé pour la description des pages et sur un guide de transcription pour les textes en gothique.
Fichier principal
Vignette du fichier
Humanistica_2024_Solfrini.pdf ( 6.94 Mo ) Télécharger
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-04555002, version 1 (22-04-2024)

Licence

Paternité - CC BY 4.0

Identifiants

  • HAL Id : hal-04555002 , version 1

Citer

Sonia Solfrini, Simon Gabay, Maxime Humeau, Ariane Pinche, Pierre-Olivier Beaulnes, et al.. Océriser les imprimés du XVIe siècle en langue française : Le cas d'un corpus romand en caractères gothiques. Humanistica 2024, Association francophone des humanités numériques, May 2024, Meknès, Maroc. ⟨hal-04555002⟩
0 Consultations
0 Téléchargements
comment ces indicateurs sont-ils produits

Partager

Gmail Facebook Twitter LinkedIn Plus