Extraction automatisée de lignes et de fragments textuels dans les images de manuscrits d'auteur du XIXe siècle

Résumé : Dans cet article on propose une nouvelle approche pour l'enrichissement des éditions électroniques de corpus littéraires grâce à l'estimation de la structure des documents manuscrits. Dans tout processus d'analyse de document manuscrit l'analyse de la structure est une étape importante : en effet, disposer de la position des lignes de texte, des paragraphes et des fragments permet d'envisager de nouveaux moyen d'exploiter les corpus littéraires. L'extraction de structure d'un document manuscrit est rendu difficile par les variations d'orientation de la ligne de base et des espaces interligne mais également par les chevauchements entre lignes et les occlusions. On propose un algorithme d'extraction des lignes de texte et des fragments textuels basé sur une analyse en composante connexes. Une fois l'extraction des composantes connexes réalisée on construit un graphe d'adjacences pondéré et orienté : chaque composante connexe correspond a un noeud. Chaque noeud est l'origine de 4 arcs les reliant à ses plus proches voisins dans 4 directions : gauche, droite, haut et bas. En parallèle et via une approche similaire chaque composante connexe est identifiée comme appartenant à une des classes suivantes : haut de page, bas de page, gauche, droite ou intérieur du texte. Cette identification permet d'initialiser l'algorithme d'extraction des lignes qui utilise une recherche du plus court chemin entre connexité gauche et droite sur le graphe orienté décrit précédemment. L'extraction des fragments est ensuite réalisée via une fusion des lignes extraites par rapport à des critères de distance interligne et de variation d'orientation de la ligne de base.
Complete list of metadatas

https://halshs.archives-ouvertes.fr/halshs-00443548
Contributor : Vincent Malleron <>
Submitted on : Wednesday, December 30, 2009 - 2:36:11 PM
Last modification on : Tuesday, January 29, 2019 - 5:00:55 PM

Identifiers

  • HAL Id : halshs-00443548, version 1

Citation

Vincent Malleron, Stéphanie Dord-Crouslé, Véronique Eglin, Hubert Emptoz, Philippe Régnier. Extraction automatisée de lignes et de fragments textuels dans les images de manuscrits d'auteur du XIXe siècle. MAnifestation des JEunes Chercheurs en Sciences et Technologies de l'Information et de la Communication, Nov 2009, Avignon, France. ⟨halshs-00443548⟩

Share

Metrics

Record views

300