Towards Innovative Resources for Medieval Latin - HAL-SHS - Sciences de l'Homme et de la Société Accéder directement au contenu
Article Dans Une Revue Archivum Latinitatis Medii Aevi Année : 2016

Towards Innovative Resources for Medieval Latin

Bruno Bon

Résumé

The medieval civilisation of Europe can only be investigated indirectly, by means of the diligent study of numerous traces that have survived to our times. The best source of our knowledge is still numerous surviving texts, due both to their huge quantity and surprising variety. Written mainly in Medieval Latin, within a social context that had nothing in common either with ancient or our own times, they have not benefited as they deserve from recent advances in computational linguistics or text mining. This is due, among other things, to the generally poor quality of existing resources, inadequate design of user search interfaces and unsatisfactory application of Natural Language Processing and Digital Humanities methods to the study of ancient texts. To challenge this situation we propose to build a large, representative and balanced corpus of Medieval Latin texts composed between 500 and 1500 AD all across Europe. The corpus will be annotated with PoS, lemma, time and place labels and enriched by linking it closely to a collection of dictionaries and encyclopaedias. For both textual and lexicographical resources, tools allowing efficient statistical analysis and data visualisation will be developed, aimed at revealing cultural and societal patterns that are still to be discovered from the Latin words.
Le millénaire médiéval, qui représente la moitié de notre histoire, n’est accessible qu’à travers l’analyse approfondie des vestiges qui nous en sont parvenus. Les historiens n’ont d’autre choix que d’observer soigneusement les nombreux textes qui constituent l’essentiel de leurs sources. Il leur est donc indispensable de pouvoir comprendre ces textes, essentiellement en latin médiéval, produits dans un contexte social très éloigné de la période antique (malgré une ressemblance formelle), et dont l’étude n’a pas encore pleinement profité des progrès récents en linguistique de corpus et en text mining. La raison en incombe, entre autres, à la faible qualité des ressources existantes, à l’inadaptation des interfaces disponibles, et à une application insuffisante des procédures de traitement automatique des langues aux textes anciens. Pour répondre à cette situation, nous proposons de créer un corpus textuel représentatif de mille ans de littérature pan-européenne (de 500 à 1500), avec annotation des lemmes et des parties du discours, étiquetage chronologique et géographique, et de rassembler quelques dictionnaires disponibles pour cette langue. Pour exploiter ces données textuelles et lexicographiques, nous développerons des outils d’analyse statistique et de visualisation, destinés à faire apparaître les rapports de sens entre les mots, dont les plus importants sont généralement invisibles.
Fichier non déposé

Dates et versions

halshs-01895046 , version 1 (13-10-2018)

Identifiants

  • HAL Id : halshs-01895046 , version 1

Citer

Bruno Bon. Towards Innovative Resources for Medieval Latin. Archivum Latinitatis Medii Aevi, 2016, 74, pp.373-383. ⟨halshs-01895046⟩
84 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More