La production de corpus d'occitan médiéval et prémoderne - HAL-SHS - Sciences de l'Homme et de la Société Accéder directement au contenu
Communication Dans Un Congrès Année : 2017

Producing Corpora of Medieval and Premodern Occitan

La production de corpus d'occitan médiéval et prémoderne

Jean-Baptiste Camps

Résumé

At a time when the quantity of - more or less freely - available data is increasing significantly, thanks to digital corpora, editions or libraries, the development of data mining tools or deep learning methods allows researchers to build a corpus of study tailored for their research, to enrich their data and to exploit them. Open optical character recognition (OCR) tools can be adapted to old prints, incunabula or even manuscripts, with usable results, allowing the rapid creation of textual corpora. The alternation of training and correction phases makes it possible to improve the quality of the results by rapidly accumulating raw text data. These can then be structured, for example in XML/TEI, and enriched. The enrichment of the texts with graphic or linguistic annotations can also be automated. These processes, known to linguists and functional for modern languages, present difficulties for languages such as Medieval Occitan, due in part to the absence of big enough lemmatized corpora. Suggestions for the creation of tools adapted to the considerable spelling variation of ancient languages will be presented, as well as experiments for the lemmatization of Medieval and Premodern Occitan. These techniques open the way for many exploitations. The much desired increase in the amount of available quality texts and data makes it possible to improve digital philology methods, if everyone takes the trouble to make their data freely available online and reusable. By exposing different technical solutions and some micro-analyses as examples, this paper aims to show part of what digital philology can offer to researchers in the Occitan domain, while recalling the ethical issues on which such practices are based.
À l’heure où la quantité de données disponibles, plus ou moins librement, s’accroît de manière importante, grâce aux corpus, éditions ou bibliothèques numériques, le développement d’outils de fouille de données ou de méthodes d’apprentissage profond permet au chercheur de se constituer un corpus d’étude adapté à ses recherches, d’enrichir ses données et des les exploiter. Des outils ouverts de reconnaissance optique des caractères peuvent être adaptés à un imprimé ancien, un incunable, voire un manuscrit, avec des résultats exploitables, autorisant la constitution rapide de corpus textuels. L’alternance de phases d’entraînement et de correction permet de faire progresser la qualité des résultats, en accumulant rapidement des données textuelles brutes. Celles-ci peuvent ensuite être structurées, par exemple en xml/tei, et enrichies. L’enrichissement par des annotations graphiques ou linguistiques connaît également des automatisations. Ces procédés, connus des linguistes et fonctionnels pour les langues modernes, posent des difficultés pour des langues comme l’occitan médiéval, dues en partie à l’absence de corpus lemmatisés conséquents. Des pistes pour la création d’outils adaptés à la grande variabilité graphique des états anciens de langue, seront présentées, ainsi que des expérimentations pour la lemmatisation de l’occitan médiéval et prémoderne. Ces techniques ouvrent la porte à de nombreuses exploitations. L’augmentation, tant souhaitée, de la quantité de textes et données de qualité disponibles, permet le progrès des méthodes de philologie numérique, si tant est que chacun prenne la peine de rendre ses données librement disponibles en ligne et réutilisables. Par l’exposition de différentes solutions techniques et de quelques micro-analyses à titre d’exemple, cette communication entend montrer une partie de ce que la philologie numérique peut offrir au chercheur en domaine occitan, tout en rappelant les enjeux éthiques sur lesquels reposent de telles pratiques.
Fichier principal
Vignette du fichier
AIEO_Camps_Couffignal_2017_actes.pdf (1.79 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

halshs-02050089 , version 1 (22-04-2019)

Identifiants

Citer

Jean-Baptiste Camps, Gilles Guilhem Couffignal. La production de corpus d'occitan médiéval et prémoderne : problèmes et perspectives de travail. Actes du XIIe Congrès de l’Association internationale d’études occitanes Albi, 2017, Association internationale d'études occitanes (AIEO), Jul 2017, Albi, France. ⟨halshs-02050089⟩
165 Consultations
157 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More