Корпус и отворен софтвер за автоматска обработка на македонскиот јазик: примери од Gate Developper
Corpus et outils open source pour le traitement automatique de la langue macédonienne: l'exemple de Gate Developper
Résumé
Во последните дваесетина години, интересот за автоматската обработка на природните јазици во македонската научна фела постојано се зголемува. Потребата од користење софтвер за третман и обработка на пишани текстови, како и на говорни секвенции од природниот јазик е голема, не само во областа на македонската лингвистика туку и во други домени, како на пример, интернет-пребарувањето, кое се чини, станува составен дел од секојдневjето на сите генерации. Од таа гледна точка, автоматската обработка на јазикот не претставува само апстрактна област во која лингвистите си поигруваат со компјутерите, туку составен дел од нашето секојдневjе. Сепак, изработката на еден ваков вид софтвер бара многу време и ресурси (не само финансиски туку и човечки и научни), исто толку колку и обуката на корисниците што ќе се служат со него. Во тесна врска со компјутерската лингвистика е и корпус-лингвистиката чија цел е да ги проучува јазиците врз основа на корпуси од еден јазик. Спротивно на постојните размислувања, македонскиот јазик не е единствениот јазик што не располага со „национален корпус“. Впрочем, и еден „голем“ јазик како францускиот нема еден единствен корпус што би можеле да го оквалификуваме како таков, бидејќи француската школа претполага дека секој пишан или кажан дискурс е дел од еден глобален корпус, кој може да се истражува со цел да се најдат константите и варијантите на јазикот. Во оваа статија ќе се осврнеме на неколку корисни функционалности на софтверот Gate Developper со кој може да се врши обработка на секаков вид пишани корпуси во UTF-8 поддршка.
Origine : Fichiers produits par l'(les) auteur(s)
Loading...