Étiquetage morphosyntaxique avec PyNLPIR
Résumé
L’étiquetage morphosyntaxique (ou POS-tagging) est une étape habituelle dans la constitution d’un corpus textuel, assez étroitement liée à la langue dans laquelle le texte est écrit.
Il n’y a pas très longtemps, j’ai réalisé deux versions de l’étiquetage d’un corpus écrit en chinois, sous Python. Je vais donc partager successivement la façon dont j’ai procédé avec chacun des deux étiqueteurs, à savoir PyNLPIR (implémentation Python du logiciel NLPIR/ICTCLAS) et Jieba.
Loading...