Caractérisation de textes à contenu idéologique : statistique textuelle ou extraction se syntagme ? l'exemple du projet PRINCIP - HAL Accéder directement au contenu
Communication dans un congrès Année : 2004

Caractérisation de textes à contenu idéologique : statistique textuelle ou extraction se syntagme ? l'exemple du projet PRINCIP

Résumé

La demande pressante des institutions en matière de protection des usagers contre les contenus illicites ou préjudiciables sur Internet (racisme, xénophobie, pédophilie) invite à dépasser les systèmes de filtrage automatique conventionnels basés sur des listes de mots-clés ou des annuaires d'adresse préétablies, peu efficaces et exigeant de fréquentes mises à jour. L'objectif de la plate-forme multilingue de détection de pages web racistes et révisionnistes PRINCIP est de mettre en oeuvre une analyse sémantique globale, multi-critères, et différentielle des documents reposant à la fois sur les statistiques textuelles, l'extraction de syntagmes, et les propositions théoriques de la sémantique de François Rastier. Nous présentons ici les résultats obtenus dans cette optique en combinant l'utilisation de deux outils distincts, Lexter (Didier Bourigault) et Hyperbase (Etienne Brunet).
Fichier principal
Vignette du fichier
Valette_et_Grabar_2004.pdf ( 292.75 Ko ) Télécharger
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

halshs-00150110, version 1 (29-05-2007)

Identifiants

  • HAL Id : halshs-00150110 , version 1

Citer

Mathieu Valette, Natalia Grabar. Caractérisation de textes à contenu idéologique : statistique textuelle ou extraction se syntagme ? l'exemple du projet PRINCIP. Journées Internationales d'Analyse statistique des Données Textuelles (JADT), 2004, Louvain-la-Neuve, Belgique. pp.1106-1116. ⟨halshs-00150110⟩
240 Consultations
261 Téléchargements
Dernière date de mise à jour le 20/04/2024
comment ces indicateurs sont-ils produits

Partager

Gmail Facebook Twitter LinkedIn Plus