Caractérisation de textes à contenu idéologique : statistique textuelle ou extraction se syntagme ? l'exemple du projet PRINCIP

Mathieu Valette; Natalia Grabar

Communication dans un congrès Année : 2004

Caractérisation de textes à contenu idéologique : statistique textuelle ou extraction se syntagme ? l'exemple du projet PRINCIP

(1) , (2)

1
2

Mathieu Valette

Fonction : Auteur
PersonId : 176576
IdHAL : mathieu-valette
ORCID : 0000-0002-4098-6543
IdRef : 072271361

Analyse et Traitement Informatique de la Langue Française

Natalia Grabar

Fonction : Auteur
PersonId : 6735
IdHAL : natalia-grabar
ORCID : 0000-0002-0237-4554
IdRef : 089015460

Direction des systèmes d'information

Résumé

La demande pressante des institutions en matière de protection des usagers contre les contenus illicites ou préjudiciables sur Internet (racisme, xénophobie, pédophilie) invite à dépasser les systèmes de filtrage automatique conventionnels basés sur des listes de mots-clés ou des annuaires d'adresse préétablies, peu efficaces et exigeant de fréquentes mises à jour. L'objectif de la plate-forme multilingue de détection de pages web racistes et révisionnistes PRINCIP est de mettre en oeuvre une analyse sémantique globale, multi-critères, et différentielle des documents reposant à la fois sur les statistiques textuelles, l'extraction de syntagmes, et les propositions théoriques de la sémantique de François Rastier. Nous présentons ici les résultats obtenus dans cette optique en combinant l'utilisation de deux outils distincts, Lexter (Didier Bourigault) et Hyperbase (Etienne Brunet).

Mots clés

Lexter extraction de syntagmes Hyperbase statistique textuelle sémantique interprétative détection filtrage classification automatique texte idéologique

Domaines

Linguistique

Liste complète des métadonnées

Format du dépôt	Fichier
Type de dépôt	Communication dans un congrès
Titre	fr Caractérisation de textes à contenu idéologique : statistique textuelle ou extraction se syntagme ? l'exemple du projet PRINCIP
Résumé	fr La demande pressante des institutions en matière de protection des usagers contre les contenus illicites ou préjudiciables sur Internet (racisme, xénophobie, pédophilie) invite à dépasser les systèmes de filtrage automatique conventionnels basés sur des listes de mots-clés ou des annuaires d'adresse préétablies, peu efficaces et exigeant de fréquentes mises à jour. L'objectif de la plate-forme multilingue de détection de pages web racistes et révisionnistes PRINCIP est de mettre en oeuvre une analyse sémantique globale, multi-critères, et différentielle des documents reposant à la fois sur les statistiques textuelles, l'extraction de syntagmes, et les propositions théoriques de la sémantique de François Rastier. Nous présentons ici les résultats obtenus dans cette optique en combinant l'utilisation de deux outils distincts, Lexter (Didier Bourigault) et Hyperbase (Etienne Brunet).
Auteur(s)	Mathieu Valette ¹ , Natalia Grabar ² 1 ATILF - Analyse et Traitement Informatique de la Langue Française ( 190838 ) - Université de Lorraine, 44 Av de la Libération, BP 30687 54063 Nancy Cedex - France Université de Lorraine ( 413289 ) ; Centre National de la Recherche Scientifique UMR7118 ( 441569 ) 2 DSI - Direction des systèmes d'information ( 1819 ) - 1 Place Aristide Briand 92195 MEUDON CEDEX - France Centre National de la Recherche Scientifique UPS837 ( 441569 )
Vulgarisation	Non
Comité de lecture	Oui
Actes	Oui
Invité	Non
Langue du document	Français
Titre de l'ouvrage	Le poids des mots ; actes des 7èmes Journées Internationale d'Analyse statistique des Données Textuelles(JADT), 10-12 mars 2004, Louvain-la-Neuve / Gérard Purnelle, Cédrick Fairon, Anne Dister (eds)
Audience	Non spécifiée
Date de publication	2004
Page/Identifiant	1106-1116
Titre du congrès	Journées Internationales d'Analyse statistique des Données Textuelles (JADT)
Date début congrès	2004
Ville	Louvain-la-Neuve
Pays	Belgique
Domaine(s)	Sciences de l'Homme et Société/Linguistique
Éditeur commercial	UCL-Presses Universitaires de Louvain
Mots-clés	fr Lexter, extraction de syntagmes, Hyperbase, statistique textuelle, sémantique interprétative, détection, filtrage, classification automatique, texte idéologique

Fichier principal

Valette_et_Grabar_2004.pdf ( 292.75 Ko )

Origine : Fichiers produits par l'(les) auteur(s)

Dominique Schloupt : Connectez-vous pour contacter le contributeur

https://shs.hal.science/halshs-00150110

Soumis le : mardi 29 mai 2007 à 14:58:31

Dernière modification le : lundi 11 septembre 2023 à 18:22:03

Archivage à long terme le : jeudi 8 avril 2010 à 18:13:15

Dates et versions

halshs-00150110, version 1 (29-05-2007)

Identifiants

HAL Id : halshs-00150110 , version 1

Citer

Mathieu Valette, Natalia Grabar. Caractérisation de textes à contenu idéologique : statistique textuelle ou extraction se syntagme ? l'exemple du projet PRINCIP. Journées Internationales d'Analyse statistique des Données Textuelles (JADT), 2004, Louvain-la-Neuve, Belgique. pp.1106-1116. ⟨halshs-00150110⟩

Exporter

BibTeX TEI Dublin Core DC Terms EndNote Datacite

Collections

CNRS ATILF UNIV-LORRAINE CAMPUS-AAR AAI

240 Consultations

261 Téléchargements

Dernière date de mise à jour le 20/04/2024

Caractérisation de textes à contenu idéologique : statistique textuelle ou extraction se syntagme ? l'exemple du projet PRINCIP

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager