Skip to Main content Skip to Navigation
Conference papers

Maîtriser les déluges de données hétérogènes

Résumé : Le traitement automatique des langues fait de plus en plus appel à de volumineux corpus textuels pour l'acquisition des connaissances. L'obstacle actuel n'est plus la disponibilité de corpus, ni même leur taille, mais l'hétérogénéité des données qui sont rassemblées sous ce nom. Dans cet article, nous examinons l'hétérogénéité que manifestent les articles du Monde quand on les regroupe selon les rubriques de la rédaction du journal. Les conséquences d'une telle hétérogénéité pour l'étiquetage et le parsage sont soulignées. Partant de ce constat, nous définissons la notion de "profilage de corpus" par le biais d'outils permettant d'évaluer l'homogénéité d'un corpus (sur-emploi du vocabulaire, de catégories morpho-syntaxiques, ou de patrons) et l'utilisation qui peut en être faite.
Complete list of metadatas

Cited literature [2 references]  Display  Hide  Download

https://halshs.archives-ouvertes.fr/halshs-00151841
Contributor : Serge Heiden <>
Submitted on : Friday, June 15, 2007 - 2:52:58 PM
Last modification on : Thursday, December 10, 2020 - 12:32:01 PM
Long-term archiving on: : Thursday, April 8, 2010 - 6:57:48 PM

File

taln1999.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : halshs-00151841, version 1

Citation

Serge Heiden, Pierre Lafon, Gabriel Illouz, Benoît Habert, Serge Fleury, et al.. Maîtriser les déluges de données hétérogènes. 1999, Cargèse, Italie. pp.37-46. ⟨halshs-00151841⟩

Share

Metrics

Record views

414

Files downloads

364