TyPTex : Inductive typological text classification by multivariate statistical analysis for NLP systems tuning/evaluation
Serge Heiden
(1)
,
Sophie Prévost
(2)
,
Benoît Habert
(2, 3)
,
Helka Folch
(3)
,
Serge Fleury
(4)
,
Gabriel Illouz
(3)
,
Pierre Lafon
(1)
,
Julien Nioche
(5)
1
ICAR -
Interactions, Corpus, Apprentissages, Représentations
2 LaTTice - Langues, textes, traitement informatique, cognition
3 LIMSI - Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur
4 SYLED - SYLED - Systèmes Linguistiques, Énonciation et Discursivité - EA 2290
5 Department of Computer Sciences [Scheffield]
2 LaTTice - Langues, textes, traitement informatique, cognition
3 LIMSI - Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur
4 SYLED - SYLED - Systèmes Linguistiques, Énonciation et Discursivité - EA 2290
5 Department of Computer Sciences [Scheffield]
Serge Heiden
- Fonction : Auteur
- PersonId : 7692
- IdHAL : serge-heiden
- ORCID : 0000-0003-4682-7647
- IdRef : 111293383
Sophie Prévost
- Fonction : Auteur
- PersonId : 11364
- IdHAL : sprevost
- ORCID : 0000-0003-3623-3482
- IdRef : 059781904
Serge Fleury
- Fonction : Auteur
- PersonId : 6773
- IdHAL : serge-fleury
- IdRef : 203040503
Résumé
The increasing use of methods in natural language processing (NLP) which are based on huge corpora require that the lexical, morpho-syntactic and syntactic homogeneity of texts be mastered. We have developed a methodology and associate tools for text calibration or "profiling" within the ELRA benchmark called "Contribution to the construction of contemporary french corpora" based on multivariate analysis of linguistic features. We have integrated these tools within a modular architecture based on a generic model allowing us on the one hand flexible annotation of the corpus with the output of NLP and statistical tools and on the other hand retracing the results of these tools through the annotation layers back to the primary textual data. This allows us to justify our interpretations.
Format du dépôt | Fichier |
---|---|
Type de dépôt | Communication dans un congrès |
Titre |
en
TyPTex : Inductive typological text classification by multivariate statistical analysis for NLP systems tuning/evaluation
|
Résumé |
en
The increasing use of methods in natural language processing (NLP) which are based on huge corpora require that the lexical, morpho-syntactic and syntactic homogeneity of texts be mastered. We have developed a methodology and associate tools for text calibration or "profiling" within the ELRA benchmark called "Contribution to the construction of contemporary french corpora" based on multivariate analysis of linguistic features. We have integrated these tools within a modular architecture based on a generic model allowing us on the one hand flexible annotation of the corpus with the output of NLP and statistical tools and on the other hand retracing the results of these tools through the annotation layers back to the primary textual data. This allows us to justify our interpretations.
|
Auteur(s) |
Serge Heiden
1
, Sophie Prévost
2
, Benoît Habert
2, 3
, Helka Folch
3
, Serge Fleury
4
, Gabriel Illouz
3
, Pierre Lafon
1
, Julien Nioche
5
1
ICAR -
Interactions, Corpus, Apprentissages, Représentations
( 51028 )
- 5, av Pierre Mendès-France 69676 BRON CEDEX
- France
2
LaTTice -
Langues, textes, traitement informatique, cognition
( 1242 )
- 1 rue Maurice Arnoux 92120 Montrouge
- France
3
LIMSI -
Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur
( 247329 )
- Université Paris-Sud Bât. 507 - Rue du Belvédère -91405 ORSAY CEDEX
- France
4
SYLED -
SYLED - Systèmes Linguistiques, Énonciation et Discursivité - EA 2290
( 107737 )
- 13 rue de Santeuil 75231 PARIS Cedex 05
- France
5
Department of Computer Sciences [Scheffield]
( 90620 )
- The Department of Computer Science University of Scheffield Regent Court 211 Portobello Sheffield, S1 4DP. UNITED KINGDOM. Tel: +44 (0) 114 222 1800 Fax: +44 (0) 114 222 1810
- Royaume-Uni
|
Vulgarisation |
Non
|
Comité de lecture |
Oui
|
Actes |
Oui
|
Invité |
Non
|
Langue du document |
Anglais
|
Nom de la revue |
|
Titre de l'ouvrage |
Maria Gavrilidou, George Carayannis, Stella Markantonatou, Stelios Piperidis, Gregory Stainhaouer (éds) Second International Conference on Language Resources and Evaluation
|
Audience |
Non spécifiée
|
Date de publication |
2000
|
Page/Identifiant |
p. 141-148
|
Titre du congrès |
Maria Gavrilidou, George Carayannis, Stella Markantonatou, Stelios Piperidis, Gregory Stainhaouer (éds) Second International Conference on Language Resources and Evaluation
|
Date début congrès |
2000
|
Domaine(s) |
|
Mots-clés |
en
TyPTex, Inductive typological text classification, multivariate statistical analysis, NLP systems
|
Loading...