French CrowS-Pairs: Extension à une langue autre que l'anglais d'un corpus de mesure des biais sociétaux dans les modèles de langue masqués - Information, Langue Ecrite et Signée Accéder directement au contenu
Communication Dans Un Congrès Année : 2022

French CrowS-Pairs : Extending a challenge dataset for measuring social bias in masked language models to a language other than English

French CrowS-Pairs: Extension à une langue autre que l'anglais d'un corpus de mesure des biais sociétaux dans les modèles de langue masqués

Résumé

To widen the scope of bias studies in natural language processing beyond American English we introduce material for measuring social bias in language models against demographic groups in France. We extend the CrowS-pairs dataset with 1,677 sentence pairs in French that cover stereotypes in ten types of bias. 1,467 sentence pairs are translated from CrowS-pairs and 210 are newly crowdsourced and translated back into English. The sentence pairs contrast stereotypes concerning underadvantaged groups with the same sentence concerning advantaged groups. We find that four widely used language models favor sentences that express stereotypes in most bias categories. We report on the translation process and offer guidelines to further extend the dataset to other languages.
Afin de permettre l'étude des biais en traitement automatique de la langue au delà de l'anglais américain, nous enrichissons le corpus américain CrowS-pairs de 1 677 paires de phrases en français représentant des stéréotypes portant sur dix catégories telles que le genre. 1 467 paires de phrases sont traduites à partir de CrowS-pairs et 210 sont nouvellement recueillies puis traduites en anglais. Selon le principe des paires minimales, les phrases du corpus contrastent un énoncé stéréotypé concernant un groupe défavorisé et son équivalent pour un groupe favorisé. Nous montrons que quatre modèles de langue favorisent les énoncés qui expriment des stéréotypes dans la plupart des catégories. Nous décrivons le processus de traduction et formulons des recommandations pour étendre le corpus à d'autres langues. Attention : Cet article contient des énoncés de stéréotypes qui peuvent être choquants.
Fichier principal
Vignette du fichier
Evaluating_bias_in_masked_language_models_in_multiple_languages_VF.pdf (182.19 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03680574 , version 1 (28-05-2022)

Identifiants

  • HAL Id : hal-03680574 , version 1

Citer

Aurélie Névéol, Yoann Dupont, Julien Bezançon, Karën Fort. French CrowS-Pairs: Extension à une langue autre que l'anglais d'un corpus de mesure des biais sociétaux dans les modèles de langue masqués. Conférence sur le Traitement Automatique des Langues Naturelles (TALN), Jun 2022, Avignon, France. ⟨hal-03680574⟩
511 Consultations
159 Téléchargements

Partager

Gmail Facebook X LinkedIn More