Coreference annotation with SACR, a new drag-and-drop based tool - HAL Accéder directement au contenu
Poster de conférence Année : 2017

Coreference annotation with SACR, a new drag-and-drop based tool

Annotation de la coréférence avec SACR, un nouvel outil reposant sur le drag-and-drop

Bruno Oberle
  • Fonction : Auteur
  • PersonId : 1028649

Résumé

Statistical methods in automatic language processing leads to an increased need for manually annotated corpora. But carefully annotated resources are costly. This is especially the case for corpora annotated with coreference chains (sets of all the linguistic expressions that refer to the same referent). It is thus necessary to look for the annotation strategy that requires the least effort from the annotator. Furthermore, since annotation of large corpora are often done by students, interns or non-technical users, the tool must be ready-to-use and the interface needs to be intuitive, without requiring a long training time. SACR is a new coreference chain annotation tool that has been developed with this idea in mind. Its user interface has been specifically designed to facilitate and speed up the annotation process. Coreference chain annotation requires at least two stages: delimiting and marking referring expressions (linguistic expressions that refer to an entity in the extralinguistic world); and linking coreferential expressions to build the chains. The first stage is done in SACR simply by clicking on the first and last tokens (either words or characters, depending on the needs or on the language) of the expression. For the second stage, most of the existing tools (e.g. Glozz [1]) require to define a set in advance for each chain, but a better strategy is to record the referent name for each referring expression; chains are computed afterwards, automatically: expressions with the same referent name are put in the same chain. This is the method used in the "Democrat" project, with TXM [2] and Analec [3]. SACR implements the second approach but let the user make coreference relations in the spirit of the first, so that the annotator is not required to type the referent name for each expression: a drag-and-drop operation is sufficient to copy the referent name to another expression. Shortcuts allow features to be annotated for each expression: the user has to press a key (e.g. "d" for a noun with a definite article) to set the feature; the program then goes automatically to the next expression. A keystroke is thus enough to annotate a feature. SACR has no module for automatic annotation, but its simple text data format allows easy conversion to and from other tools like chunkers or taggers, so that parts of speech, for example, can be easily added automatically outside SACR, and then checked in SACR. Visualization is an important part of SACR: marked expressions are surrounded by colored framed (one color per chain), allowing to view several levels of nested expressions. The user can search through a list of all the referents and expressions already annotated. This is helpful to link expressions that are coreferential but distant. Helper scripts have been written to convert to and from other common formats like Glozz or CONLL2011. This is necessary since SACR is dedicated to annotation: the user is expected to use other tools to perform analysis of the data. Written in HTML, CSS and JS, SACR is implemented as a simple web page. It is usable online (boberle.com/projects/sacr) and downloadable. It is open source and distributed under the terms of the MPL-2.0. [1] Widlöcher A., and Mathet Y. (2012). The Glozz Platform. In Proceedings of the 2012 ACM symposium. [2] Heiden, S. (2010). The TXM Platform. In 24th Pacific Asia Conference on Language, Information and Computation [3] Landragin, F., Poibeau, T., and Victorri, B. (2012). Analec. In Proceedings of LREC'12.
Les méthodes statistiques en traitement automatique des langues requièrent de larges corpus annotés à la main. De tels corpus sont toutefois onéreux, car ils demandent beaucoup de temps et de moyens humains. C'est notamment le cas pour les corpus annotés en chaînes de référence (i.e. l'ensemble des expressions linguistiques qui renvoient à un même référent). Il convient donc de chercher la méthode d'annotation qui demande le moins d'effort à l'annotateur, d'autant plus que ceux-ci sont souvent des étudiants ou des stagiaires. L'outil d'annotation se doit donc d'être utilisable immédiatement, intuitivement, sans nécessiter une longue phase d'apprentissage. SACR ("Script d'Annotation des Chaînes de Référence") est un nouvel outil qui a été développé et optimisé pour permettre une annotation rapide. L'annotation des chaînes de référence requiert au moins deux étapes: la délimitation des expressions référentielles (i.e. des expressions qui réfèrent à une entité extralinguistique), la mise en relation des expressions coréférentes afin de former les chaînes. Avec SACR, la première étape est simplement réalisée en cliquant sur le premier et le dernier tokens (mots ou caractères selon les besoins ou la langue) de l'expression. La deuxième étape est plus complexe. La plupart des outils (e.g. Glozz) demandent que soient définis a priori l'ensemble qui représente la chaîne. Cependant, une meilleure stratégie consiste à demander à l'annotateur d'indiquer, pour chaque expression référentielle, le nom du référent. Les chaînes sont calculées a posteriori: toutes les expressions qui ont le même nom de référent sont rassemblées dans la même chaîne. C'est la méthode utilisée dans le projet Democrat (avec TXM et Analec). SACR implémente la deuxième approche tout en laissant l'utilisateur faire des "liens": en fait, le nom du référent est copié d'une expression à l'autre au cours d'une opération de glisser-déposer. Il n'y a donc ni ensemble à prédéfinir, ni nom de référent à taper. Des raccourcis permettent d'annoter des propriétés pour chaque expression. Il suffit d'appuyer sur une touche (e.g. un "d" pour un syntagme nominal défini), puis le programme passe automatiquement à l'expression suivante. Ainsi, il n'y a qu'une seule frappe par annotation. SACR ne fait pas d'annotation automatique, mais son format de sortie très simple permet de le convertir et de se servir d'outils spécialisés, comme des chunkers ou des étiqueteurs. La catégorie grammaticale, par exemple, peut ainsi être annotée automatiquement à l'extérieur de SACR mais contrôler dans SACR. Pour bien visualiser les annotations, les expressions marquées sont entourées de cadres de couleur (une couleur par chaîne), ce qui permet de voir plusieurs niveaux d'expressions imbriquées. L'annotateur peut se servir d'une liste des référents et expressions déjà annotés, ce qui est pratique pour repérer les expressions qui sont coréférentes mais distantes. Des scripts auxiliaires permettent de convertir vers ou en provenance d'autres formats comme Glozz ou CONLL-2011. Cela est d'ailleurs nécessaire puisque SACR est dédié à l'annotation et il faut utiliser d'autres outils pour analyser les annotations. Écrit en HTML, CSS et JavaScript, SACR se présente comme une page web. Il est utilisable en ligne (http://boberle.com/projects/sacr) ou téléchargeable. Il est open-source et distribué sous la Mozilla Public License, version 2.0.
Fichier principal
Vignette du fichier
poster_eclavit_1-1-2.pdf ( 364.19 Ko ) Télécharger
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

halshs-01715467, version 1 (21-02-2020)

Identifiants

  • HAL Id : halshs-01715467 , version 1

Citer

Bruno Oberle. Coreference annotation with SACR, a new drag-and-drop based tool: Annotation of co-reference with SACR, a new “drag- and-drop” tool. Workshop Eclavit, Nov 2017, Marne-La-Vallée, France. 2017. ⟨halshs-01715467⟩
196 Consultations
41 Téléchargements
Dernière date de mise à jour le 07/04/2024
comment ces indicateurs sont-ils produits

Partager

Gmail Facebook Twitter LinkedIn Plus