Les ressources annotées, un enjeu pour l'analyse de contenu : vers une méthodologie de l'annotation manuelle de corpus. (Annotated resources, a key issue in content analysis : towards a methodology for manual corpus annotation)

Karën Fort
2012-12-07
Abstract:L'annotation manuelle de corpus est devenue un enjeu fondamental pour le Traitement Automatique des Langues (TAL). En effet, les corpus annotes sont utilises aussi bien pour creer que pour evaluer des outils de TAL. Or, le processus d'annotation manuelle est encore mal connu et les outils proposes pour supporter ce processus souvent mal utilises, ce qui ne permet pas de garantir le niveau de qualite de ces annotations. Nous proposons dans cette these une vision unifiee de l'annotation manuelle de corpus pour le TAL. Ce travail est le fruit de diverses experiences de gestion et de participation a des campagnes d'annotation, mais egalement de collaborations avec differents chercheur(e)s. Nous proposons dans un premier temps une methodologie globale pour la gestion de campagnes d'annotation manuelle de corpus qui repose sur deux piliers majeurs : une organisation des campagnes d'annotation qui met l'evaluation au cœur du processus et une grille d'analyse des dimensions de complexite d'une campagne d'annotation. Un second volet de notre travail a concerne les outils du gestionnaire de campagne. Nous avons pu evaluer l'influence exacte de la pre-annotation automatique sur la qualite et la rapidite de correction humaine, grâce a une serie d'experiences menee sur l'annotation morpho-syntaxique de l'anglais. Nous avons egalement apporte des solutions pratiques concernant l'evaluation de l'annotation manuelle, en donnant au gestionnaire les moyens de selectionner les mesures les plus appropriees. Enfin, nous avons mis au jour les processus en œuvre et les outils necessaires pour une campagne d'annotation et instancie ainsi la methodologie que nous avons decrite.
What problem does this paper attempt to address?