ANNIS
ANNIS (ANNotation of Information Structure) est une application permettant d’explorer des corpus linguistiques complexes. Elle répond au besoin d’interroger, de visualiser et d’annoter simultanément des données provenant de domaines aussi variés que la syntaxe, la sémantique, la morphologie, la prosodie, la référentialité, le lexique, etc. Pour les projets travaillant avec la langue parlée, le support des annotations audio / vidéo est également disponible.
Caractéristiques
ANNIS permet de traiter des corpus variés en ce qui concerne la modalité (langue écrite ou parlée, monologue ou dialogue) et l’unité de base (phrase ou discours). Le logiciel prend en charge Unicode, essentiel pour le traitement de jeux de caractères spéciaux (par exemple pour l’hindi, l’ancien haut allemand ou les langues africaines kwa). Le système prend également en charge les langues à écriture de droite à gauche, tel que l’arabe et l’hébreu.
ANNIS permet de réaliser des enquêtes textométriques et statistiques, comme les logiciels Hyperbase et TXM, mais intègre, contrairement à ces derniers, des fonctions permettant le traitement de sources audios et vidéos. Il excelle dans le travail avec des corpus linguistiques annotés et est complémentaire à IRaMuTeQ, application spécialisée dans l’analyse statistique et quantitative de textes.
L’application peut être utilisée en ligne ou installée sur un ordinateur.
Fonctionnement
Importation et exportation de textes
ANNIS supporte des données au format relANNIS et GraphML. Les extensions Pepper, Hexatomic et Salt permettent la conversion des données dans ces formats. Pepper permet de convertir des données de format PAULA XML?, EXMARaLDA XML, TigerXML, CoNLL, RSTTool, generic XML and TreeTagger.
Interrogation, conversion et manipulation des données
Les données originales formatées en XML ou d’autres formats sont compilées et stockées dans ANNIS au sein d’une base de données relationnelle (PostgreSQL), qui offre une évolutivité et une vitesse d’accès impossibles à atteindre pour une base de données XML, ainsi qu’un support RegEx natif. L’interrogation des données se fait avec AQL (ANNIS Query Language).
Annotations à différents niveaux
Les annotations sont créées à l’aide d’outils spécifiques. Les données peuvent être annotées à différents niveaux linguistiques : phonétique/phonologie, morphosyntaxe, sémantique et structure de l’information. Les types de données de l’annotation vont des paires attribut-valeur aux relations d’ensemble (par exemple pour l’annotation de la coréférence), aux relations dirigées/pointeurs (par exemple pour l’annotation des relations anaphoriques), aux arbres et aux graphiques (voir Visualisations).
Visualiser les différents types d’annotation
ANNIS répond a une exigence essentielle : la possibilité de visualiser et d’interroger les annotations sur plusieurs couches, chaque couche représentant un type d’information, par exemple, la transcription morphémique, les fonctions grammaticales, les accents de hauteur, etc. Les requêtes peuvent contraindre simultanément toutes ces couches et les relations entre elles, en employant des opérateurs pour la description des structures arborescentes topologiques ainsi que pour le chevauchement des portées.
Corpus comparés et interconnectés
Le système prend en charge des corpus parallèles alignés à tous les niveaux (c’est-à-dire que les mots, les phrases, les syntagmes, etc., peuvent être alignés), et chaque langue alignée peut avoir ses propres couches d’annotation.
Aide et tutoriels
Documentation officielle
Annis User guide (en)
Pepper, Hexatomic et Salt
Autres ressources (en)
Manuels et tutoriels
Stefanie Dipper et al. : ANNIS - A Linguistic Database
for Exploring Information Structure (2004)
Porteurs et partenaires
ANNIS a été conçu par l’université Humboldt (Berlin), le Corpus Linguistics Lab de la Georgetown University et l’Université de Potsdam pour donner accès aux données du projet SFB 632 - "Information Structure : The Linguistic Means for Structuring Utterances, Sentences and Texts".
Il a depuis été étendu à un grand nombre de projets.
Article publié le 18 décembre 2024 Dernière mise à jour : 8 septembre 2025
