Applied CL Discourse Research Lab
Le laboratoire œuvre pour la création et l’annotation de corpus de langue naturelle de différents genres, en mettant l’accent sur les données allemandes. La plupart des travaux sur les corpus et leur annotation se concentrent sur des phénomènes liés au discours.
Le laboratoire développe des langues de programmation et des bases de données adaptées aux textes de langue naturelle.
En 2000, il a conçu "XML? PAULA standoff" et la base de données linguistique ANNIS qui permet d’interroger et de visualiser des corpus multicouches. Sa version la plus récente, ANNIS3, a été construite avec les partenaires du projet à l’Université Humboldt de Berlin.
Le laboratoire a développé d’autres outils d’annotation spécifiques aux couches, ainsi qu’un cadre pour les conversions de format, en particulier pour l’annotation au niveau du discours :
- discoursegraphs : une bibliothèque de conversion et de fusion pour les formats d’annotation syntaxique et discursive (Tiger, PTB, RSTTool, MMAX, Connanno, EXMARaLDA) avec un support de sortie pour les formats de graphes génériques (neo4j, dot, GEXF, GML, GraphML),
- ConnAnno : un outil Java pour l’annotation semi-manuelle des connecteurs et de leurs arguments,
- GraPAT : un outil d’annotation basé sur les graphes et sur le web, adapté à l’annotation des sentiments et de la structure de l’argumentation.
Différents corpus ont été constitués et mis à disposition :
- Le corpus de commentaires de Potsdam (PCC) : un corpus de commentaires de journaux allemands annotés à plusieurs niveaux
- arg-microtexts : un corpus allemand-anglais de 112 courts textes argumentatifs annotés avec des structures d’argumentation
- Le Potsdam Twitter Sentiment Corpus (PotTS) : une collection de 8 000 tweets allemands annotés manuellement avec des relations de sentiment à grain fin.
Porteurs et partenaires
Le laboratoire de l’université de Potsdam a créé de nombreux partenariats autour de projets spécifiques. Il a reçu des financements de la DFG, de plusieurs ministères fédéraux et de la CE.
Article publié le 18 décembre 2024