Datorlingvistik
Datorlingvistikgruppen vid Uppsala universitet forskar om datormodeller för naturligt språk och praktiska tillämpningar av språkteknologi.
Datorlingvistik, eller språkteknologi, är ett tvärvetenskapligt forskningsfält som sysslar med datormodeller av naturligt språk. Traditionellt har forskningen drivits både av det teoretiska målet att förstå det mänskliga språket och av praktiska tillämpningar såsom system för automatisk översättning, informationssökning och människa-dator-dialog. För närvarande påverkas området starkt av framväxten av stora språkmodeller och generativ AI.
Datorlingvistikgruppen vid Uppsala universitet bedriver forskning inom ett brett fält med två fokusområden: digital filologi och flerspråkig språkteknologi. Digital filologi handlar om datormetoder för tolkning av text, med tillämpningar som historisk textanalys, historisk kryptografi, digitala litteraturstudier och handskriftsigenkänning. Flerspråkig språkteknologi handlar både om inherent flerspråkiga tillämpningar som maskinöversättning och om användningen av flerspråkiga resurser för att stödja resurssvaga språk exempelvis för grammatisk dependensanalys. Gruppen har bidragit till utvecklingen av ett antal språkresurser och verktyg, såsom Universal Dependencies (morfosyntaktiskt annoterade korpusar), PARSEME (korpusar med annotering av flerordsuttryck), Swedish Diachronic Corpus, UUParser (datadriven grammatisk dependensanalys).
Medlemmar i gruppen
Meriem Beloucif, associate senior lecturer
Mats Dahllöf, senior lecturer
Luise Dürlich, PhD student
Ellinor Lindqvist, PhD student
Beata Megyesi, professor
Irene Miani, PhD student
Joakim Nivre, professor
Eva Pettersson, researcher
Ahmed Ruby, PhD student
Johan Sjons, lecturer
Sara Stymne, senior lecturer
Anna Sågvall Hein, professor emerita
Fredrik Wahlberg, associate senior lecturer
Oreen Yousuf, PhD student
Publikationer
Author gender and text characteristics in contemporary Swedish fiction
Ingår i Language and Literature, s. 69-100, 2024
Branch-GAN: Improving Text Generation with (not so) Large Language Models
Ingår i The Twelfth International Conference on Learning Representations, 2024
Continual Learning Under Language Shift
Ingår i Text, Speech, and Dialogue, s. 71-84, 2024
Continual Learning Under Language Shift
Ingår i Text, Speech, and Dialogue (TSD 2024), 2024
Ingår i Proceedings of the 8th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature (LaTeCH-CLfL 2024), s. 253-263, 2024
ELOQUENT CLEF Shared Tasks for Evaluation of Generative Language Model Quality
Ingår i Advances in Information Retrieval (ECIR 2024), 2024
Function Words in Universal Dependencies
Ingår i Linguistic Analysis, s. 549-588, 2024
Investigating the Role of Prosody in Disambiguating Implicit Discourse Relations in Egyptian Arabic
s. 926-930, 2024
Keys with nomenclatures in the early modern Europe
Ingår i Cryptologia, s. 97-139, 2024
Models and Strategies for Russian Word Sense Disambiguation: A Comparative Analysis
Ingår i Text, Speech, and Dialogue (TSD 2024), 2024
Orden som avslöjar författaren
Ingår i Språktidningen, s. 55-57, 2024
Overview of ELOQUENT 2024 – Shared Tasks for Evaluating Generative Language Model Quality
Ingår i Experimental IR Meets Multilinguality, Multimodality, and Interaction (CLEF 2024), 2024
Overview of the CLEF-2024 Eloquent Lab: Task 2 on HalluciGen
Ingår i Working Notes of the Conference and Labs of the Evaluation Forum (CLEF 2024), s. 691-702, 2024
European Language Resources Association, 2024
Relation between Cross-Genre and Cross-Topic Transfer in Dependency Parsing
Ingår i Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), s. 13879-13884, 2024
Ingår i Selected papers from the CLARIN Annual Conference 2023, 2024
UCxn: Typologically Informed Annotation of Constructions Atop Universal Dependencies
Ingår i Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), s. 16919-16932, 2024
UniDive: A COST Action on Universality, Diversity and Idiosyncrasy in Language Technology
Ingår i Proceedings of the 3rd Annual Meeting of the Special Interest Group on Under-resourced Languages @ LREC-COLING 2024, s. 372-382, 2024
Using LLMs to Build a Database of Climate Extreme Impacts
Ingår i Proceedings of the 1st Workshop on Natural Language Processing Meets Climate Change (ClimateNLP 2024), s. 93-110, 2024
AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages
Ingår i Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, s. 13968-13981, 2023
BERTie Bott's Every Flavor Labels: A Tasty Introduction to Semantic Role Labeling for Galician
Ingår i Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, s. 10892-10902, 2023
Historical Language Models in Cryptanalysis: Case Studies on English and German
Ingår i Proceedings of the 6th International Conference on Historical Cryptology HistoCrypt 2023, 2023
Improving Translation Quality for Low-Resource Inuktitut with Various Preprocessing Techniques
Ingår i Proceedings of the 14th International Conference on Recent Advances in Natural Language Processing, s. 475-479, 2023
Investigating UD Treebanks via Dataset Difficulty Measures
Ingår i Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics, s. 1076-1089, 2023
Low-Resource Techniques for Analysing the Rhetorical Structure of Swedish Historical Petitions
Ingår i Proceedings of the Second Workshop on Resources and Representations for Under-Resourced Languages and Domains (RESOURCEFUL-2023), s. 132-139, 2023
Multilingual Automatic Speech Recognition for Scandinavian Languages
Ingår i Proceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa), s. 460-466, 2023
On the Concept of Resource-Efficiency in NLP
Ingår i Proceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa), s. 135-145, 2023
Ingår i Proceedings of the 19th Workshop on Multiword Expressions (MWE 2023), s. 24-35, 2023
PARSEME Meets Universal Dependencies: Getting on the Same Page in Representing Multiword Expressions
Ingår i Northern European Journal of Language Technology (NEJLT), 2023
Parser Evaluation for Analyzing Swedish 19th–20th Century Literature
Ingår i Proceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa), s. 335-346, 2023
2023
SemEval-2023 Task 12: Sentiment Analysis for African Languages (AfriSenti-SemEval)
Ingår i Proceedings of the 17th International Workshop on Semantic Evaluation (SemEval-2023), s. 2319-2337, 2023
2023
Towards Data-effective Educational Question Generation with Prompt-based Learning
Ingår i Proceedings of 2023 Computing Conference, 2023
UD-MULTIGENRE: a UD-Based Dataset Enriched with Instance-Level Genre Annotations
Ingår i Proceedings of the 3rd Workshop on Multi-lingual Representation Learning (MRL), s. 253-267, 2023
Ingår i Proceedings of the 4th Workshop on Computational Approaches to Discourse (CODI 2023), s. 126-144, 2023
Ingår i Proceedings of the 17th International Workshop on Semantic Evaluation (SemEval-2023), s. 1491-1497, 2023
Using Wikidata for Enhancing Compositionality in Pre-trained Language Models
Ingår i Proceedings of the 14th International Conference on Recent Advances in Natural Language Processing, s. 170-178, 2023
What Causes Unemployment?: Unsupervised Causality Mining from Swedish Governmental Reports
Ingår i Proceedings of the Second Workshop on Resources and Representations for Under-Resourced Languages and Domains (RESOURCEFUL-2023), s. 25-29, 2023
What is the Code for the Code?Historical Cryptology Terminology
Ingår i Proceedings of the 6th International Conference on Historical Cryptology HistoCrypt 2023, 2023
Ingår i Language Resources and Evaluation, s. 1075-1102, 2022
- DOI för A Tale of Four Parsers: Methodological Reflections on Diagnostic Evaluation and In-Depth Error Analysis for Meaning Representation Parsing
- Ladda ner fulltext (pdf) av A Tale of Four Parsers: Methodological Reflections on Diagnostic Evaluation and In-Depth Error Analysis for Meaning Representation Parsing
Cause and Effect in Governmental Reports: Two Data Sets for Causality Detection in Swedish
Ingår i Proceedings of the First Workshop on Natural Language Processing for Political Sciences (PoliticalNLP), s. 46-55, 2022
Exploring Cross-Lingual Transfer to Counteract Data Scarcity for Causality Detection
Ingår i WWW '22, s. 501-508, 2022
Ingår i Pattern Recognition Letters, s. 43-49, 2022
Identifying Cleartext in Historical Ciphers
Ingår i Proceedings of the Workshop on Language Technologies for Historical and Ancient Languages. LT4HALA 2022., 2022
Lost in Transcription of Graphic Signs in Ciphers
Ingår i Proceedings of the 5th International Conference on Historical Cryptology. HistoCrypt 2022, s. 153-158, 2022
Nucleus Composition in Transition-Based Dependency Parsing
Ingår i Computational Linguistics, s. 849-886, 2022
Proceedings of the 5th International Conference on Historical Cryptology
2022
Quotation and Narration in Contemporary Popular Fiction in Swedish: Stylometric Explorations
Ingår i Proceedings of the 6th Digital Humanities in the Nordic and Baltic Countries Conference (DHNB 2022), s. 203-211, 2022
Schrödinger's tree: On syntax and neural language models
Ingår i Frontiers in Artificial Intelligence, 2022
Kontakt
- info@lingfil.uu.se