Datorlingvistik
Datorlingvistikgruppen vid Uppsala universitet forskar om datormodeller för naturligt språk och praktiska tillämpningar av språkteknologi.
Datorlingvistik, eller språkteknologi, är ett tvärvetenskapligt forskningsfält som sysslar med datormodeller av naturligt språk. Traditionellt har forskningen drivits både av det teoretiska målet att förstå det mänskliga språket och av praktiska tillämpningar såsom system för automatisk översättning, informationssökning och människa-dator-dialog. För närvarande påverkas området starkt av framväxten av stora språkmodeller och generativ AI.
Datorlingvistikgruppen vid Uppsala universitet bedriver forskning inom ett brett fält med två fokusområden: digital filologi och flerspråkig språkteknologi. Digital filologi handlar om datormetoder för tolkning av text, med tillämpningar som historisk textanalys, historisk kryptografi, digitala litteraturstudier och handskriftsigenkänning. Flerspråkig språkteknologi handlar både om inherent flerspråkiga tillämpningar som maskinöversättning och om användningen av flerspråkiga resurser för att stödja resurssvaga språk exempelvis för grammatisk dependensanalys. Gruppen har bidragit till utvecklingen av ett antal språkresurser och verktyg, såsom Universal Dependencies (morfosyntaktiskt annoterade korpusar), PARSEME (korpusar med annotering av flerordsuttryck), Swedish Diachronic Corpus, UUParser (datadriven grammatisk dependensanalys).
Medlemmar i gruppen
Meriem Beloucif, associate senior lecturer
Mats Dahllöf, senior lecturer
Luise Dürlich, PhD student
Ellinor Lindqvist, PhD student
Beata Megyesi, professor
Irene Miani, PhD student
Joakim Nivre, professor
Eva Pettersson, researcher
Ahmed Ruby, PhD student
Johan Sjons, lecturer
Sara Stymne, senior lecturer
Anna Sågvall Hein, professor emerita
Fredrik Wahlberg, associate senior lecturer
Oreen Yousuf, PhD student
Publikationer
Author gender and text characteristics in contemporary Swedish fiction
Ingår i Language and Literature, s. 69-100, 2024
Keys with nomenclatures in the early modern Europe
Ingår i Cryptologia, s. 97-139, 2024
Orden som avslöjar författaren
Ingår i Språktidningen, s. 55-57, 2024
Ingår i Selected papers from the CLARIN Annual Conference 2023, 2024
A Study of Continual Learning Under Language Shift
2023
AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages
Ingår i Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, s. 13968-13981, 2023
BERTie Bott's Every Flavor Labels: A Tasty Introduction to Semantic Role Labeling for Galician
Ingår i Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, s. 10892-10902, 2023
Historical Language Models in Cryptanalysis: Case Studies on English and German
Ingår i Proceedings of the 6th International Conference on Historical Cryptology HistoCrypt 2023, 2023
Improving Translation Quality for Low-Resource Inuktitut with Various Preprocessing Techniques
Ingår i Proceedings of the 14th International Conference on Recent Advances in Natural Language Processing, s. 475-479, 2023
Investigating UD Treebanks via Dataset Difficulty Measures
Ingår i Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics, s. 1076-1089, 2023
Low-Resource Techniques for Analysing the Rhetorical Structure of Swedish Historical Petitions
Ingår i Proceedings of the Second Workshop on Resources and Representations for Under-Resourced Languages and Domains (RESOURCEFUL-2023), s. 132-139, 2023
Multilingual Automatic Speech Recognition for Scandinavian Languages
Ingår i Proceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa), s. 460-466, 2023
On the Concept of Resource-Efficiency in NLP
Ingår i Proceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa), s. 135-145, 2023
Ingår i Proceedings of the 19th Workshop on Multiword Expressions (MWE 2023), s. 24-35, 2023
PARSEME Meets Universal Dependencies: Getting on the Same Page in Representing Multiword Expressions
Ingår i Northern European Journal of Language Technology (NEJLT), 2023
Parser Evaluation for Analyzing Swedish 19th–20th Century Literature
Ingår i Proceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa), s. 335-346, 2023
2023
SemEval-2023 Task 12: Sentiment Analysis for African Languages (AfriSenti-SemEval)
Ingår i Proceedings of the 17th International Workshop on Semantic Evaluation (SemEval-2023), s. 2319-2337, 2023
2023
Towards Data-effective Educational Question Generation with Prompt-based Learning
Ingår i Proceedings of 2023 Computing Conference, 2023
UD-MULTIGENRE: a UD-Based Dataset Enriched with Instance-Level Genre Annotations
Ingår i Proceedings of the 3rd Workshop on Multi-lingual Representation Learning (MRL), s. 253-267, 2023
Ingår i Proceedings of the 17th International Workshop on Semantic Evaluation (SemEval-2023), s. 1491-1497, 2023
Using Wikidata for Enhancing Compositionality in Pre-trained Language Models
Ingår i Proceedings of the 14th International Conference on Recent Advances in Natural Language Processing, s. 170-178, 2023
What Causes Unemployment?: Unsupervised Causality Mining from Swedish Governmental Reports
Ingår i Proceedings of the Second Workshop on Resources and Representations for Under-Resourced Languages and Domains (RESOURCEFUL-2023), s. 25-29, 2023
What is the Code for the Code?Historical Cryptology Terminology
Ingår i Proceedings of the 6th International Conference on Historical Cryptology HistoCrypt 2023, 2023
Ingår i Language Resources and Evaluation, s. 1075-1102, 2022
- DOI för A Tale of Four Parsers: Methodological Reflections on Diagnostic Evaluation and In-Depth Error Analysis for Meaning Representation Parsing
- Ladda ner fulltext (pdf) av A Tale of Four Parsers: Methodological Reflections on Diagnostic Evaluation and In-Depth Error Analysis for Meaning Representation Parsing
Cause and Effect in Governmental Reports: Two Data Sets for Causality Detection in Swedish
Ingår i Proceedings of the First Workshop on Natural Language Processing for Political Sciences (PoliticalNLP), s. 46-55, 2022
Exploring Cross-Lingual Transfer to Counteract Data Scarcity for Causality Detection
Ingår i WWW '22, s. 501-508, 2022
Ingår i Pattern Recognition Letters, s. 43-49, 2022
Identifying Cleartext in Historical Ciphers
Ingår i Proceedings of the Workshop on Language Technologies for Historical and Ancient Languages. LT4HALA 2022., 2022
Lost in Transcription of Graphic Signs in Ciphers
Ingår i Proceedings of the 5th International Conference on Historical Cryptology. HistoCrypt 2022, s. 153-158, 2022
Nucleus Composition in Transition-Based Dependency Parsing
Ingår i Computational Linguistics, s. 849-886, 2022
Proceedings of the 5th International Conference on Historical Cryptology
2022
Quotation and Narration in Contemporary Popular Fiction in Swedish: Stylometric Explorations
Ingår i Proceedings of the 6th Digital Humanities in the Nordic and Baltic Countries Conference (DHNB 2022), s. 203-211, 2022
Schrödinger's tree: On syntax and neural language models
Ingår i Frontiers in Artificial Intelligence, 2022
SLäNDa Version 2.0: Improved and Extended Annotation of Narrative and Dialogue in Swedish Literature
Ingår i Proceedings of the 13th International Conference on Language Resources and Evaluation (LREC 2022), s. 5324-5333, 2022
Ingår i CLARIN, s. 561-585, Walter de Gruyter, 2022
The DECODE Database of Historical Ciphers and Keys: Version 2
Ingår i Proceedings of the 5th International Conference on Historical Cryptology. HistoCrypt 2022., s. 111-114, 2022
Ingår i Proceedings of the 16th International Workshop on Semantic Evaluation (SemEval-2022), s. 88-93, 2022
What Was Encoded in Historical Cipher Keys in the Early Modern Era?
Ingår i Proceedings of the 5th International Conference on Historical Cryptology. HistoCrypt 2022., 2022
A Mention-Based System for Revision Requirements Detection
Ingår i Proceedings of the 1st Workshop on Understanding Implicit and Underspecified Language, s. 58-63, 2021
Attention Can Reflect Syntactic Structure (If You Let It)
Ingår i Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics, s. 3031-3045, 2021
Audiobook stylistics: Comparing print and audio in the bestselling segment
Ingår i Journal of Cultural Analytics, s. 1-30, 2021
Deciphering Papal Ciphers from the 16th to the 18th Century
Ingår i Cryptologia, s. 479-540, 2021
Investigation of Transfer Languages for Parsing Latin: Italic Branch vs. Hellenic Branch
Ingår i Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa), s. 315-320, 2021
Key Design in the Early Modern Era in Europe
Ingår i Proceedings of the 4th International Conference on Historical Cryptology (HistoCrypt 2021), 2021
Revealing Secrets from the Past: Studying Historical Ciphers.
2021
Revisiting Negation in Neural Machine Translation
Ingår i Transactions of the Association for Computational Linguistics, s. 740-755, 2021
SweLL Pseudonymization Guidelines
2021
SweLL transcription guidelines, L2 essays
2021
Kontakt
- info@lingfil.uu.se