Ett Google för handskrifter

8 april 2015

En sida ur handskriften Codex Upsaliensis. Den innehåller främst den heliga Birgittas uppenbarelser i fornsvensk översättning. På den aktuella sidan inleds bok fem, den så kallade ”Frågornas bok”.

Att med datorns hjälp kunna analysera och söka i handskrivna texter skulle revolutionera forskningen inom de humanistiska ämnena. Nu pågår arbete med att utveckla en programvara som kan göra just detta.

Uppsala universitetsbibliotek har nyligen lanserat en digital plattform - Alvin - där digitaliserade verk från kulturarvssamlingarna nu samlas i en och samma databas. Att genom några enkla klick på datorn kunna söka i samlingarna öppnar nya möjligheter för forskare och andra intresserade.

– Att verken är sökbara via till exempel Google gör att man kan gå tillbaka i historiskt material och hitta nya infallsvinklar. Texterna behöver inte heller konsulteras på plats, vilket ger en ökad tillgänglighet, berättar Per Cullhed, utvecklingsstrateg vid Uppsala universitetsbibliotek.

När universitetsbiblioteket digitaliserar tryckta böcker från kulturarvssamlingarna använder man en programvara som gör om sidorna till digital text, så kallad Optical Character Recognition (OCR). Programvaran tolkar den tryckta informationen och gör den sökbar. När man har att göra med handskrifter handlar det i stället om HTR-teknik, handwritten text recognition. Det är en utveckling av den tekniken som det just nu pågår något av en kapplöpning om bland forskare världen över.

– Man vill gärna bli först med att hitta en programvara som fungerar. Om någon idag hade algoritmen för att göra storskaliga digitala sökningar i till exempel Vatikanbibliotekets samling av handskrifter skulle den säkert vara värd en miljard kronor. Marknadsvärdet är väldigt stort, men så är även uppgiften, säger Anders Brun, projektledare vid institutionen för informationsteknologi.

I det tvärvetenskapliga forskningsprojekt ”From Quill to Bytes”, som betyder ungefär ”Från gåspenna till digital information”, försöker Anders Brun och hans kollegor ta fram en metod som gör det möjligt att analysera och söka i stora mängder handskrivna texter. Det handlar om grundforskning som på längre sikt ska resultera i en färdig programvara.

– Vi brukar kalla det ett Google för handskrifter där man snabbt hittar det man söker trots att informationsmängden är enorm, säger han.

Projektet inleddes i januari 2013 och ska pågå i omkring fem år. Finansieringen utgörs främst av ett rambidrag från Vetenskapsrådet på 13,7 miljoner.

Fredrik Wahlberg, doktorand vid institutionen för informationsteknologi, arbetar just nu med medeltida handskrifter på fornsvenska i samarbetet med Mats Dahllöf, forskare i lingvistik och filologi, och Lasse Mårtensson, docent vid institutionen för nordiska språk. Senare i projektet ska de ta sig an den mer sentida Wallersamlingen som finns på universitetsbiblioteket.

– Texterna är väldigt svåra att tyda och det är absolut nödvändigt att samarbeta över ämnesgränserna om vi ska lyckas med det här, säger Fredrik Wahlberg.

Det konkreta arbetet handlar om textavkodning, en metod där datorn försöker tolka den digitala bilden av texten. Forskarna försöker undvika texttolkning eftersom handskriven text kan se väldigt olika ut beroende på vem som håller i pennan. I stället vill man lära datorn att tolka materialet.

– Med hjälp av experternas kunskaper försöker vi leda datorn rätt på en liten del av materialet och sedan automatisera detta, säger Fredrik Wahlberg.

Experternas kunskaper om vad som är intressant och hur olika skribenter skiljer sig åt hjälper dem gå vidare i arbetet.

– Datorn kan hjälpa oss, men den kan inte lösa alla problem. Det kommer fortfarande att behövas expertkunskap för att tolka materialet och göra korrigeringar, säger Anders Brun.

För den humanistiska forskningen skulle dock möjligheten att göra handskrifter sökbara i stor skala revolutionera arbetet och skapa nya förutsättningar.

– En sådan här programvara är lite av den heliga graalen för de forskare som vill bryta ny digital mark inom till exempel historia, religionsvetenskap och språkvetenskap. Det skulle innebära så otroligt mycket för forskningen, menar Anders Brun.

Prenumerera på Uppsala universitets nyhetsbrev

Namn
E-postadress
Senast uppdaterad: 2021-05-31