Nyheter och press

Digital humaniora verktyg för historiker

Maria Ågren, professor i historia och Eva Pettersson, postdoktor i datorlingvistik.

Datorlingvist Eva Pettersson har utvecklat ett verktyg som ska underlätta för historiker att hitta det de söker i mycket gamla dokument. För projektet Gender and Work med professor Maria Ågren i spetsen är ett drömscenario att kunna göra det tidskrävande manuella arbetet effektivare med ett smart program.

Eva Petterssons språkteknologiska utvecklingsarbete i Gender and Work är också hennes doktorsavhandling. Under fyra års tid har hon tagit fram ett verktyg som både hon och Maria Ågren bedömer har potential.
– Jag har utvecklat en helhetslösning. Nu behöver den förfinas, berättar Eva Pettersson.
Forskarna tackar lingvist-kollegan Ingrid Almqvist som allra först såg att de två disciplinerna hade något att ge varandra.  De tycker att det är väldigt givande att arbeta över institutionsgränserna.
– Ofta vet vi inte vad vi har att erbjuda varandra, säger Eva Pettersson och Maria Ågren tillägger:
– För det krävs en mäklare, någon som får korn på möjligheterna.

Markerar verb om arbete

Eva Pettersson och Maria Ågren vet vad de vill uppnå med samarbetet – ett program som med mycket hög tillförlitlighet markerar alla verb i texten och dessutom rangordnar de verbfraser som handlar om arbete högst.
– Det vore drömmen, säger Maria Ågren.
Hennes forskarlag har ett mycket tidskrävande arbete. De går manuellt igenom handskrivna rättsprotokoll som kräver särskilda kurser i handskrift för att kunna läsas, identifierar verbfraser som beskriver arbete, skriver av materialet och sorterar in det i en databas. Idag finns 20 000 verbfraser i en öppen, sökbar databas.
– Tack vare stora forskningsanslag har vi kunnat arbeta många med detta i fem år. Men det finns enorma skillnader i förutsättningar att samla data mellan de naturvetenskapliga och de humanistiska disciplinerna. Därför är det väldigt viktigt att utveckla de digitala verktygen för oss, säger Maria Ågren.

Modellen tränas i stavning

Första steget i Eva Petterssons arbete var att manuellt översätta historisk stavning till modern stavning. Stavningsnormaliseringen blir så kallad träningsdata som ”lär” modellen hur historiska ord stavas i nutid. Det är nödvändigt för att taggare, de program som hittar ordklasser, ska hitta verben i de historiska texterna.
– De här två stegen har vi testat med goda resultat. De två följande stegen är mer komplicerade, att lära verktyget att hitta verbfraser och att sedan rangordna dem, berättar Eva Pettersson.
De program som används för att hitta de satsdelar som hör ihop med verbet, parsrar, har hon testat på de översatta texterna med viss framgång. Men historisk text kan till exempel ha en meningsbyggnad som programmen inte känner igen. Eva Pettersson arbetar med att förfina verktyget för att hitta satsdelar. Det gäller också rangordning. Forskarna vill vara säkra på att verbfraserna rangordnas efter relevans så att fraser som beskriver arbete kommer högst upp.

Inga tidsvinster ännu

Än så länge innebär verktyget inga tidsvinster. Men arbetet för att nå dit fortsätter.
– Eva använder det material vi skriver in för att träna sin modell och samtidigt får vi anledning att reflektera över våra manuellt framtagna resultat. Har vi kanske tänkt fel eller missat någon verbfras?
– Ett kanske ännu större problem att lösa för att vinna tid är hur handskrivna dokument ska kunna översättas till digital text automatiskt, utan manuellt arbete. Det är något vi ska undersöka framöver, säger Maria Ågren.

---

Fakta

Gender and Work undersöker hur män och kvinnor i Sverige försörjde sig mellan 1550 och 1800. Forskarna letar efter verbfraser som beskriver arbete i handskrivna rättsprotokoll. Ett intressant resultat visar att civilstånd hade större betydelse än könstillhörighet för vilken typ av försörjning människor hade. Projektledare Maria Ågren har nu fått förlängt anslag som Wallenberg Scholar med tre miljoner kronor per år i ytterligare fem år. Nästa steg är att utforska arbetslivet mellan 1720 och 1880. 

Läs mer

Unik databas ger nya kunskaper om arbetets historia

Lisa Thorsén

2016-10-28