Språk är svårt för Googles datorer
Datorer som kan tala som människor har funnits länge i science fiction-litteraturen. Men i verkligheten har det visat sig svårt att få datorer att begripa språkets alla nyanser. Joakim Nivre är professor i datorlingvistik och forskar på att lära datorer förstå språk bättre.
Joakim Nivre arbetar huvudsakligen med att lära datorer ta ut satsdelar. Han har nyligen varit gästforskare på Google för att hjälpa företaget att ta fram bättre språkanalysprogram.
– De metoder de använder bygger till stor del på min forskning.
I sökmotorernas början matchade man bara sökord mot webbsidor. Fanns ordet många gånger hamnade det högt upp i sökmotorn. Nu vill man komma åt mer av innehållet för att bland annat kunna bygga frågebesvarande system.
– Frågar någon "vilka köpte Nokia?" så räcker det inte att datorn kan hitta dokument där alla nyckelord finns. Den måste också kunna avgöra att Microsoft är subjekt och Nokia objekt.
Nästan alla sökbara texter har numera genomgått en grammatisk analys.
– Google exempelvis har sin egen kopia av webben, som uppdateras dagligen. Till varje sida lagrar de information om vad som finns, vilka ord som förekommer, extraherar fakta och vilka relationer de har. Sökfrågor och vad folk klickar på lagras också och matchas.
Att göra en språklig analys på hela webben innebär hantering av otroligt mycket data. Då är det viktigt att ha tillräckligt snabba algoritmer.
– Om man tar det program som har världsrekord i korrekt analys av engelska, så skulle det ta 300 år att analysera hela webben på en dator. Det är det jag jobbar med – att få fram tillräckligt snabba program utan att man förlorar för mycket i korrekthet.
Det finns en stor portion ironi inom just den grammatiska analysen. Det är ett av de mest data- och datorintensiva områdena. Men det är inte i första hand lagringsplats eller processorkraft som är den största flaskhalsen.
– För att programmen ska kunna lära sig att förstå texterna måste vi först mata dem med exempel-meningar märkta med en grammatisk analys. Så det måste sitta människor och märka upp tillräckligt mycket text.
I denna värld av data delar också forskarna på data i väldigt stor utsträckning.
– Det kan ge extra meriter i en publicering om man bidragit med data som artikeln bygger på och så.
Men det är svårare med data som företag äger, även om de också deltar i datautbytet, och data med upphovsrätt. En annan typ av problem är det med integritetsskyddade data som e-post och sms.
– Samtidigt visade exempelvis katastrofen på Haiti för några år sedan att sms var en viktig kanal för katastrofinformation. Då är det viktigt att automatiskt kunna analysera sådan text i realtid.
Kim Bergström