Hur fungerar generativ AI?
Generativ AI är endast en del inom det större fältet maskininlärning, som i sin tur är en del av det övergripande fältet artificiell intelligens. Verktyg som bygger på generativ AI skapar nytt innehåll i form av text, bild, video m.m.
Hur fungerar AI-verktygen?
De olika verktygen genererar innehåll utifrån de instruktioner som de får av användarna, den s.k. prompten. Kvaliteten på instruktionerna är avgörande för resultatets kvalitet. Man kan t.ex. ange omfång på svaret, ange stil för en text eller en bild, precisera genom att ange att vissa saker ska uteslutas eller att vissa perspektiv som ska jämföras o.s.v. Beroende på graden av komplexitet levereras svaret vanligtvis inom loppet av några sekunder (för kortare texter) eller minuter (för bilder eller andra, större uppgifter). Vill man justera, eller förfina, eller utveckla resultatet, kan man ge uppföljande instruktioner.
Särskilt frågor som innehåller, och kan besvaras med mer strikt regelstyrd, formelartad text – programkod, matematiska formler – har goda förutsättningar att få bra svar, men översättningar mellan olika språk blir också hela tiden bättre och bättre, och överhuvudtaget är resultatet ofta - inte alltid! - imponerande.
Sannolikhet, inte sanning!
Grunden för allt detta är att de s.k. språkmodeller som utvecklats har tränats på att känna igen mönster i ofattbart stora mängder material - text, bilder etc. När sedan ett verktyg som använder någon av dessa språkmodeller får en prompt, tolkas frågan utifrån mönster: en fråga som innehåller dessa ord i denna följd bör sannolikt besvaras med dessa ord i denna följd (eller med t.ex. en bild med detta utseende; även bilder kan ingå i träningsdata). Det svar som genereras utgör på så vis ett antagande som bygger på statistisk sannolikhet - inte på någon egentlig förståelse av innehållet. Varje återkoppling på resultatet i form av nya prompter förfinar dessa antaganden.
Men processen kan alltså ibland leverera svar som innehåller helt falska påståenden, konstruerade för att uppfylla det som begärs i instruktionerna. Om man t.ex. ställer en fråga och ber att få ett svar som inkluderar referenser till relevanta källor, kan resultatet bli en lista där tidskrifternas namn, årgång och volymnummer är korrekta, men där de angivna artiklarna visar sig saknas om man kontrollerar referenserna. De är alltså helt och hållet påhittade, och går inte heller att hitta någon annanstans på nätet, medan andra referenser kan visa sig vara korrekta.
Allt fler verktyg fungerar dock också som sökmotorer, och söker inte enbart material i en sluten språkmodell. Tolkningen av prompten får dem att också leta efter information från det öppna internet för att besvara frågorna och uppmaningarna som de mottar. Men exakt hur ett svar kommit till kan vara svårt eller omöjligt att veta, och kvaliteten på de faktiska referenser som ges är inte alls garanterat god. Därför förblir grundprincipen för användarna att alltid se det resultat som de får fram som ett råmaterial, snarare än ett svar: det måste granskas kritiskt, värderas, och oftast justeras innan det kan komma till användning (eller ibland kasseras!).
Kommande utveckling
Generativ AI fortsätter att utvecklas. Redan nu finns förstärkt AI-stöd i program såsom Word, PowerPoint, Excel och likande. Det finns också redan verktyg för automatisk textning av videos, liksom av vad som sägs i onlinemöten, i realtid m.m. I takt med att mer material matas in i modellerna, och att allt fler använder verktygen, skriver allt mer detaljerade prompter och ger återkoppling på resultaten blir deras svar bättre och bättre.
Samtidigt kan man också se hur de stora, allmänna verktygen, som Microsofts Copilot eller Googles Gemini, får konkurrens av mindre, men mer specialiserade verktyg för specifika ändamål. Språkmodeller kan få specialträning (s.k. fine-tuning) för mer specifika ändamål, t.ex. för att ge återkoppling på akademiska texter, eller rätta tentor, eller skriva kod. Verktyg kan också begränsas så att inga träningsdata eller användaruppgifter lämnar den egna organisationen.