Stora datamängder kräver nya verktyg
Mängden data har ökat enormt under de senaste tio åren. Allt mer information lagras digitalt och blir tillgänglig för många. Samtidigt ökar behovet av verktyg för att analysera alla dessa data och skapa ny kunskap. Det gäller inte minst inom biologin, där den nya teknologin lett till en explosion av data.
– Det är ett helt nytt arbetssätt som har vuxit fram de senaste tio åren, säger Ola Spjuth.
Han är forskare vid SciLifeLab i Uppsala och leder projektet Uppnex. De har byggt upp stora datorresurser för det som kallas ”nästa generations sekvensering” – alltså storskalig genanalys.
Tekniken gör det möjligt att på kort tid få fram DNA-sekvensen ur prover från människor, växter och djur. Det är användbart inom cancerforskning, läkemedelsforskning och biologi – och genererar massor av data.
– En körning på ett prov kan generera flera miljarder baser (bokstäverna A,T,C och G) och det är inte precis som att läsa en bok utan kräver dagar, veckor eller i vissa fall månader av beräkningar, säger Ola Spjuth.
– Helt plötsligt badade forskarna i data, det stod hårddiskar i travar på labbänkarna och man kom överens om att gå samman för att försöka lösa problemen.
Vid Uppsala universitet fanns redan Uppmax, med högpresterande datorer som servade forskare inom till exempel fysik och kemi. 2010 byggdes serverhallen ut med Uppnex för biologisk forskning. Det är den del som har expanderat snabbast och som fortfarande växer.
Nyligen invigdes en ny serverhall på SciLifeLab som är direkt kopplad till Uppnex. Allt som allt finns i dag data från över 800 olika projekt och en lagringskapacitet på 7 petabyte, vilket motsvarar 7 000 gånger mer än vad som ryms på en typisk hårddisk.
– Vi har nyligen ökat beräkningskapaciteten tre gånger och lagringskapaciteten fem gånger och förutom att köpa in datorer byggt upp en hög kompetens, säger Ola Spjuth.
De nya tekniska möjligheterna har lett till massor av nya forskningsresultat, till exempel kartläggningen av hundens och flugsnapparens genom. Inom medicin används sekvensering för att öka kunskapen om cancer, ärftliga sjukdomar och resistenta bakterier.
Rent praktiskt går det till så att forskarna skickar sitt prov till sekvenseringsplattformen, som efter sekvensering lagrar och analyserar resultaten på Uppnex. Sedan får forskarna ett projektkonto där de kan logga in. De arbetar alltså vidare med sina data på Uppnex istället för i sin egen dator.
– Det har varit lyckat, eftersom vi har stort fokus på användarna. Det här skiljer sig från högpresterande beräkningar inom fysik, där forskarna är mer självgående. Helt plötsligt har vi hundratals biologer som behöver använda tekniken men som inte kan så mycket om datorer, säger Ola Spjuth.
Han berättar att de satsar mycket på support och utbildning. Tillsammans med SciLifeLab ger de en kurs där forskarna får lära sig grunderna i att använda storskaliga datorsystem samt pröva att logga in och använda Uppnex.
– Den brukar vara överbokad. Väldigt många forskargrupper anställer bioinformatiker nu, men även forskningsledarna behöver förstå hur det fungerar.
Många projekt pågår under lång tid. Att kartlägga genomet hos en organism är till exempel bara en startpunkt för fortsatta studier. Ola Spjuth ser framför sig att datamängden kommer att fortsätta öka.
– Projekten blir större och allt fler vill sekvensera. Samtidigt går det fortare och vi kan få ut mer och mer data. Under analyserna så växer projekten upp till 5-10 gånger på diskarna och biologer vill gärna spara alla sina data. Det är en stor utmaning att kunna skala upp lagring och analyser.
Utvecklingen ställer alltså nya krav på forskningsinfrastrukturen. Det gäller både möjligheten att lagra data och att analysera informationen.
– Vi kommer att behöva utveckla nya metoder och verktyg, säger Ingela Nyström.
Hon är professor vid institutionen för informationsteknologi och koordinator för Essence, en strategisk forskningssatsning som drivs från Uppsala universitet. Även Lunds och Umeå universitet är med i satsningen.
– Essence samlar forskare som vill höja sin forskning med e-vetenskapliga metoder. För att det ska fungera krävs stark forskning både inom ämnesområdet och inom metodutveckling, säger Ingela Nyström.
Hon ser framför sig att forskningen kommer att kunna besvara helt nya frågor nu när det blir möjligt att bearbeta större datormängder.
– Men också gamla problem, som forskare lagt i byrålådan för tio år sedan, kan nu plockas fram. Om det tidigare gick att studera 100 molekyler behövdes kanske 1 miljon molekyler för att få en realistisk bild. För tio år sedan gick det inte, men idag kan vi göra mycket mer fullskaliga experiment.
Essence delfinansierar 25-30 olika projekt och satsar varje år 26 miljoner kronor på forskning inom ett brett spann av områden, från materialfysik till lingvistik. Gemensamt för alla dessa är att de använder sig av stora datamängder, men också att de behandlar dem på ett kvalificerat sätt.
– E-vetenskap är något mer än standardmetoden. Alla våra forskare inom Essence använder sig av något datorcenter och behöver något mer än det som står på skrivbordet.
Till exempel behövs datorstöd för att sortera ut vad som är relevanta data och att snabbt hitta viktig information. När det gäller beräkningar handlar det om att göra så mycket som möjligt parallellt och samtidigt hålla koll på beräkningarna så att eventuella fel hålls under kontroll..
Visionen för Essence är att bygga upp en ”verktygslåda” för forskare som kan användas för att skräddarsy lösningar för just det problem som ska lösas. Och här kan forskare dra nytta av att samarbeta och dela med sig med varandra.
– Har man skapat metoder som fungerar för ett problem så fungerar det kanske på ett annat, säger Ingela Nyström.
En av experterna på området är Sverker Holmgren, professor vid institutionen för informationsteknologi. Han har länge forskat kring datorbaserade verktyg och metoder och de senaste åren har behoven förändrats radikalt. Om det från början handlade om smarta beräkningar och simuleringar handlar det nu också om hur stora datormängder ska hanteras och analyseras.
Det talas det om ”big data” och explosionen av data från en massa olika källor är en ny utmaning för IT-forskarna.
– Datorsimuleringar är en etablerad verksamhet, nu gäller det att utveckla analysen av data, hur man ska lagra data och hantera dem. Det behövs metadata som beskriver data och att man är överens om hur de ska märkas. Det är en helt ny värld!
Data ska inte bara bevaras utan också göras tillgängliga för forskningen. Han har själv kopplingar till ”Research Data Alliance”, ett globalt projekt som handlar om att bygga upp ett ”internet” för forskare där forskningsdata kan lagras och samtidigt göras tillgängliga för andra.
– Det kräver att data märks upp på samma sätt med en gemensam standard.
Han ser stora utmaningar framför sig och framför allt handlar det om att jobba mera tvärvetenskapligt.
– Det behövs helt nya verktyg och vi behöver koppla ihop de olika användningsområdena med beräkningsvetenskap och matematik. Här spelar Essence en viktig roll.
Själva basen, forskningsinfrastrukturen, är densamma inom olika ämnesområden, men sedan krävs det att varje forskningsfält byggs på med sina egna metoder och verktyg.
– Hårddiskarna och datorerna är desamma men ju längre du kommer upp ju mer specifika blir de olika områdena. De närmaste åren kommer vi att behöva utveckla en helt ny typ av verktyg, och då räcker det inte med kortsiktiga mål.
Det anser också Ola Spjuth på SciLifeLab. Han har forskat kring framtiden för biologisk forskning och vad som krävs för att hänga med i utvecklingen.
– Biologer kräver mycket mera lagringsutrymme än traditionella användare. De jobbar ofta med stora mängder av mindre delproblem som kräver mycket arbetsminne för att bearbeta. De är mer otåliga också, medan fysiker är vana vid att det tar tid vill biologer att det ska gå fort.
Ett sätt att lagra stora datormängder är att göra som Google och sprida ut data över alla datorer. Då kan man skicka beräkningarna till olika ställen och räkna parallellt.
– Inom genomforskning är det inte lika lätt att dela upp informationen eftersom mycket hänger ihop, till exempel inom en kromosom, så det krävs mer avancerade metoder om det ska bli användbart.
För forskare av idag är det ett måste att hänga med i utvecklingen.
– Vi försöker hålla oss i framkant med de metoder vi använder. Har vi inte de senaste programmen tillgängliga så kommer svenska forskare automatiskt att ligga ett halvår efter dem vid forskningens frontlinje, säger Ola Spjuth.
---
FAKTA/ Datorresurser i Uppsala
UPPMAX (Uppsala Multidisciplinary Center for Advanced Computational Science) är Uppsala universitets resurs för högpresterande datorer, storskalig lagring och kompetens inom högpresterande datoranvändning. Grundades 2003 som ett av sex center inom den nationella infrastrukturen SNIC (Swedish National Infrastructure for Computing), som Uppsala universitet står som värd för.
UPPNEX står för "UPPmax NEXt generation sequencing Cluster & Storage" och är ett projekt vid UPPMAX, som erbjuder beräknings- och lagringsresurser som nationell resurs inom nästa generations sekvensering (NGS) primärt inom Science for Life Laboratory (SciLifeLab).
eSSENCE är ett strategiskt forskningsprogram i e-vetenskap som drivs i samverkan mellan Uppsala universitet, Lunds universitet och Umeå universitet. eSSENCE startades på initiativ av regeringen, som ville stödja forskning som var strategiskt viktig för samhället och industrin. Visionen är att lyfta svensk e-vetenskap till högsta internationella nivå, genom att bygga en kreativ forskningsmiljö där nya verktyg och applikationer utvecklas. eSSENCE samverkar också med industrin.
Annica Hulth