Dokumentera och organisera data
Väl dokumenterade och konsekvent organiserade data:
- Gör det lättare för dig själv och andra projektmedarbetare att samarbeta och hålla ordning på data under arbetets gång.
- Hjälper andra forskare som vill kunna återanvända dina data i ny forskning att göra det med så liten risk för fel som möjligt.
- Underlättar spårbarhet av data för att kunna förstå hur data har bearbetats och vad som ledde fram till ett visst resultat.
- Möjliggör verifiering och reproducerbarhet av publicerade resultat.
- Gör det enklare att förbereda data för publicering.
- Är en del av den dokumentation som kan behövas vid ansökan om patent.
Vad ska dokumenteras?
Vad som är relevant att dokumentera kan variera beroende på forskningsämne och metoder. Men dokumentation bör omfatta hur data har genererats och även beskriva prover, metoder, processer, källkod och andra verktyg så att forskningsprocessen kan reproduceras. Försök att följa principer och standarder inom din disciplin och befintliga rutiner för dokumentation, om sådana finns, på din institution eller i forskargruppen. Tänk på vad någon annan (eller du själv) behöver känna till för att kunna hitta, förstå, validera och analysera data.
Viktigt att beskriva är bland annat:
- hur data har samlats in, skapats eller modellerats
- hur olika datafiler och versioner organiseras
- vilka förändringar som görs mellan olika versioner av data
- betydelsen av olika koder, förkortningar, variabelnamn med mera
- vilka juridiska, etiska och eventuella andra restriktioner som begränsar hur data återanvänds.
Mycket av den övergripande informationen kan ges i en projektbeskrivning med tillhörande datahanteringsplan. Under projektet dokumenteras sedan forskningsprocessen och ändringar i metoder och datahantering beskrivs.
I en tidig fas i projektet bör man enas om principer för hur filer ska namnges, hur dessa organiseras och rutiner för versionering av data och tillhörande komponenter. Dokumentera logiken bakom strukturer och namngivning. Väl definierade rutiner för att organisera och dokumentera data gör det också lättare att regelbundet gå igenom och gallra material som inte längre behövs och inte ska bevaras långsiktigt.
Variabler och kolumnrubriker bör vara transparenta och möjliga att förstå. De bör även dokumenteras, exempelvis i en README-fil eller i en separat kodbok. Använd gärna enheter och benämningar som är standard inom din disciplin.
Uppsala universitet har en rekommenderad katalogstruktur som är anpassad till de krav på arkivering och offentlighet som ställs på universitet som myndighet. Katalogstrukturen är utformad så att materialet kan ordnas efter vad som ska arkiveras och bevaras permanent, vad som är gallringsbart vid en viss tidpunkt efter projektets slut och arbetsmaterial som kan gallras direkt efter projektslut.
Metadata
För att göra forskningsdata förståeliga och återanvändbara behöver de beskrivas. Använd om möjigt de metadatastandarder som finns inom det aktuella forskningsområdet. Metadata och metadatastandarder är centralt för de så kallade FAIR-principerna.
Vilka olika slags metadata finns det?
- Beskrivande: Information om datauppsättningens innehåll, gör det möjligt att hitta data, förstå hur data tagits fram och vem som gjort studien. Exempel på beskrivande metadata är; ämnesområde, nyckelord, metod, upphovsmän och ett beständigt id (ex. DOI-nummer) för datamängden.
- Administrativa: Administrativa metadata ger information om typ av data och hur de får användas. Filformat, rättigheter, versioner, licenser och copyright är exempel på administrativa data.
- Strukturella: Strukturella metadata beskriver hur data är organiserad så att de ska kunna användas av andra.Till exempel: information om variabler, kodlistor, filstruktur.
Metadatastandarder
Många discipliner har etablerade riktlinjer och standarder för beskrivande metadata. Dessa standarder underlättar harmonisering av data, anger vad som bör dokumenteras och anger praxis för struktur, format och beskrivningen av innehåll.Metadatastandarder är dokumenterade regler för att strukturera och formulera metadata. En standard har en målgrupp som har ett gemensamt intresse och en gemensam förståelse för sina data. De flesta metadatastandarder kan uttryckas i xml-format, vilket gör metadata maskinläsbar. De förenklar överföring av metadata mellan olika system och ger ökad sökbarhet.
En metadatastandard består av olika element, dvs bitar av information. Varje element består av namn och värde, där värdet är det som anges av den som beskriver metadata. Metadatastandarder kan också ha scheman som utgörs av regler för hur elementen ska ordnas. En metadatastandard är en vägledning för att åstadkomma en utförlig metadatabeskrivning, vilket är centralt för att uppfylla FAIR-principerna. Den gör dina metadatabeskrivningar läsbara och begripliga för både människa och maskin och förenklar att återanvända data i nya sammanhang. När du ska göra en metadatabeskrivning, välj en metadatastandard som är vedertagen inom ditt forskningsområde. Du kan ha nytta av att välja en metadatastandard tidigt i projektet, då det underlättar strukturering av data under projektets gång och förenklar långtidsbevarande och tillgängliggörande vid projektets slut.
Data- och metadatastandarder för olika discipliner och särskilda typer av data:
- Digital Curation Centre, DCC listar metadatastandarder och -typer utifrån forskningsfält: Disciplinary metadata (DCC)
- Fairsharing
- Research Data Alliances öppna samarbete för att ta fram en metadataförteckning på GitHub: RDA Metadata Directory
- Dublin Core är en etablerad metadatastandard som passar flertalet forskningsdomäner och även tvärvetenskapliga data: Dublin Core
- Om du registrerar data i DORIS (SND:s dataorganiserings- och informationssystem) används metadatastandarden The Data documentation initiative (DDI).