Dokumentera och organisera data

Väl dokumenterade och konsekvent organiserade data:

  • Gör det lättare för dig själv och andra projektmedarbetare att samarbeta och hålla ordning på data under arbetets gång.
  • Hjälper andra forskare som vill återanvända dina data i ny forskning att göra det med så liten risk för fel som möjligt.
  • Underlättar spårbarhet av data för att kunna förstå hur data har bearbetats och vad som ledde fram till ett visst resultat.
  • Möjliggör felsökning samt verifiering och reproducering av studier
  • Gör det enklare att förbereda data för publicering.
  • Är en del av den dokumentation som kan behövas vid ansökan om patent.

Vad ska dokumenteras?

Vad som är relevant att dokumentera kan variera beroende på forskningsämne och metoder. Försök att följa principer och standarder inom din disciplin och befintliga rutiner för dokumentation om sådana finns på din institution eller i forskargruppen. Det som behöver dokumenteras är den information som någon annan (eller du själv) behöver känna till för att kunna hitta, förstå och analysera data på ett korrekt sätt. Viktigt att beskriva är bland annat

  • hur data har samlats in, skapats eller modellerats
  • hur olika datafiler och versioner organiseras
  • vilka förändringar som görs mellan olika versioner av data
  • betydelsen av olika koder, förkortningar, variabelnamn med mera
  • vilka olika definitioner som används för kodning och uppmärkning av material
  • vilka juridiska, etiska och eventuella andra restriktioner som begränsar hur data återanvänds.

Mycket av den övergripande informationen kan ges i en projektbeskrivning med tillhörande datahanteringsplan. Under projektet dokumenteras sedan forskningsprocessen och ändringar i metoder och datahantering beskrivs.

I en tidig fas i projektet bör man enas om principer för hur filer ska namnges, hur dessa organiseras och rutiner för versionering av data och tillhörande komponenter. Dokumentera logiken bakom strukturer och namngivning. Väl definierade rutiner för att organisera och dokumentera data gör det också lättare att regelbundet gå igenom och gallra material som inte längre behövs och inte ska bevaras långsiktigt.

Variabler och kolumnrubriker bör vara transparenta och möjliga att förstå. De bör även dokumenteras, exempelvis i en README-fil eller i en separat kodbok. Använd gärna enheter och benämningar som är standard inom din disciplin.

Uppsala universitet har en rekommenderad katalogstruktur som är anpassad till de krav på arkivering och offentlighet som ställs på universitet som myndighet. Katalogstrukturen är utformad så att materialet kan ordnas efter vad som ska arkiveras och bevaras permanent, vad som är gallringsbart vid en viss tidpunkt efter projektets slut och arbetsmaterial som kan gallras direkt efter projektslut.

Metadata

För att göra forskningsdata förståeliga och återanvändbara behöver de beskrivas. Använd om möjigt de metadatastandarder som finns inom det aktuella forskningsområdet. Metadata ska finnas även i fall då forskningsdata inte är möjlig att publicera fritt tillgängligt eller då data inte längre finns. Metadata och metadatastandarder är centralt för de så kallade FAIR-principerna (se nedan).

Vilka olika slags metadata finns det?

  • Beskrivande: Information om datauppsättningens innehåll, gör det möjligt att hitta data, förstå hur data tagits fram och vem som gjort studien. Exempel på beskrivande metadata är; ämnesområde, nyckelord, metod, upphovsmän och ett beständig id (ex. DOI-nummer). Att upphovsmän är en förutsättning för att delningen av data ska leda till nya samarbeten och möjliggöra meritering.

  • Administrativa: Administrativa metadata ger information om typ av data och hur de får användas. Filformat, rättigheter, versioner, licenser och copyright är exempel på administrativa data.

  • Strukturella: Strukturella metadata beskriver hur data är organiserad så att de ska kunna användas av andra.Till exempel: information om variabler, kodlistor, filstruktur.

Metadatastandarder

Många discipliner har etablerade riktlinjer och standarder för beskrivande metadata. Dessa standarder underlättar harmonisering av data, anger vad som bör dokumenteras och anger praxis för struktur, format och beskrivningen av innehåll.Metadatastandarder är dokumenterade regler för att strukturera och formulera metadata. En standard har en målgrupp som har ett gemensamt intresse och en gemensam förståelse för sina data. De flesta metadatastandarder kan uttryckas i xml vilket gör metadata maskinläsbar. De förenklar överföring av metadata mellan olika system och ger ökad sökbarhet.

En metadatastandard består av olika element, dvs bitar av information. Varje element består av namn och värde, där värdet är det som anges av den som beskriver metadata. Metadatastandarder kan också ha scheman som utgörs av regler för hur elementen ska ordnas. En metadatastandard är en vägledning för att åstadkomma en utförlig metadatabeskrivning, vilket är centralt för att uppfylla FAIR-principerna. Den gör dina metadatabeskrivningar läsbara och begripliga för både människa och maskin och förenklar att återanvända data i nya sammanhang. När du ska göra en metadatabeskrivning, välj en metadatastandard som är vedertagen inom ditt forskningsområde. Du kan ha nytta av att välja en metadatastandard tidigt i projektet, då det underlättar strukturering av data under projektets gång och förenklar långtidsbevarande och tillgängliggörande vid projektets slut.

Data- och metadatastandarder för olika discipliner och särskilda typer av data:

FAIR-principerna innebär i korthet att

  • data går att söka och att hitta – Vad är det för data och vem är ansvarig för den? (”Find”)
  • möjligheter och begränsningar gällande tillgång till data är väldefinierade (”Access”)
  • det framgår hur data är organiserad och vilka metadata som finns, så att datan kan analyseras (eventuellt tillsammans med andra data) (”Interoperable”)
  • det framgår under vilka villkor och typ av licens som man kan få använda datan (”Reuse”).

Se även:
– Vetenskapsrådet: Kriterier för FAIR forskningsdata
– The FAIR Guiding Principles for scientific data management and stewardship. Wilkinson et al. (2016) Scientific Data. Vol. 3, Article nr. 160018. https://doi.org/10.1038/sdata.2016.18

FÖLJ UPPSALA UNIVERSITET PÅ

facebook
instagram
twitter
youtube
linkedin