Filer, mappar och versionering

Mappstruktur

Mappstrukturen ska ge en övergripande bild av var data och andra komponenter i ett projekt finns. Den bör anpassas efter projektets design och arbetsflöde. I strukturen bör det exempelvis vara tydligt vad som är pågående och avslutade delar och rådata bör skiljas från analyserade data.

Det bör vara lätt för nuvarande och framtida kolleger att hitta dokumentation som beskriver den beslutade mappstrukturen och konventioner för filnamn och versionering. En enkel lösning är att placera en .txt-fil (ReadMe-fil) i den översta mappen i strukturen.

Mappnamn bör ha ett unikt och självförklarande namn som inte är för långt. Undvik att tilldela samma namn till en huvudmapp och en undermapp.

Uppsala universitet har en rekommenderad mappstruktur för projekt som är anpassad till de krav på arkivering och offentlighet som ställs på universitet som myndighet.

Filnamn

Välj principer för att namnge filer tidigt i ett projekt. Filnamn bör:

  • ha ett transparent namn där de viktigaste aspekterna av innehållet framgår
  • visa hur den specifika filen relaterar till andra filer
  • vara unika och följa ett enhetligt och konsekvent mönster
  • informera om innehåll, status och version

Använd bindestreck eller understreck för att skilja olika delar i ett filnamn. Undvik blanksteg och specialtecken. Använd standarder som exempelvis ISO 8601 för datum, tid och tidsintervall. Var konsekvent vid användning av versaler och gemener och ange antal siffror för filer som behöver listas numeriskt, till exempel: 0001, 0002. Det underlättar vid sortering och ger bättre maskinläsbarhet.

Utgå från vilka behov du har att sortera filer vid val av beståndsdelar i filnamn. Ofta är det bättre att gå från generellt till mer specifikt, ex, ProjectAbbr_ExperimentNr_Location_Time_TypeOfData_VersionNr

Filformat

Som forskare ska man välja de filformat som passar bäst för vald typ av datainsamling och analysmetod. Man bör dock sträva efter att använda filformat som bygger på öppna och väl dokumenterade standarder. Helst ska formaten vara tillgängliga och läsbara på lång sikt, leverantörsoberoende och icke-proprietära. Det underlättar när data sedan ska delas, återanvändas och bevaras. Vid behov kan ursprungliga filformat behöva överföras över till arkivbeständiga format inför långtidslagring och arkivering.

På grund av praxis inom vissa discipliner och behov av att använda specifika instrument och analysredskap måste man ibland använda proprietära leverantörsberoende filformat.

Tänk på följande vid val av filformat:

  • Finns det några områdesspecifika rekommendationer?
  • Är mjukvara kompatibel med de system som tillhandahålls av universitetet?
  • Hur ska data genereras och analyseras?
  • Kan du lägga till metadata?
  • Är formatet lämpligt vid delning av data?
  • Är formatet lämpligt vad gäller långsiktighet?
  • Fungerar det i alla delar av processen, med så litet behov av konvertering till andra format som möjligt?

För förbättrad återanvändbarhet (reproducerbarhet) bör filformat och programvara som används beskrivas och dokumenteras.

Versionering

I projekt där data, filer och andra digitala komponenter förekommer i olika versioner är det viktigt att du och dina medarbetare kan hålla isär olika versioner, att det är tydligt vad en version innehåller och hur den skiljer sig från andra versioner. Regler för versionering bör dokumenteras och tas med i en datahanteringsplan. I större projekt med många medarbetare kan det vara lämpligt att ge en medarbetare ansvar för att riktlinjer för namngivning och versionering följs och uppdateras.

Varje ny sparad version av data bör anges med ett nytt versionsnummer (t.ex. v01, v02, v03 o.s.v.) och vid behov datum för när filen skapades. Större ändringar i en fil kan indikeras med hela siffror, till exempel v01 för den första versionen och v02 för andra versionen. Mindre ändringar kan anges genom att lägga till fler led i filnamnet, till exempel, v01_01, v01_02 och så vidare.

Viktiga ändringar kan dokumenteras i en versionskontrolltabell. Där kan man ange vad som ändrades, varför och när, vilket skapar bättre spårbarhet för data och resultat. Tänk även på att dokumentera hur olika versioner av data förhåller sig till andra komponenter som kod, analysmetod och arbetsflöde.

För att hantera versioner av programkod används lämpligen någon typ av system som bygger på Git.

Se även: Mappstruktur, filnamn och versionering Svensk nationell datatjänst (SND)

FÖLJ UPPSALA UNIVERSITET PÅ

facebook
instagram
youtube
linkedin