Dela och publicera data med personuppgifter
Forskningsdata med information som direkt, eller indirekt med någon typ av kompletterande hjälpmedel (exempelvis en kodnyckel), går att koppla till enskilda personer innehåller personuppgifter. Dataskyddsförordningen (GDPR) anger att personuppgifter måste skyddas med organisatoriska och tekniska åtgärder för att säkerställa att obehöriga inte får tillgång till materialet. Den typen av data får därför normalt inte publiceras eller delas med obehöriga.
Endast om vissa förutsättningar är uppfyllda kan data med personuppgifter lämnas ut eller delas med andra. Det krävs en laglig grund, exempelvis användning av materialet i forskning, och att uppgifterna inte faller under sekretess enligt bestämmelser i Offentlighets- och sekretesslagen (2009:400). Om det gäller känsliga personuppgifter krävs normalt en godkänd etikprövning hos den part som begär ut handlingarna.
Tänk på att överföring av personuppgifter till tredjeland (utanför EU/EES-området) endast får göras om mottagarlandet säkerställer en adekvat skyddsnivå för uppgifterna.
Om data anonymiseras så att uppgifter inte längre kan kopplas till individer på något sätt är de enligt dataskyddsförordningen inte längre är personuppgifter och kan normalt delas och publiceras. Men formell anonymisering föreligger enligt dataskyddsförordningen bara om det inte längre finns kvar någon kodnyckel eller annan möjlighet att hänföra uppgifter i data till enskilda personer.
Irreversibel anonymisering av alla data med personuppgifter i ett forskningsprojekt bör, av olika skäl, undvikas:
- I många studier finns ett behov att följa upp deltagare i ett längre perspektiv (ex. i longitudinella epidemiologiska studier).
- I de fall publicerade resultat behöver granskas bör allt material i en studie, även kompletta rådata, finnas tillgängligt.
- Kodnycklar eller annan dokumentation som länkar data till person kan höra till den typ av handlingar som enligt arkivlagen inte får gallras förrän en viss tid har förflutit.
Som framgår i beaktandeskäl 26 nedan ställer dataskyddsförordningen mycket höga krav på om data som bygger på personuppgifter kan anses vara anonymiserade. Även i datamängder som saknar direkta identifierare måste man ta hänsyn till risken att en kombination av uppgifter kan leda till återidentifiering av individer. Genom att kombinera värden hos olika variabler, t.ex. uppgift om yrke, diagnos, kommun och ålder, finns alltid en risk att enskilda personer kan identifieras även om direkta identifierare saknas i data.
För att minska risken för identifiering av individer kan man bland annat begränsa antalet variabler och generalisera värden, exempelvis genom att ange region istället för stad eller åldersgrupp istället för exakt år. Data får då en viss grad av så kallad k-anonymisering, vilket innebär att samma värde delas av minst k personer och där k är ett heltal. Varje kombination av egenskaper förekommer alltså flera gånger i ett dataset och passar in på k-antal personer. K-anonymisering kan sedan kompletteras med åtgärder som l-diversitet och t-närhet för att ytterligare begränsa risken för återidentifiering av individer. Vetenskapsområdet för medin och farmaci anger att data bör ha minst 10 individer per kombination av variabler när alla variabler kombineras med varandra för att anses vara anonymiserade (K-värde=10).
Se: Riktlinje för gränsdragning mellan personuppgifter och anonymiserade data. Vetenskapsområdet för medicin och farmaci (MEDFARM 2023/3967), Uppsala universitet.
Det finns olika verktyg som underlättar anonymisering av uppgifter i data, exempelvis ARX, sdcMicro och Amnesia. Men vissa typer av data är svåra eller omöjliga att anonymisera, exempelvis filmer, biometriska uppgifter och genetisk kod.
Statistiska institutionen kan ge vägledning om anonymisering av personuppgifter. Rådgivning är avgiftsfri för forskare och doktorander inom samhällsvetenskapliga fakulteten. Övriga forskare inom universitetet kan få hjälp mot en kostnad och i mån av tid.
Med tanke på att det alltid finns en risk för återidentifiering av individer bör försiktighet råda vid delning och publicering av anonymiserade data. Det är viktigt att göra en bedömning av risken för återidentifiering i varje enskilt fall, samt att motivera och dokumentera på vilka grunder vald metod och nivå för anonymisering kan anses vara tillräcklig.
Mer om anonymisering och publicering av data med personuppgifter:
- Research data management – Anonymisation, UK Data Service
- Guide to basic data anonymisation techniques , Personal Data Protection Commission Singapore (2018)
- Making Qualitative Data Reusable, DANS (2024)
- Anonymization tools and techniques, Vrije Universiteit Brussel (2020)
När anses personuppgifter vara anonymiserade enligt dataskyddsförordningen (GDPR)?
I beaktandeskäl 26 som utgör underlag vid tolkning av dataskyddsförordningens anges att:
The principles of data protection should apply to any information concerning an identified or identifiable natural person. Personal data which have undergone pseudonymisation, which could be attributed to a natural person by the use of additional information should be considered to be information on an identifiable natural person.
To determine whether a natural person is identifiable, account should be taken of all the means reasonably likely to be used, such as singling out, either by the controller or by another person to identify the natural person directly or indirectly.
To ascertain whether means are reasonably likely to be used to identify the natural person, account should be taken of all objective factors, such as the costs of and the amount of time required for identification, taking into consideration the available technology at the time of the processing and technological developments.
The principles of data protection should therefore not apply to anonymous information, namely information which does not relate to an identified or identifiable natural person or to personal data rendered anonymous in such a manner that the data subject is not or no longer identifiable. This Regulation does not therefore concern the processing of such anonymous information, including for statistical or research purposes.