sql >> Databasteknik >  >> RDS >> Database

Anonymisering av indirekta identifierare för att minska risken för åter-ID

Kvasiidentifierare, eller indirekta identifierare, är personliga attribut som är sanna om, men inte nödvändigtvis unika, för en individ. Exempel är ens ålder eller födelsedatum, ras, lön, utbildningsnivå, yrke, civilstånd och postnummer. Jämför dessa med direkta, unika identifierare som en persons fullständiga juridiska namn, e-postadress, telefonnummer, nationellt ID, pass eller kreditkortsnummer, etc.

De flesta konsumenter är redan medvetna om riskerna med att dela sin unika, personligt identifierbara information (PII). Datasäkerhetsbranschen är vanligtvis fokuserad på dessa direkta identifierare också. Men med bara kön, födelsedatum och postnummer kan 80-90 % av USA:s befolkning identifieras.

Nästan vem som helst kan återidentifieras från en annars maskerad datamängd om tillräckligt många indirekta identifierare finns kvar och kan kopplas till en superuppsättningspopulation med liknande värden.

HIPAA Expert Deermination Method-regeln som hänför sig till skyddad hälsoinformation (PHI) och FERPA-lagar angående studentdataintegritet överväger dessa farhågor och kräver att datauppsättningar har en statistiskt låg sannolikhet för återidentifierbarhet (under 20 % är standarden idag). De som vill använda hälsovårds- och utbildningsdata för forsknings- och/eller marknadsföringsändamål måste följa dessa lagar men också förlita sig på den demografiska noggrannheten hos kvasiidentifierarna för att data ska vara värdefulla.

Av denna anledning kan datamaskeringsjobb i IRI FieldShield-produkten eller IRI Voracity (datahanteringsplattform) tillämpa en eller flera ytterligare tekniker för att fördunkla data, samtidigt som de hålls tillräckligt korrekta för forsknings- eller marknadsföringsändamål. Till exempel skapar numeriska oskärpa funktioner slumpmässigt brus för specificerade ålders- och datumintervall, såsom beskrivs i den här artikeln.

Med utgångspunkt från artikeln här kommer detta exempel att visa hur IRI Workbench kan skapa och använda uppsättningsfiler för att anonymisera kvasi-identifierare.

Börja i Generalisering via bucketing Wizard, tillgänglig från listan över dataskyddsregler:

När guiden öppnas börjar du definiera källan för värdena för uppsättningsfilen, inklusive källformatet och fältet som kräver ett generaliserat ersättningsvärde.

På nästa sida finns det två typer av set-filersättningar:Använd set-fil som grupp och Använd set fil som intervall alternativ. Det här exemplet använder Använd set-fil som grupp alternativ. Artikeln om suddiga data visar Använd uppsättningsfiler som ett intervall alternativ. Uppslagsuppsättningarna som byggs här kommer att användas för att pseudonymisera de ursprungliga kvasi-identifierarna med det nya generaliseringsvärdet.

Den här sidan är där grupperingarna mellan vart och ett av de ursprungliga kvasi-identifierande fältvärdena skapas. Till vänster finns de unika värdena i det tidigare valda fältet. Grupperna kan skapas genom att antingen dra och släppa i gruppvärdena till vänster, eller genom att manuellt mata in värden. Varje grupp behöver också ett unikt ersättningsvärde. Detta är värdet som kommer att ersätta det ursprungliga värdet i gruppen. I det här exemplet kommer alla värden på "9th" att ersättas med "High School".

Om du lägger till grupper tills alla källvärden täcks skapas följande uppslagsuppsättningsfil för anonymisering av kvasiidentifieraren för utbildningsstatus:

Om ytterligare nivåer av bucketing krävs, kan bucketguiden köras igen med den här uppsättningsfilen som källa.

När setfilen används i ett dataanonymiseringsjobb jämförs källdata med värden i den första kolumnen i setfilen. Om en matchning hittas ersätts data med värdet i den andra kolumnen. Ovanstående uppsättningsfil används i skriptet nedan på rad 38.

Att använda Workbench för att tillämpa fem olika anonymiseringstekniker resulterar i följande skript:


De första tio raderna av originaldata visas här:

De anonymiserade resultaten efter att ha kört jobbet visas här:

Före dessa generaliseringar var risken för omidentifiering baserad på de ursprungliga indirekt identifierande värdena för hög. Men när den mer generaliserade resultatuppsättningen körs om genom riskpoängguiden för att ta fram en annan bestämning av återidentifieringsrisk, är risken acceptabel och informationen är fortfarande användbar för forsknings- eller marknadsföringsändamål.

Om du har några frågor om dessa funktioner eller om-ID riskpoäng, kontakta .


  1. SQL är inte en gruppfunktion i en grupp

  2. Med Oracle SQL, hur matar man ut dagnummer veckodag och veckodag?

  3. Hur man gör en brevkoppling i Access 2016

  4. Aktivera fjärransluten MySQL-anslutning:FEL 1045 (28000):Åtkomst nekad för användaren