Dataklassificering i IRI Workbench

Användare av PII-maskeringsverktyg som FieldShield, DarkShield och CellShield EE i IRI Data Protector Suite eller Voracity plattformen kan katalogisera och söka i sina data – och tillämpa datatransformations- och skyddsfunktioner som regler – med hjälp av inbyggd data klassificering infrastruktur i deras gemensamma front-end IDE, IRI Workbench, byggd på Eclipse™.

Multi-source data discovery (sök) faciliteter i IRI Workbench kan använda de dataklasser du har definierat, eller de kan hjälpa dig att tilldela dataklasser eller dataklassgrupper till din data baserat på dina sökresultat, affärsregler och/eller domänontologier.

Du kan använda ditt dataklassbibliotek i återanvändbara fältregler (t.ex. datamaskering). Och du kan tilldela dessa regler när du autoklassificerar data också.

Dessa funktioner ger dataarkitekter och ledningsteam bekvämlighet, konsekvens och efterlevnadsfunktioner. Se den här artikeln för ett exempel från slut till ände att använda dataklasser för att hitta och maskera data konsekvent över flera tabeller i RDB-scheman.

Den här artikeln beskriver hur du kan definiera dessa klasser. Det finns relaterade artiklar om dataklassvaliderare som kan användas för att särskilja och verifiera data baserat på mönstersökningar.

Flera andra artiklar i IRI-bloggen täcker tillämpningen av dataklasser i olika (mest datamaskerande) sammanhang. För ett fullständigt index över dessa artiklar, se det här avsnittet av IRI-programvarans självlärande sida.

Skapa dataklasser

Klassificeringen börjar med att ställa in dataklasser i Workbenchs Inställningar skärm, som låter dig använda klasser globalt, över flera projekt i din arbetsyta. Workbench har några klasser förinstallerade, inklusive klasserna FIRST_NAME, LAST_NAME och PIN_US som används i det här exemplet.

Dataklasserna fungerar genom att matcha (1) namnet på klassen med namnet på fältet, (2) ett mönster till data i fältet, eller (3) ställa in filinnehåll mot data i fältet. Det första objektet görs automatiskt åt dig i klassificeringsprocessen, om det alternativet väljs. Du kan lägga till så många mönster och ställa in filmatchningar som du behöver för varje klass för att returnera dina avsedda resultat.

Att ange ett reguljärt uttryck som dataklassnamn är ett ytterligare sätt att matcha kolumnnamnet. Det kan till exempel finnas en kolumn som heter LNAME eller LASTNAME. Så jag kan använda L(AST)?[_-]?NAME (understreck och streck inom parentes) för att fånga några varianter av EFTERNAMN.

Du kan också göra dina dataklasser och grupper inaktiva. Om du har många klasser men vill filtrera bort de objekt som inte används i just ditt projekt, kan du göra dem inaktiva. Detta gör att du kan behålla en kopia av dem men inte störa rullgardinsmenyn som använder dessa klasser.

Dataklassgrupper

Du kan också ha dataklassgrupper. Till exempel innehåller den inkluderade gruppen "NAMES" dataklasserna FIRST_NAME, LAST_NAME och FULL_NAME. Om du vill tillämpa en regel på flera klasser kan du använda en grupp istället för att välja dataklasser individuellt.

För det här exemplet tog jag bort understrecket från dataklassen FIRST_NAME för att visa namnmatchningsalternativet för klassificering.

Guiden för dataklassificeringskälla

När matcharna har lagts till i de nödvändiga klasserna kan du köra guiden för dataklassificeringskälla. Guiden accepterar följande dataformat:CSV, Delimited, LDIF, ODBC eller XML. Den här guiden ger dig möjlighet att välja källor för ditt dataklassbibliotek för klassificering senare.

På inställningssidan börjar du med att välja platsen för din nya "iriLibrary.dataclass ”-fil, som är utdata från denna guide. Filnamnet är skrivskyddat eftersom det bara kan finnas en av dessa filtyper i varje projekt. Du kan också markera kryssrutan om alla dina källor är tabeller i en anslutningsprofil.

Om du markerar den här rutan öppnas en inmatningssida som den nedan där du kan välja vilka tabeller som ska inkluderas:

Om kryssrutan inte är markerad kan du lägga till filer eller ODBC-källor på samma inmatningsskärm. På den här typen av inmatningssida måste du också lägga till metadata för varje källa. I det här exemplet har jag inkluderat en CSV-fil och två Oracle-tabeller.

Om du behöver söka och klassificera data över ett eller flera fullständiga databasscheman samtidigt, använd guiderna Schema Pattern Search och Schema Pattern Search to Data Class Association.

Genom att klicka på Slutför skapas ett dataklassbibliotek med de valda källorna inkluderade. Dataklassformulärredigeraren som öppnas låter dig klassificera data i dessa källor.

Klassificera data i dina valda källor

Du börjar klassificeringsprocessen genom att klicka på en av datakällorna för att visa information om den källan. Den övre delen av skärmen har en expanderbar sektion som visar filen eller tabelldetaljerna.

Klassificeringssektionen börjar med en kryssruta för att inkludera matchning via fältnamnet till dataklassnamn. Till exempel har jag en dataklass som heter FIRSTNAME och ett fält som heter FIRSTNAME (matchningen är skiftlägesokänslig).

I det här fallet kommer klassificeringsprocessen att välja den dataklassen för det fältet utan att läsa datainnehållet.

Nästa avsnitt visar en tabell som innehåller fältnamn med kryssrutor, en kolumn för dataklassen och en kolumn för matchande resultat. Den nedre tabellen är en förhandsvisning av data i källan. De nödvändiga dataklasserna borde ha skapats innan du använder den här formulärredigeraren, men du kan lägga till eller redigera dem här.

Du kan manuellt välja dataklass genom att klicka på rullgardinsmenyn i dataklasskolumnen för fältet du vill klassificera. Du kan också klicka på Klassificera automatiskt och välja de fält du vill klassificera. Om du klickar på OK startas den automatiska klassificeringsprocessen, vilket kan ta lång tid beroende på mängden data du har i din källa.

Processen kan köras i bakgrunden om du väljer det alternativet i standarddialogrutan Eclipse som visas. Dessutom kan du se processstatus i förloppsvyn.

När du är klar kommer dataklassen och dataklasskartan att skapas i biblioteket för de valda fälten. I det här exemplet hittade klassificeringsprocessen en 87 % matchning i SSN-fältet, 11 % på LASTNAME och en namnmatchning på FIRSTNAME. Procentsatserna anger mängden matchad data i din källa via matcharna för den dataklassen.

Om "namn" visas i den matchande kolumnen, matchades dataklassen baserat på namnet. Om du har valt en dataklass manuellt, kommer "användare" att visas i den matchande kolumnen.

Det slutliga bibliotekets innehåll visas nedan. Precis som du kan se detaljerna om källorna kan du också klicka på dataklasserna och kartorna för att visa deras detaljer.

Dataklasskartorna använder referenser till dataklasserna och fälten, vilket är anledningen till att biblioteket lagrar källorna och dataklasserna, förutom själva kartan. Om du tar bort en källa eller dataklass tas även all associerad dataklasskarta bort som refererar till det borttagna objektet.

När du klickar på Ta bort visas en varning för att påminna dig om detta. Processen kan upprepas på de andra inkluderade källorna, och ytterligare källor kan läggas till när som helst.

Klassificeringsresultaten för detta bibliotek kan nu användas för att tillämpa fältregler på dessa datakällor. Processen förklaras i min nästa artikel om Applying Field Rules Using Classification.