Dataprofilering, eller dataupptäckt, hänvisar till processen att få information från och beskrivande statistik om olika datakällor. Syftet med dataprofilering är att få en bättre förståelse av innehållet i data, såväl som dess struktur, relationer och aktuella nivåer av noggrannhet och integritet.
Dataprofilering kan avslöja fel i, eller falska slutsatser kring, metadata (data om data). Att hitta dessa problem tidigt hjälper till att förbättra kvaliteten på källdata innan de integreras eller lagras i ett datalager. Att förstå attributen för data i en databastabell eller extraherad fil, och inspektera datavärden, hjälper till att validera att datainnehållet faktiskt matchar dess metadatadefinition. Att se data och metadata hjälper också till att identifiera vilka objekt som är känsliga, eller innehåller personligt identifierbar information (PII), så att vissa kolumner kan flaggas för skyddsåtgärder. Dataprofilering upptäcker alltså egenskaperna hos källdata som är nödvändiga för identifiering, användning och härkomst av data i integration, säkerhet, rapportering och andra processer som följer.
Även om insamlad data ofta kan verka godartad eller värdelös, särskilt när den samlas in från flera källor, kom ihåg att all data kan vara användbar med rätt applikation eller algoritm. Dataprofilering är alltså också ett första steg för att bestämma denna användbarhet (genom att förbättra förståelsen för själva datan).
Eftersom många företag i slutändan förlitar sig på rådatakällor för insikt i saker som produktlager, kunddemografi, köpvanor och försäljningsprognoser, kan ett företags förmåga att konkurrenskraftigt dra nytta av ständigt ökande datavolymer vara direkt proportionell mot dess förmåga att utnyttja dessa data. tillgångar. Att vinna/förlora kunder och att lyckas/misslyckas som företag kan mycket väl bestämmas av den specifika kunskap en organisations insamlade data förmedlar. Att identifiera rätt data, fastställa dess användbarhet på rätt nivå och bestämma hur avvikelser ska hanteras – är därför väsentliga i utformningen av datalagringsverksamhet och business intelligence-applikationer.
Enligt Doug Vucevic och Wayne Yaddow, författare till Testing the Data Warehouse Practicum, “...syftet med dataprofilering är både att validera metadata när den är tillgänglig och att upptäcka metadata när den inte är det. Resultatet av analysen används både strategiskt – för att fastställa lämpligheten hos kandidatkällsystemen och ge underlag för ett tidigt go/no-go-beslut, men taktiskt för att identifiera problem för senare lösningsdesign och för att jämna ut sponsorernas förväntningar. ”
Datamyndigheter rekommenderar att man utför dataprofilering slumpmässigt och upprepat på begränsade mängder data, istället för att försöka hantera stora, komplexa volymer på en gång. På så sätt kan upptäckterna vara avgörande faktorer för vad som ska profileras härnäst. Att identifiera dataregler, begränsningar och förutsättningar säkerställer integriteten hos de metadata som framtida profilering utförs på. Att veta vad som är förmodat att finnas i vissa datafiler och vad som är faktiskt det kanske inte är samma sak. Så närhelst kvaliteten eller egenskaperna hos en ny källa är okända, föreslår experter dataprofilering först, innan någon integrering i ett befintligt system.
Steg i dataprofileringsprocessen inkluderar: importera alla objekt, skapa konfigurationsparametrar, utföra den faktiska profileringen och analysera resultaten; ingen av dem är så lätt som de låter! Baserat på resultaten, kan schema- och datakorrigeringar implementeras, såväl som annan finjustering för efterföljande förbättring av dataprofileringens prestanda.
IRI-profileringsverktyg
I mitten av 2015 släppte IRI en serie gratis databasverktyg, strukturerade och ostrukturerade (mörka) dataupptäckningsverktyg i sitt Eclipse GUI, IRI Workbench. De sammanfattas på http://www.iri.com/products/workbench/discover-data och länkar till andra artiklar i den här bloggen som går in på mer detaljer.