5 vanliga misstag att undvika när du deduperar din data

Data är makt och med den makten följer ett stort ansvar. Ett av de största hindren i data är att identifiera dubbletter och de-duping.

Syftet med datadeduplicering är att eliminera all överflödig data i ditt företag. Dubletter skapas i alla delar av ditt företag, till exempel att säljaren matar in en ny post utan att först kontrollera databasen, en marknadsförare som laddar upp en lista över potentiella köpare utan att kontrollera om posten finns och en kund som matar in sin information igen när de glömde bort dem har redan ett konto hos dig.

Datadeduplicering säkerställer korrekt datahantering av sådana register, minskad datalagring, effektivare marknadskommunikation och bättre prediktiv analys. Dubblettposter kan faktiskt ha en enorm inverkan på maskininlärning och datavetenskapliga poster genom att teoretiskt ge kunder två gånger så stor förutsägelsekraft och därför skapa en bias i utdata.

Men med varje bra idé kommer risker och inom en de-dupliceringsstrategi där data raderas för det mesta, kan det finnas inneboende misstag.

In-line eller efterbearbetning

Inline-dedupliceringsprocesser de-duperar data när den bearbetas. Detta innebär att det minskar mängden data omedelbart vilket är bra men ofta har prestandaproblem med mängden resurser som krävs för att köra som strategi. Det betyder dock att du behöver mycket mindre obearbetat diskutrymme eftersom data faktiskt aldrig skickas över i första hand eftersom dedupliceringen utförs på fronten.

Det är viktigt att du ser till att du har processorkraften för inline-deduplicering och att det inte påverkar prestandan. Det andra misstaget är att anta att det inte finns några fall för att ha dubbletter. Det finns legitima behov av att ha dubbletter i ditt system. Orsakerna kan vara av fakturerings-, kundservice-, försäljnings- och marknadsföringsskäl, därför är det en bra idé att konsultera alla avdelningar som rör data innan du implementerar in-line-bearbetning.

Algorithms

Deduplicering är bara lika bra som algoritmerna den matas, dvs hur upptäcks duplicerade poster i första hand? Låt oss anta att vi har 100 kopior av en fil på våra system eftersom varje anställd hade sin egen version. Istället för att lagra flera kopior, säger god praxis dig att bara lagra en och låta alla anställda peka på det. Vad händer om en av de anställda gör en ändring i sin egen fil, vilket betyder att den skiljer sig något från de andra? Du riskerar att förlora data. Det är viktigt att se till att alla regler du anger är vettiga och att du inte börjar ta bort unika datauppsättningar av misstag.

Det finns några vanliga algoritmer som används för datadeduplicering som SHA-1 eller MD5 och Binary Search Tree Structures som är värda att granska för att hitta det som är mest lämpligt för dig.

Medan de-duping datamängder i exemplet ovan enkelt kan åtgärdas av datavetare. För försäljnings- och marknadsföringsrekord är det lite svårare. Tänk på att olika företag definierar dubbletter olika, det är inte längre en uppgift för datavetaren utan snarare för cheferna för olika avdelningar. Därför är det första steget att identifiera vad som gör en dubblett. Ta till exempel en detaljhandelsjätte som Walmart. För distributionsföretag skulle varje Walmart-plats betraktas som en unik post, men för ett mjukvaruföretag som säljer till Walmart skulle de betrakta alla platser som dubbletter eftersom de bara vill sälja till huvudkontoret. Detsamma kan sägas för försäljning till P&G där vissa företag säljer individuellt till varje varumärke. Därför vill de hålla dem alla åtskilda och tillämpa förälder/barn-länkningen istället för att dedupera för att identifiera de olika märkena. Se därför till att du har alla regler definierade innan du tar reda på vilken algoritm du ska använda för att dedupera data.

Kryptering

Med dataskydd är det ofta så att säkerhetsteam kommer att ha data krypterad när den kommer in i verksamheten vilket innebär att det är omöjligt att dedupera det eftersom allt är unikt i detta sammanhang. Om du använder replikerings- och krypteringsprodukter i linje med dedupliceringsprogram, är det en mycket stor chans att filer replikeras eftersom det helt enkelt inte kan välja dem som unika lagringsblock.

Dataskyddsprodukter är ibland medvetna om deduplicering, men det är viktigt att du överväger hur allt integreras.

Manuell deduplicering

De flesta företag kommer att försöka dedupera sin databas manuellt och tar upp en enorm mängd resurser och tid med stor risk för mänskliga fel. Utöver det, med stora datamängder, är det praktiskt taget omöjligt för manuella processer att fånga upp allt.

Tänk till exempel om John Smith köper ett par skor på din hemsida idag. Han går tillbaka i morgon men registrerar sig som J Smith eftersom han glömde sina inloggningsuppgifter. Nästa vecka registrerar han sig igen men med en annan e-postadress. Jag har bara nämnt tre datafält här, men det börjar redan bli komplicerat, så tänk om du har 200 fält med kunddata, hur säkerställer du att det hålls unikt?

Det är viktigt att antingen konstruera fullständiga algoritmer själv om du ska utföra en manuell process eller skaffa datarensningsverktyg för att göra det åt dig, vilket sparar all den tid och ansträngning.

Säkerhetskopiering

Deduplicering kan gå fel! Innan du tar bort dubbletter är det viktigt att allt säkerhetskopieras och du kan lösa eventuella problem snabbt. Om vi går tillbaka till vårt tidigare exempel, vad händer om vi upptäcker att John Smith och J Smith i själva verket är olika personer och behöver få tillbaka kontot? Du behöver en process som kan göra just det, vilket är ett lagkrav nu i EU (GDPR).

En strategi för deduplicering av data är viktig eftersom företag växer sitt digitala fotavtryck. Med så många kommunikationskanaler har bara en duplicerad post kapacitet att skapa partiskhet och potentiellt leda till fel beslut. Som sagt, det måste göras på rätt sätt för att undvika konsekvenserna av att ta bort fel poster eller felaktig matning av algoritmer och minska affärshastigheten. Se till att datadeduplicering är helt utformad inom din datastyrningsstrategi.