En introduktion till datautvinning

Obs! Den här artikeln skrevs ursprungligen 2015, men uppdaterades 2019 för att återspegla ny integration mellan IRI Voracity och Knime (för Konstanz Information Miner), nu den mest kraftfulla plattformen för öppen källkod för datautvinning som finns.

Datautvinning är vetenskapen om att hämta kunskap från data, vanligtvis stora datamängder där meningsfull information, trender och andra användbara insikter måste upptäckas. Datautvinning använder maskininlärning och statistiska metoder för att extrahera användbara "klumpar" av information från vad som annars skulle vara en mycket skrämmande datamängd.

Datautvinning spänner över flera dator- och matematiska discipliner. Det är inte så mycket en enhetlig process som det är ett paraplybegrepp för en uppsättning handlingar. Fyra breda uppgifter som utförs under gruvdrift inkluderar: utforskande dataanalys (EDA), deskriptiv modellering, prediktiv modellering och mönsterupptäckt.

EDA använder konventionella statistiska visualiseringsmetoder eller okonventionella grafiska metoder för att se om något intressant kan hittas i data.

Vid beskrivande modellering skickas data till en rutin och ger verb (datageneratorer) eller adjektiv (databeskrivningar) som ligger bakom bildandet av data. Detta inkluderar metoder som associerar data med en sannolikhetsfördelning, klustring och beroendemodellering.

Prediktiv modellering använder regression och klassificeringsmetoder för att sätta upp en standard för att förutsäga framtida okända datapunkter. Regression är en rent matematisk analys som passar en ekvation till en datamängd för att förutsäga nästa värde. Prediktiv modellering kan också förlita sig på mönsterregler och relationstrender (eller till och med specifikt identifierade orsak och verkan) som upptäcktes med metoden Logical Analysis of Data (LAD).

Mönsterupptäckt via LAD klassificerar nya observationer enligt tidigare klassificeringar av observationerna och använder optimerings-, kombinatoriska och booleska funktioner för att förbättra analysnoggrannheten.

För det mesta kan dessa metoder bara indikera vilka datainmatningar som är relaterade, men inte anledningarna till eller hur de är relaterade. Det är möjligt att förklara vad som kännetecknar en klass/kluster från en annan genom att hitta dessa regler eller mönster, och ämnena listas på olika sätt beroende på själva data.

Tillämpningar för datautvinning kan sträcka sig från företagsmarknadsföring till medicin, från bedrägeriupptäckt inom bank och försäkring till astronomi, från personalhantering till katalogmarknadsföringsindustrin och så vidare. Läkarkåren har funnit det användbart för att skilja mellan egenskaper hos personer med olika sjukdomsprogressionshastigheter. Återförsäljare använder nu datautvinning för att bättre förstå konsumenternas konsumtionsvanor, notera vilka varor som köps tillsammans och deras relation, samt det bästa sättet att annonsera för sina kunder. Och mycket av företagsvärlden förlitar sig nu på datautvinning för att beräkna, verkställa och motivera stora affärsbeslut.

Men som alla nu vet från den senaste tidens intensiva mediabevakning av NSA-Verizon telefonregisterskandalen kan datautvinning också vara extremt kontroversiellt. Ifall du har bott under en sten, här är en kort sammanfattning:

Den 5 juni 2013 publicerade den brittiska dagstidningen The Guardian en exklusiv rapport om att miljontals kundregister från Verizon, en av de största telekommunikationsleverantörerna i USA, samlades in av U.S.S. National Security Agency, som svar på en hemligstämplad order. från U.S. Foreign Intelligence Surveillance Court. Verizons Business Network Services tvingades lämna över all telefonimetadata som skapats av mobiltjänstleverantören i USA och utomlands. Som ett resultat utbröt sedan tvåpartisk och universell kritik av Obama-administrationen från grupper som förespråkar medborgerliga rättigheter och nyhetsmedier, och hävdade att presidentens missbruk av den verkställande makten. Ingen lösning på denna incident är i sikte när den här artikeln skrevs. Men det kommer utan tvekan att förbli ett utmärkt exempel på hur datautvinning ibland kan ses i ett negativt ljus, särskilt med hänsyn till integritetsproblem och allmänheten.

När man hanterar stora volymer statisk eller dynamisk data kommer det med största säkerhet att finnas beräknings- och I/O-relaterade prestandaproblem. Med databaser som innehåller terabyte och exabyte med data kan det ta mycket tid att kamma igenom data, och gruvalgoritmerna måste fungera mycket effektivt. Några andra svårigheter inkluderar övermontering och bullriga data.

Övermontering innebär vanligtvis att det inte finns tillräckligt med bra data tillgänglig. Datamodellen (i detta fall den globala beskrivningen av datan) blir för komplex eftersom den har för många parametrar i förhållande till antalet observationer. Detta överdriver mindre fluktuationer i data, vilket äventyrar modellens tillförlitlighet som grund för att göra förutsägelser.

Bullriga data, å andra sidan, hänvisar till för mycket av fel typ av data. Meningslösa, felaktiga, ostrukturerade (oläsbara) eller på annat sätt korrupta data ökar lagringskraven och/eller kräver att statistisk analys renas bort innan den kan hindra datautvinningsnoggrannheten. Bra datautvinningsalgoritmer tar hänsyn till bullriga data.

Data mining är ett enda steg i en större process som kallas kunskapsupptäckt i databaser (KDD). KDD börjar först med dataförberedelse: val, förbearbetning och transformation av data, där du bestämmer vad du vill studera och ställer in det på ett sätt som kan brytas. Det är att representera data som en m—n matris och med en numerisk representation av elementet i varje datavektor. Nästa, du min. Och slutligen får du använda den gamla noggin för att tolka och analysera den informationen. Sedan, om de dolda mönstren och trenderna fortfarande inte är tillräckligt tydliga, måste du gräva lite djupare.

IRI:s roll i datautvinning och KDD-process är att förbereda och omstrukturera big data för analys genom flera högpresterande datatransformationsfunktioner. Specifikt kan IRI CoSort-datamanipuleringspaketet snabbt filtrera, manipulera och omformatera data så att de kan bearbetas av datautvinningsalgoritmer som dessa datautvinningsprogram. CoSort är också standarddatabearbetningsmotorn i IRI Voracitys datahanteringsplattform, designad för ett brett utbud av dataprofilering, förberedelser och grälarbete.

För dem som arbetar med CoSort i IRI Workbench GUI är BIRT ett gratis plugin-program Eclipse med grafisk rapportering och affärsinformation som inkluderar vissa analys- och gruvfunktioner. Både CoSort och BIRT Analytics använder Eclipse IDE. Med stöd för Open Data Access (ODA) datadrivrutiner som går in i CoSort, är dataflödesintegreringen mellan de två plugin-programmen också sömlös och möjliggör snabbare vad-om-analyser.

För de som arbetar med Voracity under 2019 och därefter föreslår vi att du installerar kärnleverantören för den kostnadsfria Knime Analytics-plattformen i IRI Workbench. I samma Eclipse glasruta kan Voracity källnoden (leverantör) för Knime lämna över Voracity-förberedda rådata i minnet till Knime-noder för applikationer som kräver statistisk och prediktiv analys, datautvinning och maskin/djupinlärning, neurala nätverk och artificiell intelligens.

Bidragsgivare till den här artikeln inkluderar Roby Poteau och David Friedland