sql >> Databasteknik >  >> RDS >> Database

Förstå de 3 nyckelegenskaperna hos Big Data

Det faktum att organisationer står inför Big Data-utmaningar är vanligt nuförtiden. Termen Big Data hänvisar till användningen av en uppsättning av flera tekniker, både gamla och nya, för att extrahera en del meningsfull information ur en enorm hög med data. Datauppsättningen är inte bara stor utan har också sin egen unika uppsättning utmaningar när det gäller att fånga, hantera och bearbeta dem. Till skillnad från data som finns kvar i relationsdatabaser, som är strukturerade, kan stora dataformat vara strukturerade, semi-strukturerade till ostrukturerade, eller samlas in från olika källor med olika storlekar. Den här artikeln fördjupar sig i de grundläggande aspekterna av Big Data, dess grundläggande egenskaper, och ger dig en ledtråd om de verktyg och tekniker som används för att hantera det.

En översikt

Termen Big Data ger endast ett intryck av storleken på uppgifterna. Detta är sant i en mening, men ger inte hela bilden. Utmaningarna förknippade med det handlar inte bara om dess storlek. Faktum är att idén utvecklades för att namnge ett hav av data som samlats in från olika källor, format och storlekar, och samtidigt svåra att utnyttja eller få värde av det. Framväxten av framväxande teknik och den ökande användningen av Internet gav en impuls till volymen och skillnaderna. Volymen fortsätter att öka för varje informationsutbyte över Internet eller till och med de små IoT-objekt vi använder. Att enkelt svara på ett telefonsamtal eller slå på CCTV kan generera en datakedja. Idag är de flesta enheter anslutna online. Nu, om en organisation vill samla in den informationen online, behöver den en speciell bearbetningsprocess eftersom den data som genereras kommer att vara enorm. Dessutom kan det inte finnas någon enhetlighet i formatet för insamlade data. Detta ökar komplexiteten eftersom vi måste hantera strukturerad, semistrukturerad eller ostrukturerad data. De verktyg vi hittills använt för att organisera data är oförmögna att hantera en sådan variation och volym. Därför kan vi säga att termen Big Data gäller faktiskt data som inte kan bearbetas eller analyseras via traditionella verktyg och tekniker som normalt används för att bearbeta strukturerad eller semi-strukturerad data som att använda relationsdatabaser, XML och så vidare.

Organisationer idag är fulla av ostrukturerad eller semi-strukturerad data tillgänglig i råformat. Dessa data kan vara en mängd information om de bearbetas och värdet som man får ut av den. Men problemet är hur man gör det. Traditionella tekniker och verktyg, såsom relationsdatabaser, är otillräckliga för att hantera en så stor mängd olika data. Det är också ett tveeggat problem för organisationerna, eftersom att bara strimla dem skulle innebära att man förlorar värdefull information – om någon – och att behålla dem är ett slöseri med resurser. Därför eftersträvas vissa verktyg och tekniker för att hantera problemet. Ibland är vi ganska säkra på att dess potentiella värde ligger i högen och kan skörda en guldgruva av information, men utan lämpliga verktyg är det ganska påfrestande för affärsprocessen att dra nytta av det. Uppgifterna idag är massiva och exploderade som allt annat de senaste åren; det verkar inte finnas något stopp för det, förresten.

Informationsexplosion

Big data blir större för varje minut i nästan alla sektorer, oavsett om det är teknik, media, detaljhandel, finansiella tjänster, resor och sociala medier, för att bara nämna några. Volymen av databehandling vi talar om är sanslöst. Här är lite statistisk information för att ge dig en uppfattning:

  • Väderkanalerna får 18 055 555 prognosförfrågningar varje minut.
  • Netflix-användare streamar 97 222 timmar video varje minut.
  • Skype-användare ringer 176 220 samtal varje minut.
  • Instagram-användare lägger upp 49 380 foton varje minut.

Dessa siffror växer för varje år, med ett ökande antal människor som använder Internet. Under 2017 nådde internetanvändningen upp till 47 % (3,8 miljarder människor) av världens befolkning. Med ett ständigt ökande antal elektroniska enheter, uppskattas våra ungefärliga utdata vara 2,5 kvintiljoner byte per dag och växer.

Googles sökstatistik visar 3,5 miljarder sökningar per dag, vilket är över 40 000 sökningar varje sekund i genomsnitt. Vi bör inte heller missa att andra sökmotorer också gör sökningar. E-poststatistikrapporten, 2015-2019 från Radicati Group, Inc., visar 2,9 miljarder e-postanvändare år 2019.

I ett försök att uppskatta hur många bilder som kommer att tas under 2017:Om det fanns 7,5 miljarder människor i världen 2017, med cirka 5 miljarder som har mobiltelefoner, är en trolig gissning att 80 % av dessa telefoner har inbyggda kameror. Det betyder att det finns cirka 4 miljarder människor som använder sina kameror. Om de tar 10 bilder per dag, vilket motsvarar 3 650 bilder per år och person, blir det ungefär 14 biljoner bilder som tas per år.

Därför, när vi säger Big Data, hänvisar det i huvudsak till data eller uppsättningar poster som är för stora för att kunna övervägas. De produceras genom sökmotorer, affärsinformatik, sociala nätverk, sociala medier, genomik, meteorologi, väderprognoser och många andra källor. Detta kan uppenbarligen inte användas med befintliga databashanteringsverktyg och tekniker. Big Data öppnar en arena med stora utmaningar när det gäller lagring, insamling, hantering, underhåll, analys, forskning, nya verktyg för att hantera dem och liknande.

Big datas egenskaper

Som med alla stora saker, om vi vill hantera dem, måste vi karakterisera dem för att organisera vår förståelse. Därför kan Big Data definieras av en eller flera av tre egenskaper, de tre Vs:hög volym , hög variation och hög hastighet . Dessa egenskaper väcker några viktiga frågor som inte bara hjälper oss att dechiffrera det, utan också ger en inblick i hur man hanterar massiva, olikartade data med en hanterbar hastighet inom en rimlig tidsram så att vi kan få ut värdet av det, göra något realtidsanalys och ge ett efterföljande svar snabbt.

  • Volym: Volym hänvisar till själva storleken på datavärldens ständigt exploderande data. Det väcker frågan om mängden data.
  • Hastighet: Hastighet hänvisar till bearbetningshastigheten. Det väcker frågan om med vilken hastighet uppgifterna behandlas.
  • Sort: Variation hänvisar till typerna av data. Det väcker frågan om hur olika dataformaten är.

Observera att vi karakteriserar Big Data i tre Vs, bara för att förenkla dess grundläggande principer. Det är mycket möjligt att storleken kan vara relativt liten, men ändå för brokig och komplex, eller så kan den vara relativt enkel men ändå en enorm mängd data. Därför kan vi, förutom dessa tre Vs, enkelt lägga till ytterligare en, Veracity . Veracity bestämmer exaktheten av data i förhållande till det affärsvärde vi vill extrahera. Utan sanningsenlighet är det omöjligt för en organisation att använda sina resurser för att analysera datahögen. Med mer noggrannhet när det gäller kontexten för data, finns det en större chans att få värdefull information. Därför är sanningsenlighet en annan egenskap hos Big Data. Företag utnyttjar strukturerad, semistrukturerad och ostrukturerad data från e-post, sociala medier, textströmmar och mer. Men innan analys är det viktigt att identifiera mängden och typen av data i övervägande som skulle påverka affärsresultat.

Verktyg och tekniker

Artificiell intelligens (AI), IoT och sociala medier driver datakomplexiteten genom nya former och källor. Till exempel är det avgörande att, i realtid, stor data som kommer via sensorer, enheter, nätverk, transaktioner fångas, hanteras och bearbetas med låg latens. Big Data gör det möjligt för analytiker, forskare och affärsanvändare att fatta mer välgrundade beslut snabbare, med hjälp av historisk data som annars var ouppnåelig. Man kan använda textanalys, maskininlärning, prediktiv analys, datautvinning och naturlig språkbehandling för att extrahera ny insikt från den tillgängliga högen med data.

Tekniken har utvecklats för att hantera enorma mängder data, som tidigare var dyra och måste ha hjälp av superdatorer. Med framväxten av sociala medier som Facebook, sökmotorer som Google och Yahoo! fick Big Data-projekt fart och växte som det är idag. Teknik som MapReduce, Hadoop och Big Table har utvecklats för att uppfylla dagens behov.

NoSQL-repositorierna nämns också i relation till Big Data. Det är en alternativ databas till skillnad från relationsdatabaser. Dessa databaser organiserar inte poster i tabeller med rader och kolumner som finns i de konventionella relationsdatabaserna. Det finns olika typer av NoSQL-databaser, som Content Store, Document Store, Event Store, Graph, Key Value och liknande. De använder inte SQL för frågor och de följer en annan arkitekturmodell. De har visat sig underlätta Big Data Analytics på ett gynnsamt sätt. Några populära namn är:Hbase, MongoDB, CouchDB och Neo4j. Förutom dem finns det många andra.

Slutsats

Big Data öppnade en ny möjlighet att samla in data och utvinna värde ur den, som annars höll på att slösa. Det är omöjligt att fånga, hantera och bearbeta Big Data med hjälp av traditionella verktyg som relationsdatabaser. Big Data-plattformen tillhandahåller verktygen och resurserna för att extrahera insikter ur datas voluminösa, varierande och hastighet. Dessa högar med data har nu medel och ett hållbart sammanhang som kan användas för olika ändamål i en organisations affärsprocess. Därför, för att exakt fastställa vilken typ av data vi talar om, måste vi förstå den och dess egenskaper som det primära steget.


  1. Att komma runt MySQL Kan inte öppna tabellfel igen

  2. Använder setDate i PreparedStatement

  3. ORA-01843 inte en giltig månad- Jämför datum

  4. PowerManager.PARTIAL_WAKE_LOCK android