sql >> Databasteknik >  >> RDS >> Database

Varför lära sig Cassandra med Hadoop?

"Företag inser att de kan utvinna värdefull affärsintelligens för att förbättra beslutsfattandet och få konkurrensfördelar. Verktyg som Hadoop och Cassandra gör allt detta möjligt och på grund av det är NoSQL-kunskaper på alla nivåer extremt efterfrågade.” – Analytiker på TechRepublic

Utvecklat som ett internt projekt på Facebook för att driva deras sökfunktion i Inkorgen, Cassandra är ett öppen källkod för distribuerat databashanteringssystem . Det släpptes som ett projekt med öppen källkod på Google Code 2008 och har därefter blivit ett toppnivåprojekt i Apache Software Foundation sedan 2010.

Cassandra är nästa STORA grej:

  • Apache Cassandra är designad för att hantera enorma mängder data (när det gäller hastighet, volym och variation) över många råvaruservrar som säkerställer hög tillgänglighet och ger ingen SPOF (Single Point of Failure).
  • Cassandra erbjuder också kraftfullt stöd för kluster som spänner över flera datacenter. Frånvaron av "Master-slave-struktur", som traditionella arkitekturer tillåter noll inverkan på systemet om en viss nod går ner.
  • Forskare från University of Toronto som utför studier på NoSQL-system uppger att när det gäller skalbarhet och maximal genomströmning per nod , Cassandra framstår som en klar vinnare. Huvudfokus för NoSQL DBMS är att säkerställa Skalbarhet , Prestanda och Hög tillgänglighet. Liksom de flesta NoSQL DBMS kan Cassandra hantera både strukturerad och ostrukturerad data och presterar avsevärt bra på ovanstående parametrar.
  • Cassandra kan fungera som både databutik i realtid ("registreringssystemet") för online-/transaktionsapplikationer och som en läsintensiv databas för Business Intelligence-systemen. Läs vårt blogginlägg om olika fördelar som Cassandra erbjuder, för mer information.

Varför välja Hadoop med Cassandra?

Enkelt uttryckt att ha:

  • Enhetlig arbetsbelastning
  • Tillgänglighet
  • Enklare implementering

När det kommer till Hadoop är företag inte intresserade av Hadoops underliggande lagringsstruktur, utan dess kostnadseffektiva leveransmetoder för att analysera och bearbeta stora mängder data. Att kunna fatta beslut utifrån resultatet av MapReduce, Hive, Pig, Mahout och andra operationer är det som är viktigast för dessa organisationer.

Nyckelpunkter att komma ihåg:

  • Hadoop Distributed File System (HDFS) är en av många olika komponenter och projekt som ingår i Hadoops ekosystem. Apache Hadoop-projektet definierar HDFS som det primära lagringssystemet som används av Hadoop-applikationer .HDFS kan lagra massiva distribuerade ostrukturerade datamängder. Data kan lagras direkt i HDFS, eller så kan den lagras i ett semistrukturerat format i HBase, vilket möjliggör snabb dataåtkomst på rekordnivå och är modellerad efter Googles BigTable-system. Cassandra å andra sidan är en icke- relationssystem som använder BigTable-datamodellen , men använder Amazons Dynamo-schema för datadistribution och klustring.
  • Hadoop gör många fantastiska saker, dess kärnfunktioner i MapReduce är mycket starka. Branschexperter avgudar Hive och dess SQL-liknande design. Men HDFS-filsystemet är extremt komplicerat att installera, har enstaka felpunkter och – enligt feedback från stora företag är det bara inte redo att göra vad de vill att det ska göra . Cassandra å andra sidan tillhandahåller alla funktioner på den lägre nivån av Hadoop-stacken. Cassandra tillhandahåller samtidigt också realtidsapplikationsfunktioner med låg latens i just den infrastrukturen.

Hur kan Cassandra och Hadoop arbeta tillsammans?

Ett antal leverantörer erbjuder alternativ till HDFS. En färsk artikel från en organisation som heter GigaOM ger en översikt på hög nivå av hur Apache Cassandra File System kan användas för att ersätta HDFS, med minimala programförändringar som krävs ur ett utvecklingsperspektiv, och hur ett antal fördelar kan dras ut i denna process. DataStax , en ledande kommersiell leverantör för distributioner av Cassandra har kombinerat Cassandra med Hadoop och döpt det till Brisk. Med Brisk ersätts HDFS av Cassandra File System. Utforska mer om HDFS-koncept. Kolla in den här Big Data-kursen online , som skapades av Top Industrial Working Experts.

Fördel med Cassandra – Hadoop-kombination:

  • Man kan också implementera Cassandra med Hadoop på samma kluster. Det betyder att du kan få det bästa av två världar.
  • Ttidsbaserad och realtid körs under Cassandra applikationer (realtid är styrkan hos Cassandra) medan batchbaserad analys och frågor som inte kräver en tidsstämpel kan köras på Hadoop. I den här typen av ekosystem ersätts HDFS av Cassandra och detta är osynligt för utvecklaren. Man kan omtilldela dynamiskt noder mellan Cassandra- och Hadoop-miljöerna efter behov.
  • Cassandra File System tar bort de enskilda felpunkterna som är associerade med HDFS, nämligen NameNode och Job Tracker felpunkter som är associerade med HDFS.

Tanken är därför att kombinera Cassandra som är pionjärer själv när det gäller att hantera transaktioner i realtid med stora volymer , med Hadoop som utmärker sig på mer batchorienterade analytiska lösningar .

Cassandra and the Biggies:

Många organisationer inom branschvertikalerna anammar Cassandra för att uppnå olika affärsmål. Några framträdande är:

  • Netflix – Använder Cassandra som sin back-end-databas för sina streamingtjänster.
  • Ciscos WebEx – Använder Cassandra för att lagra användarflöde och aktivitet i nästan realtid.
  • SoundCloud – Använder Cassandra för att lagra instrumentpanelen för sina användare.
  • IBM – Har forskat i att bygga ett skalbart e-postsystem baserat på Cassandra

Jobbtitlar som involverar Hadoop och Cassandra färdigheter:

Studier av Simplyhired visar att Cassandra-jobb är mycket efterfrågade på grund av dess höga adoptionsgrad i branschen, särskilt under de senaste åren. Och framtiden ser mycket lovande ut.

Låt oss titta på några av de jobbtitlar som involverar Hadoop-Cassandra-kunskaper och deras löner som nämns på Indeed.com:

  • Dataarkitekt: Denna position ger en genomsnittlig lön på $107 000. Dataarkitekter måste ha viss erfarenhet av att skapa datamodeller, datalager, analysera data och datamigrering
  • Dataforskare: De samlar in data, analyserar dem, presenterar data visuellt och använder data för att göra förutsägelser/prognoser. Medellönen för en datavetare är 104 000 $
  • Systemingenjör: Medellönen för systemingenjörer är $89 000.
  • DBA: DBA:er tjänar i genomsnitt över 100 000 USD.
  • Programutvecklare: Mjukvaruutvecklare tjänar en genomsnittlig lön på 107 000 USD och applikationsutvecklare 93 000 USD. Människor med dessa färdigheter kan få rikligt med frilansarbete eller kan starta sin egen start om de har en entreprenörsanda.

Relaterade inlägg:

Välja rätt NoSQL-databas.

Hur öppnar man CQLSH av Cassandra installerat på Windows?


  1. Hur subtraherar man timmar från en datetime i MySQL?

  2. Det gick inte att påbörja en distribuerad transaktion

  3. Hur WEEK() fungerar i MariaDB

  4. Hur hanterar jag SQL-kolumnnamn som ser ut som SQL-nyckelord?