sql >> Databasteknik >  >> NoSQL >> HBase

Grattis på födelsedagen Apache HBase! 10 år av motståndskraft, stabilitet och prestanda

Apache HBase blev ett projekt på toppnivå med Apache för 10 år sedan och Cloudera började bidra till det samtidigt (2010). Under denna tid har det blivit ett av de största och mest populära verktygen med öppen källkod inom big data och en av de mest populära NoSQL-databaserna.

Apache Software Foundation tillkännager 10-årsjubileet för Apache HBase

HBase stöder både nyckelvärde och NoSQL-databas med breda kolumner och används av företag över hela världen. Cloudera har över 500 kunder i produktion som använder det för användningsfall som sträcker sig från affärskritiska transaktionsapplikationer, datalager, maskininlärning och datateknik. Våra kunder väljer HBase på grund av dess motståndskraft (med vissa kunder som kan realisera 100 % drifttid under många år), stabilitet, prestanda och låga driftskostnader. Cloudera-kunder distribuerar den fristående, tillsammans med Phoenix som är en SQL-baserad databas byggd på HBase och ibland med Apache Impala och/eller Apache Hive som låter dem köra SQL-baserade OLAP-frågor på HBase.

Jag har varit produktchef för Clouderas Operational Database-erbjudande sedan 2018 och fick möjlighet att träffa många av våra kunder. Jag är ständigt imponerad av det breda utbudet av sätt som kunder använder HBase. Bredden av användningsfall är så stor och varierad att den trotsar segmentering. Efter mycket analys slutade jag med ett enkelt tillvägagångssätt för att klassificera användningsfall – kunder som använder det för att stödja verksamhetskritiska applikationer och de som inte gör det. De affärskritiska applikationerna tenderar att vara transaktionella till sin natur och hjälpa våra kunder att driva sina intäkter och/eller driva operativ effektivitet. För dem, om HBase går ner, påverkas top- och/eller bottom-line och i värsta fall kan människor dö.

Exempel på uppdragskritiska användningsfall:

  • En leverantör av hälsovårdsprogram använder HBase för att driva hundratals applikationer. Om dessa applikationer misslyckas kan människor av någon anledning dö och sjukvårdskostnaderna stiger. Den här kunden har distribuerat HBase på över 7 000 noder med över 70 PB data.
  • En mobiltelefontillverkare använder HBase för att aktivera en röstassistent och många andra användningsfall på över 6 000 noder
  • Ett finansiellt mediehus använder HBase för att driva delar av plattformen och gör det möjligt för handlare och andra att förstå det relevanta sammanhanget kring aktiekursrörelser, trender etc på 1 200+ noder
  • En marknadsledande plattform för e-postmarknadsföring kör HBase på ~1 000 noder
  • En försäkringsleverantör använder HBase på ~1 000 noder för att lagra all skadeinformation och använder den för att hantera dessa anspråk under hela livscykeln
  • En leverantör av bibliotekstjänster använder HBase på över 400 noder för att stödja interbibliotekslån runt om i världen 
  • Ett globalt kraftdistributionsföretag använder HBase på 400+ noder för att ta emot avläsningar från 7+ miljoner smarta mätare och för att utföra automatiserad distribution av reparationsteam för det elektriska distributionsnätverket, applikationer för strömfakturering och driva kontinuerlig utbildning av maskininlärningsmodeller 
  • Det största indonesiska teleföretaget, Telkomsel, med över 170 miljoner kunder, migrerade hela sin CRM-applikation från äldre MPP-databas till HBase och Impala och kunde uppnå svarstid under sek. alla CRM-frågor för enskilda användare samtalsposter, profiler, laddningar, dataanvändning, etc. Fördelen med att ha Impala att fråga HBase var att säkerställa ANSI SQL-kompatibelt gränssnitt tillgängligt via JDBC för att minimera CRM-ändringar.

Exempel på icke-uppdragskritiska användningsfall:

  • En tillverkare av produkter för personlig hygien använder HBase för att hantera allt sitt produktvarumärke och marknadsföringsmaterial 
  • En halvledartillverkare använder HBase för att lagra loggfiler från sina produkter och extraherar dem till andra system för analys 
  • En telekommunikationsleverantör använder HBase för att lagra sina dimensionstabeller för Hive

Det som skiljer HBase från andra NoSQL-erbjudanden är dess integration över Open Source, Big Data Ecosystem som gör det möjligt för kunder att få en helhetsupplevelse. De kan använda det för applikationer som behöver data från kanten eller applikationer som behöver leverera AI/ML-modeller i stor skala eller någon kombination därav.

En av de mest intressanta supportbiljetterna jag har sett stött på hos Cloudera är när en HBase-kund lämnade in en högprioritetsärende som indikerar att deras uppdragskritiska distribution var nere. De hade inte interagerat med oss ​​på över ett år och jag visste inte ens att de var en viktig kund. Det var bara i det här fallet jag fick reda på att de hade distribuerat 1 000 noder för att driva en omnikanalsmarknadsföringsplattform på HBase. Roten till problemet var att de hade gjort några problematiska ändringar i sina konfigurationsinställningar 9 månader före incidenten. När de äntligen startade om trädde de problematiska konfigurationsinställningarna i kraft och fick dem att fråga Cloudera om hjälp!

Cloudera bryr sig mycket om HBase och har 15 engagerade och PMC-medlemmar i projektet. Vi investerar också för att göra det tillgängligt i det offentliga molnet, med både PaaS-liknande och dbPaaS-formfaktorer.

HBase-upplevelser genom åren

Med tanke på vårt långvariga engagemang och historia med detta projekt, ville vi dela med oss ​​av ett par erfarenheter och berättelser associerade med detta projekt från hela Cloudera-teamet.

"För flera år sedan var jag på en Apache Hadoop-fokuserad teknisk konferens. En sen kväll gick jag tillbaka till mitt rum, och jag råkade se en grupp individer som jag kände igen som långvariga kunder samlade runt ett bord. Nu är det här en mycket kompetent grupp individer som jag hade arbetat med redan i många år. Jag slingrade mig över, med avsikt att kort säga hej och vara på väg efter en lång dag. Det visade sig att de hade ett produktionsavbrott på ett av sina system och var mitt uppe i att försöka få det löst. Jag satte mig ner, drog fram min bärbara dator och umgicks med dem under de närmaste timmarna medan vi analyserade problemet och åtgärdade problemen vi hittade. Att stödja uppdragskritiska tillämpningar kräver ibland hjältemod, men ibland hittar du också några fåglar längs vägen.”

— Senioringenjör

"I många företags natur är det absolut nödvändigt att kunna skala och fortfarande uppfylla de låga latenskraven för deras verksamhetskritiska system. Om man tittar tillbaka genom arkiven så hade våra kunder tuffa tider för att leva upp till så svåra krav. HBase har de element som gjorde att det ser enkelt ut att uppfylla dessa förväntningar, särskilt genom att minimera tiden för att utlösa den näst bästa åtgärden.”

— Principal Solutions Architect 

"För tre år sedan var jag ny teknikchef på Cloudera. Jag brukade veta om företagets verksamhet med öppen källkod och jag har varit en GNU Linux-användare sedan gymnasiet, men att använda öppen källkod och vara en del av det är helt annorlunda.

Som den nya killen på företaget var jag tvungen att förstå vad teamet gör så jag fick några supportbiljetter tilldelade till mig själv och började arbeta med dem. Jag visste bara två saker, jag var Java-utvecklare i många år så jag måste kunna göra det och Hortonworks är vår mest utmanande konkurrent vilket betyder att det kan vara intressant att arbeta med dem.

Och så hände det, med min första Apache HBase-biljett någonsin stötte jag på Josh Elser – ledaren för Hortonworks HBase-team – som visade mig att implementering av en nyuppgift kan vara svårare än förväntat (med kvalitetsstaplarna som HBase-teamet har) och att din konkurrent kan vara din bästa partner i öppen källkod. Till slut begick han mina ändringar.

Under de senaste tre åren har många saker förändrats. Cloudera och Hortonworks gick samman, vi jobbar nu på samma företag men Apache och HBase är samma. Jag har begränsad tid att arbeta med koden men ser dess kraft, se hur den används för tjänster som jag inte visste fanns och jag ser hur den får människor över hela världen att arbeta tillsammans. Det förbinder människor över företag, kontinenter, kulturer.”

— Ingenjörschef

"HBase och Phoenix har varit lätta att lära sig. Data Hub gör det enkelt att starta och ser nu fram emot att Cloudera Operational Database tar HBase till nästa decennium.”

— Technical Customer Success Manager

"Under de senaste 9 åren har jag varit från frontlinjen till utvecklingen av HBase och sett utvecklingen av hur våra kunder använder HBase från en POC till storskaliga, verksamhetskritiska plattformar. Det mest anmärkningsvärda ögonblicket under den här tiden var före sammanslagningen av Cloudera och Hortonworks när team från båda företagen arbetade tillsammans för att förbättra funktionaliteten hos en kritisk produktfunktion. Så småningom presenterades arbetet på HBaseCon och fick stort erkännande av två av HBases största användare. Den här funktionen driver en viktig funktion som används av mer än 2B mobila enheter runt om i världen.”

– Senioringenjör 

"Ett annat fantastiskt ögonblick från de senaste 10 åren av HBase var på HBaseCon 2015 när Carter Page från Google gav ett allmänt erkännande till hur HBase utvecklades till ett mycket gediget projekt" 

– Senioringenjör

"Jag har haft nöjet att delta i nästan alla HBaseCons (och tala på några av dem). Det här är tre av mina favoritminnen från HBaseCon:(1) HBases mångfald:HBase 2.0-meddelandet belyste inte bara antalet skickade JIRA utan också antalet HBase-kommittare och PMC-medlemmar utanför USA plus hade en kvinna som ledde HBase PMC , (2) HBases momentum:Facebooks tillkännagivande om att de lämnar sin anpassade gaffel för att gå 100 % uppströms Apache HBase, och (3) HBases språngbrädor:vid en HBaseCon höll en Bloomberg-utvecklare ett läst replikatal och sedan två HBaseCons senare , gav en Apple-utvecklare en HBaseCon keynote om hur man använder läsrepliker i produktionen.”

– Senior systemingenjör

På Cloudera fortsätter vi att se en ljus framtid för detta projekt och förväntar oss att det kommer att utvecklas för att driva nästa generations applikationer som byggs i molnet i PaaS-liknande och dbPaaS-formfaktorer såväl som i datacenter med privat moln.

För en förhandstitt på vad som komma skall, kolla in CDP Public Clouds operativa DB-mall .


  1. Hitta dubbletter av poster i MongoDB

  2. Implementering av paginering i mongodb

  3. redis prestanda, lagra json-objekt som en sträng

  4. StackExchange TimeoutException när du försöker infoga 750 objekt i 2 uppsättningar i redis