Redaktörens anteckning, augusti 2020:CDP Data Center kallas nu CDP Private Cloud Base. Du kan lära dig mer om det här.
Introduktion
Det här blogginlägget är en del av en serie om Clouderas operativa databas (OpDB) i CDP. Varje inlägg går in på mer detaljer om nya funktioner och möjligheter. Börja från början av serien med Operational Database i CDP.
Det här blogginlägget ger dig en översikt över administrationsverktygen och funktionerna för operationsdatabasen (OpDB) i Cloudera Data Platform. Det är tillgängligt i två formfaktorer idag:som ett helt säkert, semi-hanterat erbjudande i CDP Public Cloud – Data Hub och som ett helt anpassningsbart erbjudande i CDP Data Center (liknande det som finns tillgängligt i CDH och HDP). För mer information om Data Hub, se Cloudera Data Hub.
Fig 1:OpDB Data Hub-kluster.
Du kan använda länkarna i den här artikeln för att få mer information och instruktioner om hur du använder dessa funktioner.
Skapa och kontrollera databas
Apache HBase-namnområden är logiska grupper av tabeller som liknar en databas i ett traditionellt relationsdatabassystem. Namnutrymmen kan skapas eller hanteras via Apache HBase Shell. För mer information om hur du använder Apache HBase-skalet, se Apache HBase-skalöversikten.
Med Replication Manager &Ranger i bilden med CDP kan du bara skapa namnområdet och hantera det i HBase-skalet. Men behörigheter är via Ranger och replikering sker via Replication Manager.
Precis som i en relationsdatabas innehåller namnutrymmen samlingar av tabeller och behörigheter, replikeringsinställningar och resursisolering. Du kan ställa in dessa konfigurationer på namnområdesnivå. I CDP kan du skapa ett namnområde och hantera det med HBase-skalet. Du kan använda Apache Ranger för finkorniga auktoriseringspolicyer och revision. För mer information om hur du ställer in säkerhet i CDP, se Säkerhet med Ranger.
Replication Manager hjälper dig att skapa HBase-replikeringspolicyer. Du kan använda Replication Manager för att ställa in replikering mellan CDH/HDP eller Apache HBase till CDP Data Center.
Fig 2:Skapar användargränssnitt för replikeringspolicy
Grafisk DDL- och DCL-funktionalitet
Det finns flera verktyg för detta inklusive plugins för:
- Cloudera Machine Learning (CML):CML hjälper dig att söka efter data med hjälp av HBase-klienten och Phoenix, och hjälper dig med interaktiv datautforskning, visualisering, delning och samarbete. OpDB kan användas för att lagra förutsägelseresultat för session/jobb/modell för senare förfrågningar av flera olika användare.
Fig 3:Cloudera Machine Learning användargränssnitt
- Hue:Hue är en webbaserad interaktiv frågeredigerare som gör att du kan interagera med datalager. Du kan använda HBase Browser-applikationen i Hue för att skapa och bläddra i HBase-tabeller.
Fig 4:Hue-gränssnittet stöder sökning, infoga, uppdatera, ta bort, DDL för HBase
Du kan använda SQL-gränssnitt med Impala eller Hive för frågebehandling i Hue.
Fig 5:SQL-gränssnitt med Impala
Här är en handledning för att skapa exempeltabeller i HBase med Hue:https://gethue.com/hadoop-tutorial-how-to-create-example-tables-in-hbase/
- Eclipse:HBase-kodformatering för Eclipse är användbart när du redigerar HBase-kod i Eclipse. För mer information, se Bygga och utveckla Apache HBase.
Verktyg som Zeppelin och Hue tillsammans med deras plugins tillhandahålls direkt ur förpackningen. Men du kan också använda SQL-verktyg från tredje part som Toad.
Verktyg för uppgradering av operativ databasversion
Du kan använda Cloudera Manager för att automatisera processen för att uppgradera den operativa databasen i ditt Cloudera Data Platform-Data Center (CDP-DC). Uppgraderingar tillhandahålls genom utgåvor eller underhållskorrigeringar. Cloudera Manager installerar utgåvorna och/eller patchar och hanterar konfigurationen samt omstartsprocessen.
Om du använder CDP på ett offentligt moln som Amazon AWS, måste du skapa ett nytt Data hub-kluster för att uppgradera till de nya versionerna av olika komponenter. För mer information om hur du skapar ett nytt operativ databas Data hub-kluster, se Komma igång med operativ databas på CDP.
Clouderas erbjudande är ett klusterbaserat erbjudande; uppgraderingar och patchar spänner alla över flera noder (servrar) och installation, konfiguration och omstart är alla automatiserade, inklusive rullande omstarter där så är tillämpligt.
Lättningshanteringsverktyg över flera servrar
I CDP Data Center installerar Cloudera Manager utgåvorna och hanterar konfigurationen. Cloudera Manager gör också omstartsprocessen för var och en av de påverkade komponenterna.
Zero-downtime patch-applikation
I CDP Data Center låter Cloudera Manager dig applicera patchar med noll driftstopp.
Förändringshantering över flera servrar
Du kan utföra ändringshantering på databasscheman över flera instanser. Du kan till exempel göra detta i din test-/dev-, iscensättnings- eller produktionsmiljö.
Du kan skripta de nödvändiga ändringarna med HBase-skalet och sedan sprida det till de andra instanserna.
För mer information om hur du använder HBase-skal, se Apache HBase-skal.
Arbetsbelastningspartitionering
Du kan göra arbetsbelastning/applikationspartitionering inom OpDB med hjälp av flera verktyg beroende på arten av uppsättningen av arbetsbelastningar och deras databehov.
Om alla applikationer har åtkomst till separata tabeller kan regionservergrupper användas för att dedikera en uppsättning noder för en definierad uppsättning tabeller eller namnområden som skapar en hårdvarupartitioneringsmetod. För mer information om regionservergrupper, se Använda RegionServer Grouping.
För applikationer som använder samma uppsättning tabeller kan du använda RPC-strypning, användarkvoter och utrymmeskvoter för att hantera det brusiga grannproblemet. Se HBase offerthantering för mer teknisk information.
Du kan också kombinera dessa två uppsättningar alternativ för att få ett mer sofistikerat partitioneringsschema. Använd Cloudera Manager för att säkerställa att specifika tjänster är uppdelade på lämpligt sätt mellan olika noder i klustret; till exempel kan du bestämma vilka noder som ska användas för SOLR-sökning etc.
Hårdvarupartitionering
Cloudera Manager och YARN använder båda Linux cgroups och aktiv minneshantering för både statisk och dynamisk partitionering av hårdvaruresurser.
För det första kan alla processer som körs på alla värdar hårdpartitioneras med cgroups, inställda av Cloudera Manager. För det andra låter en guide användare definiera layouten för statiska partitioner för tjänster genom att ställa in procentsatser, automatiskt översätta cgroup-baserad CPU- och I/O-isolering och ställa in minnesgränser genom att konfigurera tjänsterna själva.
Slutligen tillhandahåller den inbyggda resurshanteraren en containermodell för arbetsbelastningar som placerar varje diskret arbetsenhet i en container, med hjälp av cgroups och aktiv minneshantering (set, monitor and kill) för applikationsisolering.
Programvaruhypervisorer
Följande mjukvaruhypervisorer stöds
- VMware stöds för lokala miljöer
- Microsofts Azures virtuella miljöer (Azure-stack)
- Amazon Web Services, Google Compute Platforms virtualisering och Microsoft Azure stöds i molnet.
Behållar- och orkestreringsstöd
Cloudera tillhandahåller en Docker-bild som har Apache HBase, Apache ZooKeeper och Cloudera Manager installerade. Du kan konfigurera YARN för att hantera dina Docker-containrar och skicka Apache HBase-jobb till YARN på samma container eller skicka jobb till YARN från en annan container.
För mer information, se Hantera Docker-behållare på YARN.
Återställning av patchar eller releaseuppgraderingar
Cloudera Manager tillhandahåller automatisering för några av återställningsprocesserna. Uppgraderingar kan ibland innebära ändringar i dataformat. Verktyg för att ångra formatändringar stöds inte, och du måste utlösa en återställning av data från säkerhetskopior så att återställning kan använda gamla data.
Migrering över plattformar
Clouderas standardverktyg för säkerhetskopiering/återställning/dataåterställning är tillgängliga för att stödja migreringen av OpDB mellan olika operativsystem.
HBase strategier för säkerhetskopiering och katastrofåterställning säkerställer att dina data säkerhetskopieras för att skydda dig från förlust av data. HBase ögonblicksbild gör att du kan ta en ögonblicksbild av en tabell utan större inverkan på RegionServers. Också eftersom ögonblicksbild, kloning och återställning inte involverar datakopiering.
För mer information om HBase-säkerhetskopiering och katastrof, se strategier för HBase-säkerhetskopiering och katastrofåterställning.
Databasadministratörsverktyg (DBA)
Det finns många verktyg som stödjer hantering av databasen, inklusive:
- Cloudera Manager
- HBase-skal
- Hue
- HBCK2
- hbtop
- Ranger
- Atlas
- FreeIPA
- navencrypt
- HDFS-verktyg
- GARN
Dessa verktyg tillhandahåller mätvärden och övervakning, omstart av kluster, tillägg av intag, livscykelhantering, uppgraderingar, säkerhet, Kerberos-installation och andra funktioner.
Fig 6:Cloudera Manager HBase-gränssnitt
Fig 7:Mätvärden och övervakning i Cloudera Manager:
Fig 8:Omstart av kluster i Cloudera Manager
Utöver dessa verktyg kan du även använda följande administrationsverktyg från tredje part och öppen källkod:
- hrider
- HADMIN
Öppna dokumenterade gränssnitt för hanteringsverktyg från tredje part
Vi tillhandahåller också öppna API:er för att möjliggöra att andra verktyg kan användas för att hantera OpDB. JMX-gränssnittet kan till exempel användas för att integrera med tredjeparts övervakningsverktyg som Grafana.
Slutsats
I det här blogginlägget tittade vi på hur du kan använda de olika administrativa verktygen och funktionerna som tillhandahålls av OpDB i CDP. I nästa artikel kommer vi att täcka hur du kan använda hanteringsfunktionerna i OpDB, kolla in det här.