Cloudera Data Platform (CDP) är det senaste Big Data-erbjudandet från Cloudera. Det inkluderar Apache HBase och Phoenix som en del av plattformen. Dessa två komponenter tillhandahålls i tre formfaktorer:
- För on-prem-distributioner är de tillgängliga på ett sätt som liknar CDH och HDP (inom CDP Private Cloud-erbjudandet)
- För kunder som vill hantera databasen på egen hand i AWS &Azure är den tillgänglig som en del av CDP Public Cloud DataHub-erbjudandet (med mallen för operationell databas eller i Custom DataHub-distributioner)
- Den kommer att vara tillgänglig som en del av Cloudera Operational Database (COD) inom en snar framtid, som är ett helt hanterat erbjudande som eliminerar hanteringskostnader för att driva en HBase-distribution
Clouderas Apache HBase-kunder kör vanligtvis verksamhetskritiska applikationer som inte har råd med någon driftstopp. De behöver ett sätt att migrera till en ny driftsättning antingen utan produktionsavbrott eller, åtminstone, ett litet avbrott. Med dessa uppgraderingsöverväganden i åtanke, särskilt med det kommande slutet av stödet för CDH5 och HDP 2, har vi utvecklat Cloudera OpDB Replication Plugin .
Många företag distribuerar också CDH 6, HDP 3 och EMR-baserade HBase-kluster men vill minska eller eliminera den operativa omkostnaden för att underhålla HBase-kluster. För dem, Cloudera OpDB Replication Plugin kan göra det möjligt för dem att migrera till DataHub eller COD utan att drabbas av stillestånd eller produktionsavbrott.
Replikeringspluginen stöder replikering från följande käll-HBase-kluster:
- CDH 5.14
- CDH 6.3
- HDP 2.6.5
- HDP 3.1.5
- EMR 5.28
HBase-replikering
HBase har tillhandahållit en mogen, funktionsrik replikeringskapacitet i nästan ett decennium. Replikering är en av HBases mest populära funktioner eftersom den tillhandahåller en lösning för automatisk disaster-recovery (DR), stöder datamigrering, stöder arbetsbelastningspartitionering och/eller stöder ett sökbaserat sekundärt index genom integration med Apache Solr. En detaljerad diskussion om hur HBase Replication fungerar och hur man konfigurerar replikering förklaras i HBase Reference Guide och har diskuterats i många Cloudera Blog-artiklar. Idag stöder den många topologier inklusive:
- Fan-in
- Fan-out
- cyklisk
- Dubbelriktad
HBase-replikering kan konfigureras på antingen namnutrymmet (d.v.s. databas) eller tabellnivå. Även om den är nästan i realtid, kan den konfigureras för att så småningom vara konsekvent eller tidslinjekonsekvent.
Cloudera OpDB-replikeringsplugin stöder endast ett destinationskluster som tillhandahålls av ett CDP DataHub-kluster eller av en COD-databas, distribuerad i antingen AWS eller Azure.
Etablera förtroende
HBase-replikering har hittills krävt att alla deltagande kluster har samma säkerhetsdefinitioner, med andra ord måste alla kluster antingen inte ha någon säkerhet aktiverad (autentiseringskonfigurationen inställd på enkel) , eller så måste alla kluster ha säkerhet aktiverat med kerberos (autentiseringskonfigurationen inställd på kerberos) .
När Kerberos används måste alla klusters kerberos-principer tillhöra samma sfär, eller om de är i olika världar måste de vara tillförlitliga mellan varandra (allmänt känd som cross-realm autentisering).
Konfigurera förtroende över hela världen med Kerberos är problematiskt i de flesta organisationer eftersom företagens säkerhetspolicyer vanligtvis förbjuder det. För att lösa detta problem, Cloudera OpDB Replication-plugin utökar HBase-replikering till att använda en alternativ autentiseringsmetod, vilket möjliggör replikering över säkerhetsdomäner. Replikeringspluginen tillåter replikering
- Över flera Kerberos-domäner utan att kräva förtroende över hela världen
- replikering från säkra till osäkra kluster och
- Replikering från osäkra till säkra kluster.
För att etablera förtroende från CDP-kluster för kluster som antingen inte har några säkerhetskonfigurationer eller som är säkrade med Kerberos, implementerar replikeringsplugin en ny autentiseringsmekanism med hjälp av en delad hemlighet som skapas med hjälp av ett tillhandahållet verktyg och lagras i både käll- och destinationsklustren.
Slutsats
Replikering är ett värdefullt verktyg för att implementera DR- och datacenter(DC)-migreringslösningar för HBase. Den har några varningar, som visas här när du hanterar klusters säkerhetskonfigurationer. Med det förestående slutet av livslängden för CDH 5 och HDP 2 är möjligheten att migrera data från dessa äldre plattformar till CDP absolut nödvändig.
För kunder med HDP3-, CDH6- och EMR 5.28-baserade HBase-distributioner gör det här plugin-programmet för dessa kunder att sömlöst anta en helt hanterad HBase-lösning och drastiskt minska den operativa omkostnaden för att hantera HBase.
Kontakta ditt Cloudera-kontoteam om du är intresserad av att distribuera Cloudera OpDB-replikeringsplugin i din miljö.