Det här blogginlägget är en del av en serie om Clouderas operativa databas (OpDB) i CDP. Varje inlägg går in på mer detaljer om nya funktioner och möjligheter. Börja från början av serien med Operational Database i CDP.
Clouderas OpDB ger en rik uppsättning funktioner för att lagra och komma åt data. I det här blogginlägget kommer vi att titta på tillgänglighetsfunktionerna hos OpDB och hur du kan använda dessa funktioner för att komma åt din data.
Distribution och sönderdelning
Clouderas operativa databas (OpDB) är ett utskalat databashanteringssystem (DBMS) som är designat för att skala linjärt till Petabyte av data. Som alla DBMS:er implementeras utskalning genom sharding. Två olika delningspolicyer stöds:
- Auto-sharding
- Fördefinierad skärning
Oavsett tillvägagångssätt finns det API:er för att möjliggöra sharding baserat på hash, värdeintervall och kombinationen av båda.
Auto-sharding
När automatisk delning är aktiverad distribueras tabellerna dynamiskt över klustret och när en skärvstorlek överskrider den konfigurerbara gränsen delas den automatiskt och flyttas mellan servrar i ett kluster.
Ett bordssegment delas upp i två vid den mittersta nyckeln, vilket skapar två ungefär lika stora halvor och dessa två halvor kan betjänas av olika servrar.
Automatisk sönderdelning tillämpas oavsett vilket nätverk som används med OpDB (WAN eller lokalt). Kluster kan ställas in så att de sträcker sig över ett WAN i vilket fall fragmentering och dataförflyttning skulle ske över WAN utan dataförlust.
Systemet kan konfigureras för att vara medvetet om vilka noder som finns i vilka datacenter, vilket ger extra motståndskraft för shards eftersom kopior av shards kan distribueras över flera datacenter.
Fördefinierad skärning
Skärvor kan begränsas till specifika delmängder av noder i ett kluster baserat på policy, vanligtvis på ett hyresgästspecifikt sätt. Det gör det möjligt att implementera geografiskt baserade policyer. Sedan kan tabeller replikeras mellan kluster och ställas in av policyer för att säkerställa att replikering av tabeller och tillhörande skärvor begränsas till önskade geografiska områden.
Clouderas OpDB ger inbyggt stöd för datasuveränitet. Om ett kluster sträcker sig över flera länder kan regionservergrupper användas för att förankra data i specifika länder tillsammans med HDFS-rackisoleringskonfiguration.
Frågor
Cloudera tillhandahåller tre frågemotorer optimerade för olika typer av användningsfall, både operativa och analytiska, och NoSQL-gränssnitt för att möjliggöra optimerad prestanda som sträcker sig över ett brett spektrum av både operativ och datalagers arbetsbelastning. Detta möjliggör exekvering av frågor och sammanfogningar av data över flera skärvor.
Clouderas OpDB tillhandahåller en inbyggd OLTP SQL-motor som stöder sökning av flera data- och objektmodeller inklusive sökning och sammanfogning mellan dem. Två av våra OLAP-frågemotorer kan användas för att kartlägga externa tabeller som finns i vår OpDB (eller på andra platser) och kan fråga eller sammanfoga dem för mer komplexa analytiska frågor som är typiska för datalagring
Dataintegreringsverktyg
Cloudera tillhandahåller flera verktyg för att möjliggöra integration med datalager och federerad frågebehandling.
Till exempel:
- Massexport till ett datalager tillhandahålls av Flink, Spark, Hive och MapReduce
- Streamexport till ett datalager tillhandahålls av Nifi
- In-situ datafråga inom vår OpDB tillhandahålls av Phoenix, Impala och Hive
- Federerad frågebehandling över vår OpDB, datalagerlösning och tredje parts datalagerlösningar tillhandahålls av Hive
Stöd för extern data
Clouderas OpDB innehåller många Hadoop-verktyg och integreras med det mesta av Hadoop-ekosystemet.
Vår OpDB tillhandahåller NoSQL- och SQL-gränssnitt. Det finns inga begränsningar för detta gränssnitt och det stöds mycket väl i Hadoop-communityt.
Mobil OpDB
MiNiFi kan användas på bärbara enheter vid kanten och ger dataanslutning med OpDB.
Frågeredigeraren HUE kan köras på en mobil eller bärbar enhet.
Standardbaserad anslutning
Cloudera tillhandahåller både JDBC- och ODBC-drivrutiner som tillhandahålls via våra SQL-motorer utöver direkt API-åtkomst till våra datalager och verktyg.
Nästa
I det här blogginlägget tittade vi på några av OpDB-tillgänglighetsfunktionerna som datafråga, dataintegration och anslutning. I nästa artikel kommer vi att täcka hur du kan använda administrationsfunktionerna i OpDB, hitta det här.
För mer information, gå till:Komma igång med operativ databas.