sql >> Databasteknik >  >> NoSQL >> HBase

Förstå Hadoop High Availability Feature

Den här bloggen ger dig en beskrivning av Hadoop HDFS High Availability-funktion. I den här bloggen kommer vi först att diskutera vad hög tillgänglighet är, hur Hadoop uppnår hög tillgänglighet, vad är behovet av HDFS-funktion för hög tillgänglighet.

Vi kommer också att täcka exemplet med Hadoop hög tillgänglighetsfunktion i denna Big data Hadoop handledning.

Vad är Hadoop HDFS High Availability?

Hadoop HDFS är ett distribuerat filsystem. HDFS distribuerar data mellan noderna i Hadoop-klustret genom att skapa en replik av filen. Hadoop-ramverket lagrar dessa repliker av filer på de andra datorerna som finns i klustret.

Så när en HDFS-klient vill komma åt sina data, kan han enkelt komma åt dessa data från ett antal maskiner som finns i klustret. Data är lätt tillgänglig i den närmaste noden i klustret.

Vid vissa ogynnsamma förhållanden som ett fel på en nod kan klienten enkelt komma åt sina data från de andra noderna. Denna funktion i Hadoop kallasHög tillgänglighet .

Hur uppnås hög tillgänglighet i Hadoop?

I HDFS-klustret finns det ett antal DataNoder . Efter det bestämda tidsintervallet skickar alla dessa DataNodes hjärtslagsmeddelanden till NameNode . Om NameNode slutar att ta emot hjärtslagsmeddelanden från någon av dessa DataNodes, antar den att den är död.

Därefter letar den efter data som finns i dessa noder och ger sedan kommandon till den andra datanoden för att skapa en kopia av denna data till andra datanoder. Därför är data alltid tillgänglig.

När en klient ber om dataåtkomst i HDFS, söker NameNode först och främst efter data i de datanoderna, där data snabbt är tillgänglig. Och ger sedan åtkomst till denna data till klienten.

Kunder behöver inte söka efter data i alla datanoder. HDFS Namenode i sig gör datatillgängligheten enkel för klienterna genom att tillhandahålla adressen till datanoden varifrån en användare kan läsa direkt.

Exempel på Hadoop High Availability

Hadoop HDFS ger hög tillgänglighet av data. När klienten begär NameNode för dataåtkomst, då söker NameNode efter alla noder där denna data är tillgänglig.

Efter det ger den åtkomst till dessa data till användaren från den nod där data snabbt var tillgänglig. När man söker efter data på alla noder i klustret, om NameNode hittar någon nod som är död, omdirigerar NameNode utan användarens kunskap om användare till den andra noden där samma data är tillgänglig.

Utan några avbrott görs data tillgänglig för användaren. Så under förhållanden med nodfel är också data mycket tillgänglig för användarna.

Vilka var problemen med äldre system?

  • Data var inte tillgänglig på grund av att maskinen kraschade.
  • HDFS-klienten måste vänta en lång tid för att få tillgång till sina data. För det mesta måste användare vänta en viss tid tills webbplatsen kommer upp.
  • Begränsade funktioner och funktioner.
  • På grund av otillgänglighet av data förlängs slutförandet av många stora projekt hos organisationer under en lång period och därför måste företag gå igenom kritiska situationer.

Slutsats

Därför är In Hadoop-data mycket tillgänglig och tillgänglig trots hårdvarufel på grund av flera kopior av data. Så om någon nod eller maskiner kraschar eller går ner, kan vi komma åt data från en annan väg. Läs mer HDFS-funktioner.

Om du tycker att den här bloggen är användbar för Hadoop High Availability, så vänligen dela dina tankar i kommentarsektionen.


  1. Hur använder StackExchange.Redis flera slutpunkter och anslutningar?

  2. Spring Redis - Läs konfigurationen från filen application.properties

  3. Hur installerar man tidigare version av mongodb med homebrew?

  4. Flytta underfält till toppnivå i projektion utan att lista alla nycklar