sql >> Databasteknik >  >> NoSQL >> HBase

20 Noterbar skillnad mellan Hadoop 2.x och Hadoop 3.x

Syftet med denna Hadoop-handledning är att ge dig en tydligare förståelse mellan olika Hadoop-versioner. I den här bloggen har vi täckt topp 20 skillnader mellan Hadoop 2.x vs Hadoop 3.x.

Den här bloggen tar upp skillnaden mellan Hadoop 2 och Hadoop 3 på grundval av olika funktioner.

Skillnaden mellan Hadoop 2.x och Hadoop 3.x

Apache Hadoop är ett ramverk för öppen källkod för distribuerad lagring och bearbetning av enorma mängder datamängder.

Hadoop 3.x introducerades för att övervinna begränsningen av Hadoop 2.x. Hadoop 3.x har lagt till några nya funktioner, även om de gamla funktionerna fortfarande används.

Detaljerad funktionsmässig jämförelse mellan Hadoop 2.x vs Hadoop 3.x ges nedan:

a. Licens

  • Hadoop 2 .x- Apache 2.0, öppen källkod
  • Hadoop 3 .x- Apache 2.0, öppen källkod

b. Minsta möjliga version av Java

  • Hadoop 2 .x- Java 7.
  • Hadoop 3 .x- Java 8.

c. Feltolerans

  • Hadoop 2.x- I den här versionen hanterar replikering feltolerans.
  • Hadoop 3.x- I den här versionen hanterar raderingskodning feltolerans.

d. Databalansering

  • Hadoop 2.x- Använder HDFS Balanserare för databalansering
  • Hadoop 3.x- Använder Intra-data nod balancer, som anropas via HDFS diskbalanserare CLI.

e. Lagringsschema

  • Hadoop 2.x- Använder 3X-replikeringsschema.
  • Hadoop 3.x- Använder raderingskodning.

f. Lagringskostnader

  • Hadoop 2.x- I den här versionen har HDFS 200 % overhead i lagringsutrymme.
  • Hadoop 3.x- I den här versionen har HDFS 50 % overhead i lagringsutrymme.

g. Exempel på lagringskostnader

  • Hadoop 2.x- Om det finns 6 block, och 3x replikering av varje block, så resulterar det i 18 block. Den kommer att uppta 18 blocks utrymme.
  • Hadoop 3.x- Om det finns 6 block, så kommer det att uppta 9 blockutrymme, dvs. 6 block och 3 för paritet.

h. YARN Timeline Service

  • Hadoop 2.x- Använder gammal tidslinjetjänst som har problem med skalbarhet.
  • Hadoop 3.x- Den här versionen förbättrar tidslinjetjänsten v2. Det förbättrar också skalbarheten och tillförlitligheten för tidslinjetjänsten.

j. Standardportintervall

  • Hadoop 2.x- I den här versionen är standardportarna Linux ephemeral port range. Därför kommer de inte att binda vid tidpunkten för uppstart.
  • Hadoop 3.x- Medan den här versionen flyttas utanför det tillfälliga intervallet.

k. Verktyg

  • Hadoop 2.x- Hive, gris, Tez, Hama och andra Hadoop-verktyg finns också.
  • Hadoop 3.x- I den här versionen finns även Hive, pig, Tez, Hama och andra Hadoop-verktyg tillgängliga.

l. Kompatibelt filsystem

  • Hadoop 2.x- Den stöder HDFS (Standard FS), FTP-filsystem:Detta lagrar också all data på fjärråtkomliga FTP-servrar. Den stöder även filsystemet Amazon S3 (Simple Storage Service) Windows Azure Storage Blobs (WASB).
  • Hadoop 3.x- Den stöder alla de tidigare såväl som Microsoft Azure Data Lake-filsystem.

m. Datanode-resurser

  • Hadoop 2.x- För MapReduce är Datanode inte dedikerad. Vi kan också använda det för andra applikationer.
  • Hadoop 3.x- I den här versionen kan även datanodsresurs användas för andra applikationer.

n. MR API-kompatibilitet

  • Hadoop 2.x- MR API kompatibel med Hadoop 1.x-programmet för att köras på Hadoop 2.X
  • Hadoop 3.x- MR API är också kompatibelt med att köra Hadoop 1.x-program för att köras på Hadoop 3.X

o. Stöd för Microsoft

  • Hadoop 2.x- Det kan distribueras på Windows.
  • Hadoop 3.x- Den stöder även för Microsoft Windows.

s. Fack/behållare

  • Hadoop 2.x- Hadoop 1.x arbetar med konceptet slots medan Hadoop 2.X arbetar med konceptet för behållaren.
  • Hadoop 3.x- Hadoop 3.x fungerar också på konceptet med en container.

q. Single point of failure

  • Hadoop 2.x- Den har funktionerna för att övervinna SPOF. Så närhelst NameNode misslyckas återställs den automatiskt.
  • Hadoop 3.x- Den har också funktioner för att övervinna SPOF. Så närhelst NameNode misslyckas återställs den automatiskt utan behov av manuellt ingripande.

r. HDFS Federation

  • Hadoop 2.x- I Hadoop 1.x endast en enda NameNode för att hantera alla namnområden. Men Hadoop 2.x har flera NameNode för flera Namespace.
  • Hadoop 3.x-  Den har också flera namnnoder för flera namnområden.

s. Skalbarhet

  • Hadoop 2.x- Vi kan skala upp till 10 000 noder per kluster.
  • Hadoop 3.x- Vi kan skala mer än 10 000 noder per kluster.

t. HDFS-ögonblicksbild

  • Hadoop 2.x- Det lägger till stöd för en ögonblicksbild. Det ger också återställning efter katastrof och skydd för användarfel.
  • Hadoop 3.x- Det stöder också ögonblicksbildsfunktionen.

u. Plattform

  • Hadoop 2.x- Den fungerar som en plattform för en mängd olika dataanalyser. Det är också möjligt att köra händelsebearbetning, streaming och realtidsoperationer.
  • Hadoop 3.x- Det är också möjligt att köra händelsebearbetning, streaming och drift i realtid på toppen av YARN.

Slutsats

Sammanfattningsvis har Hadoop 3.0 lagt till nya funktioner som raderingskodning för att hantera feltolerans. Hadoop 3.x minskar också lagringskostnaderna med 200 % till 50 %.

Det introducerade också ett nytt kommandoradsverktyg som heter Diskbalancer. Därför har Hadoop 3.x förbättrat övergripande prestanda.

Om du hittar någon annan skillnad mellan Hadoop 2.x vs Hadoop 3.x, så låt oss veta det i kommentarsfältet.


  1. MongoDB Ersätt specifika matrisvärden

  2. $lookup flera nivåer utan $unwind?

  3. Redis hur man lagrar associativ array? Set eller Hash eller List?

  4. Node.js och Mongoose regex-fråga på flera fält