20 Noterbar skillnad mellan Hadoop 2.x och Hadoop 3.x

Syftet med denna Hadoop-handledning är att ge dig en tydligare förståelse mellan olika Hadoop-versioner. I den här bloggen har vi täckt topp 20 skillnader mellan Hadoop 2.x vs Hadoop 3.x.

Den här bloggen tar upp skillnaden mellan Hadoop 2 och Hadoop 3 på grundval av olika funktioner.

Skillnaden mellan Hadoop 2.x och Hadoop 3.x

Apache Hadoop är ett ramverk för öppen källkod för distribuerad lagring och bearbetning av enorma mängder datamängder.

Hadoop 3.x introducerades för att övervinna begränsningen av Hadoop 2.x. Hadoop 3.x har lagt till några nya funktioner, även om de gamla funktionerna fortfarande används.

Detaljerad funktionsmässig jämförelse mellan Hadoop 2.x vs Hadoop 3.x ges nedan:

a. Licens

Hadoop 2 .x- Apache 2.0, öppen källkod
Hadoop 3 .x- Apache 2.0, öppen källkod

b. Minsta möjliga version av Java

Hadoop 2 .x- Java 7.
Hadoop 3 .x- Java 8.

c. Feltolerans

Hadoop 2.x- I den här versionen hanterar replikering feltolerans.
Hadoop 3.x- I den här versionen hanterar raderingskodning feltolerans.

d. Databalansering

Hadoop 2.x- Använder HDFS Balanserare för databalansering
Hadoop 3.x- Använder Intra-data nod balancer, som anropas via HDFS diskbalanserare CLI.

e. Lagringsschema

Hadoop 2.x- Använder 3X-replikeringsschema.
Hadoop 3.x- Använder raderingskodning.

f. Lagringskostnader

Hadoop 2.x- I den här versionen har HDFS 200 % overhead i lagringsutrymme.
Hadoop 3.x- I den här versionen har HDFS 50 % overhead i lagringsutrymme.

g. Exempel på lagringskostnader

Hadoop 2.x- Om det finns 6 block, och 3x replikering av varje block, så resulterar det i 18 block. Den kommer att uppta 18 blocks utrymme.
Hadoop 3.x- Om det finns 6 block, så kommer det att uppta 9 blockutrymme, dvs. 6 block och 3 för paritet.

h. YARN Timeline Service

Hadoop 2.x- Använder gammal tidslinjetjänst som har problem med skalbarhet.
Hadoop 3.x- Den här versionen förbättrar tidslinjetjänsten v2. Det förbättrar också skalbarheten och tillförlitligheten för tidslinjetjänsten.

j. Standardportintervall

Hadoop 2.x- I den här versionen är standardportarna Linux ephemeral port range. Därför kommer de inte att binda vid tidpunkten för uppstart.
Hadoop 3.x- Medan den här versionen flyttas utanför det tillfälliga intervallet.

k. Verktyg

Hadoop 2.x- Hive, gris, Tez, Hama och andra Hadoop-verktyg finns också.
Hadoop 3.x- I den här versionen finns även Hive, pig, Tez, Hama och andra Hadoop-verktyg tillgängliga.

l. Kompatibelt filsystem

Hadoop 2.x- Den stöder HDFS (Standard FS), FTP-filsystem:Detta lagrar också all data på fjärråtkomliga FTP-servrar. Den stöder även filsystemet Amazon S3 (Simple Storage Service) Windows Azure Storage Blobs (WASB).
Hadoop 3.x- Den stöder alla de tidigare såväl som Microsoft Azure Data Lake-filsystem.

m. Datanode-resurser

Hadoop 2.x- För MapReduce är Datanode inte dedikerad. Vi kan också använda det för andra applikationer.
Hadoop 3.x- I den här versionen kan även datanodsresurs användas för andra applikationer.

n. MR API-kompatibilitet

Hadoop 2.x- MR API kompatibel med Hadoop 1.x-programmet för att köras på Hadoop 2.X
Hadoop 3.x- MR API är också kompatibelt med att köra Hadoop 1.x-program för att köras på Hadoop 3.X

o. Stöd för Microsoft

Hadoop 2.x- Det kan distribueras på Windows.
Hadoop 3.x- Den stöder även för Microsoft Windows.

s. Fack/behållare

Hadoop 2.x- Hadoop 1.x arbetar med konceptet slots medan Hadoop 2.X arbetar med konceptet för behållaren.
Hadoop 3.x- Hadoop 3.x fungerar också på konceptet med en container.

q. Single point of failure

Hadoop 2.x- Den har funktionerna för att övervinna SPOF. Så närhelst NameNode misslyckas återställs den automatiskt.
Hadoop 3.x- Den har också funktioner för att övervinna SPOF. Så närhelst NameNode misslyckas återställs den automatiskt utan behov av manuellt ingripande.

r. HDFS Federation

Hadoop 2.x- I Hadoop 1.x endast en enda NameNode för att hantera alla namnområden. Men Hadoop 2.x har flera NameNode för flera Namespace.
Hadoop 3.x- Den har också flera namnnoder för flera namnområden.

s. Skalbarhet

Hadoop 2.x- Vi kan skala upp till 10 000 noder per kluster.
Hadoop 3.x- Vi kan skala mer än 10 000 noder per kluster.

t. HDFS-ögonblicksbild

Hadoop 2.x- Det lägger till stöd för en ögonblicksbild. Det ger också återställning efter katastrof och skydd för användarfel.
Hadoop 3.x- Det stöder också ögonblicksbildsfunktionen.

u. Plattform

Hadoop 2.x- Den fungerar som en plattform för en mängd olika dataanalyser. Det är också möjligt att köra händelsebearbetning, streaming och realtidsoperationer.
Hadoop 3.x- Det är också möjligt att köra händelsebearbetning, streaming och drift i realtid på toppen av YARN.

Slutsats

Sammanfattningsvis har Hadoop 3.0 lagt till nya funktioner som raderingskodning för att hantera feltolerans. Hadoop 3.x minskar också lagringskostnaderna med 200 % till 50 %.

Det introducerade också ett nytt kommandoradsverktyg som heter Diskbalancer. Därför har Hadoop 3.x förbättrat övergripande prestanda.

Om du hittar någon annan skillnad mellan Hadoop 2.x vs Hadoop 3.x, så låt oss veta det i kommentarsfältet.