I december 2012, medan Cloudera Impala fortfarande var i betafasen, tillhandahöll vi en färdplan för planerad funktionalitet i produktionsversionen. I samma anda att hålla Impala-användare, kunder och entusiaster välinformerade, ger detta inlägg en uppdaterad färdplan för kommande releaser senare i år och i början av 2014.
Men först, ett tack:Sedan den första betaversionen har vi fått en enorm mängd feedback och validering om Impala – rikligt både vad gäller kvalitet och kvantitet. Minst en person av cirka 4 500 unika organisationer runt om i världen har hittills laddat ner Impala-binären. Och även efter bara några månaders GA har vi sett Cloudera Enterprise-kunder från flera branscher implementera Impala 1.x i affärskritiska miljöer med support via en Cloudera RTQ (Real-Time Query)-prenumeration – inklusive ledande organisationer inom försäkring, bank, detaljhandel, sjukvård, spel, myndigheter, telekom och reklam.
Dessutom, baserat på reaktionen från andra leverantörer inom datahanteringsområdet, skulle få observatörer ifrågasätta uppfattningen att Impala har gjort interaktiva SQL-frågor med låg latens för Hadoop till ett lika viktigt kundkrav som de batchorienterade SQL-frågorna med hög latens. aktiverad av Apache Hive. Det är en fantastisk utveckling för Hadoop-användare överallt!
Vad som levererades i Impala 1.0/1.1
Låt oss börja med ett rapportkort på den tidigare publicerade Impala 1.0/1.1 färdplanen. Här är funktionslistan, grupperad efter leveransstatus:
Levereras:
| Uppskjuten baserat på kundfeedback:
|
Dessutom, tack vare tillägget av Apache Sentry-modulen (inkubering), tillhandahåller Impala 1.1 och senare nu också detaljerad, rollbaserad auktorisering, vilket säkerställer att rätt användare och applikationer har tillgång till rätt data. (Med det senaste bidraget från Sentry till Apache Incubator och HiveServer2 till Hive från Cloudera, har Hive 0.11 och senare den funktionen också.)
Mycket arbete har gjorts, men det finns fortfarande mycket att göra. Nu, vidare till Impala 2.0-vågen.
Närare färdplan
Följande nya Impala-funktionalitet kommer att släppas stegvis över kortsiktiga framtida utgåvor, från och med Impala 1.2 i slutet av 2013 och slutar med Impala 2.0 under den första tredjedelen av 2014. Dessutom kommer du att se fler prestandavinster och SQL-funktionalitetsförbättringar i varje utgåva – med målet att utöka Impalas prestandaförsprång över de alternativa SQL-on-Hadoop-metoderna hos äldre relationsdatabasleverantörer såväl som Hadoop-distroleverantörer.
Observera, som alltid är fallet med färdplaner, att tidslinjer och funktioner alltid kan ändras. Det du ser nedan fångar vår nuvarande rekordplan.
Impala 1.2
- UDF:er och utökbarhet – gör det möjligt för användare att lägga till sin egen anpassade funktionalitet; Impala kommer att stödja befintliga Hive Java UDF:er samt högpresterande inbyggda UDF:er och UDAF:er
- Automatisk uppdatering av metadata – gör att nya tabeller och data sömlöst blir tillgängliga för Impala-frågor när de läggs till utan att behöva göra en manuell uppdatering på varje Impala-nod
- In-memory HDFS caching – ger åtkomst till Hadoop-data som ofta används i minneshastigheter
- Kostnadsbaserad anslutningsorderoptimering – befriar användaren från att behöva gissa rätt anslutningsorder
- Förhandsgranskning av YARN-integrerad resurshanterare — tillåter prioritering av arbetsbelastningar med en finare detalj än den servicenivåisolering som för närvarande tillhandahålls i Cloudera Manager
Impala 2.0
Listan nedan fångar bara de större, mest efterfrågade funktionerna; det är inte på något sätt komplett.
- SQL 2003-kompatibla analytiska fönsterfunktioner (aggregation OVER PARTITION) – för att tillhandahålla mer avancerade SQL-analytiska funktioner
- Ytterligare autentiseringsmekanismer – inklusive möjligheten att ange användarnamn/lösenord utöver den Kerberos-autentisering som redan stöds
- UDTF:er (användardefinierade tabellfunktioner) – för mer avancerade användarfunktioner och utökningsmöjligheter
- Parallelliserade aggregationer och kopplingar inom nod – för att ge ännu snabbare kopplingar och aggregationer utöver Impalas prestandavinster
- Inkapslade data – möjliggör frågor om komplexa kapslade strukturer inklusive kartor, strukturer och matriser
- Förbättrad, produktionsklar, YARN-integrerad resurshanterare
- Parkettförbättringar – fortsatta prestandavinster inklusive indexsidor
- Ytterligare datatyper – inklusive datum- och decimaltyper
- ORDER BY without LIMIT-klausuler
Beyond Impala 2.0
Följande lista med funktioner är de som vi för närvarande räknar med kommer att finnas i 2.1 eller en release snart därefter:
- Ytterligare analytisk SQL-funktionalitet – ROLLUP, CUBE och GROUPING SET
- Apache HBase CRUD – tillåter användning av Impala för infogning och uppdateringar i HBase
- Externa anslutningar med disk – gör det möjligt för joins mellan tabeller att överföras till disk för joins som kräver join-tabeller som är större än den sammanlagda minnesstorleken
- Undersökningar i WHERE-satser
Allt eftersom vi lär oss mer om kunders och partners krav kommer den här listan att utökas.
Slutsats
Som du kan se har Impala utvecklats avsevärt sedan betaversionen, och den kommer att fortsätta att utvecklas när vi samlar in mer feedback från användare, kunder och partners.
I slutändan tror vi att Impala redan har aktiverat vårt övergripande mål att tillåta användare att lagra all sin data i inbyggda Hadoop-filformat och samtidigt köra all batch, maskininlärning, interaktiv SQL/BI, matematik, sökning och andra arbetsbelastningar på denna data på plats. Härifrån är det bara en fråga om att fortsätta bygga på den mycket solida grunden med rikare funktionalitet och förbättrad prestanda.
Justin Erickson är chef för produkthantering på Cloudera.