Next Generation Data Warehousing hos Santander UK

Tidig data är avgörande för företag i Big Data-åldern:Det här blogginlägget beskriver hur Santander UK använder den senaste Cloudera-tekniken och överlägsen mjukvaruutvecklingskapacitet för att skapa nästa generation av datalager och streaminganalyser för att stödja intelligens som kan förbättra relationerna med kunder och följ mantrat 'vi vill hjälpa människor att växa och blomstra. '

Santander Storbritanniens big data-resa började för ungefär fyra år sedan. De var tidiga användare av ny dataströmningsteknik som Apache Kafka och hade ambitioner att revolutionera kundupplevelsen med användning av realtidsdata och analys i appen för mobilanvändare.

Sedan dess har Santander UK förbättrat både fotavtryck och förmåga att förnya med big data-teknik och har utvecklats snabbt. Behovet av storskalig streaminganalys har ökat och blivit verklighet. Idag, på Santander UK, kompletteras Clouderas Big Data, Machine Learning och Analytics-plattform av integrerad högkvalitativ och skalbar Platform-as-a-Service (PaaS)-händelseleverans genom Apache Kafka.

En annan teknikkomponent som är central för Santander UKs nästa generations Data Warehouse är användningen av Apache Kudu för att möjliggöra snabb analys av snabba data. När det kombineras med aspekter av Data Vault 2.0-designmetodologin, underlättar det snabbt intag från hundratals Apache Kafka-dataströmmar; både avlastning av arbetsbelastning från befintliga äldre system och ger möjligheten att ställa "här, just nu" frågor angående kundbeteende och bankens nuvarande tillstånd.

Hastighet till marknaden

Snabba dataströmmar kan flyttas online med minimal ansträngning tack vare en innovativ ny plattform hos Santander UK, som integrerar äldre system med ett nytt Data Vault via Apache Kafka. På grund av den rena strukturen av data som integreras, är en ny händelseströmsfeed för att fylla Apache Kudu Data Vault till stor del konfigurationsdriven - anpassar datahändelser till Hub-, Satellite- och Link-strukturen i Data Vault 2.0-metoden. Detta gör att schemat kan reagera på förändringar i verksamheten eller ny förståelse för hur data ska anpassas.

Santander UK kan påverka datatransformationer genom att skala den elastiska händelseleveransplattformen, som är baserad på Scala Akka och Apache Kafka, vilket möjliggör snabb och skalbar databerikning i realtid. Detta möjliggör snabbare, mer aktuell data, snabbare beslut och högre hastighet till marknaden för användningsfall på grund av den återanvändbara plattformen och arkitekturen.

Datavetenskap och snabb prototypframställning av dataprodukter

I slutändan finns det många potentiella konsumenter av denna strömmande datakälla; intressanta insikter har dock redan fåtts genom integrationen av Cloudera Data Science Workbench till Data Vault. Dessa ger en omfattande Data Science-upplevelse för det växande Data Science-teamet och använder också – på typiskt Santander UK innovativa sätt – potentialen att snabbt prototypera idéer och skapa nya dataprodukter innan man tar itu med tunga tekniska och arkitektoniska utmaningar. Bygg en snabb prototyp och utveckla den sedan till en förstklassig produkt om den skapar värde.

Snabb integration:bidragsmodellen

I linje med den innovation och smidighet som Santander UK Data Innovation-teamet har gjort verklighet, skapade de idén om bidragsmodellen. Eftersom klustret är flera hyresgäster med olika affärsenheter som anskaffar, rensar och utvecklar nya datamängder; om det anses vara användbart för resten av verksamheten kan länktabeller i Data Vault-stil användas för att integrera denna allmänt användbara data till kärnan i Data Vault-schemat. På detta sätt kan teamet öka värdet av dataprodukter genom snabb generering av nya kombinationer av datamängder, med spårbar härkomst genom att använda Cloudera Navigator för styrning och säkerhet genom att använda Apache Sentry för åtkomstkontroll. Om affärsenhetens data bedöms vara användbar för andra kopplas den till kärnan och delas enligt styrningsprinciper.

Med bidragsmodellen kan vi utnyttja rena datamängder som skapas oberoende av olika affärsenheter och produktteam. Om denna data är värdefull för resten av verksamheten, har vi förmågan att föra in den i Data Vault som en förstklassig medborgare genom att använda länktabeller. Vi ville replikera Apache-gemenskapens tillvägagångssätt för programvara med öppen källkod för datasystem i vår organisation för att förbättra innovation genom samarbete.

– Nicolette Bullivant – Head of Data Engineering, Santander UK

Multi-destination:En ström som styr dem alla

De råa händelseströmmarna som genereras från äldre system anses kanoniska och krävs i allmänhet av andra intressenter som använder klustret. Santander UK Data Innovation Team har antagit principen att se till att dessa händelseströmmar är tillgängliga för användning av olika användningsfall och teknologier; sålunda kan en kanonisk händelseström omfördelas till olika destinationer; antingen HDFS-filsystem, Apache HBase eller Apache Kudu. Detta hjälper till att skapa en enda version av sanningen för alla intressenter samtidigt som man undviker mottryck på äldre system.

Slutsats

Kort sagt, Santander UK förnyar sig direkt på Cloudera-stacken, kopplar strömmande data, avancerade mjukvaruteknikprinciper och ramverk och moderna datalagerdesignprinciper för att generera realtidsinsikter för att förbättra kundupplevelsen och kundernas ekonomiska välbefinnande. Denna innovation erkändes nyligen som en tredjepartspanel av domare som röstade fram Santander som finalist för Data Impact Award.

Nicolette Bullivant är chef för datateknik på Santander UK.
Rob Siwicki är en senior lösningsarkitekt för Clouderas professionella tjänster, EMEA.