sql >> Databasteknik >  >> NoSQL >> HBase

Använder Cloudera Data Engineering för att analysera lönecheckskyddsprogrammets data

Paycheck Protection Program (PPP) implementeras av den amerikanska federala regeringen för att ge ett direkt incitament för företag att behålla sina anställda på lönelistan, särskilt under Covid-19-pandemin. PPP hjälper kvalificerade företag att behålla sin arbetsstyrka samt hjälper till att betala för relaterade affärskostnader. Data från den amerikanska finansmyndighetens webbplats visar vilka företag som fick PPP-lån och hur många jobb som behölls. Det amerikanska finansdepartementet godkände cirka en miljon PPP-lån över hela USA.

Analys av dessa data ger tre utmaningar. För det första är storleken på datan betydande. Mängden tid att hämta, kurera, transformera, hämta och rapportera om dessa data är tidskrävande. För det andra kommer datamängden sannolikt att utvecklas, vilket kommer att ta ytterligare utvecklingstid och resurser. Slutligen, i en flerstegsprocess som denna, finns det en chans att saker går sönder. Att ha förmågan att snabbt fastställa fel eller flaskhalsar hjälper till att konsekvent uppfylla SLA:er.

Den här bloggen illustrerar hur Cloudera Data Engineering (CDE), med hjälp av Apache Spark, kan användas för att producera rapporter baserade på PPP-data samtidigt som man tar itu med var och en av utmaningarna som beskrivs ovan.

Mål

Ett skenscenario för Texas Legislative Budget Board (LBB) ställs upp nedan för att hjälpa en dataingenjör att hantera och analysera PPP-data. Det primära målet för denna dataingenjör är att förse LBB med två slutrapporter:

  • Rapport 1:Uppdelning av alla städer i Texas som behållit jobb
  • Rapport 2:Uppdelning av företagstyp som behållit jobb

Cloudera Data Engineering (CDE)

Det är här Cloudera Data Engineering (CDE) som kör Apache Spark kan hjälpa. CDE är en av tjänsterna i Cloudera Data Platform (CDP) som låter dataingenjörer skapa, hantera och schemalägga Apache Spark-jobb, samtidigt som de tillhandahåller användbara verktyg för att övervaka jobbprestanda, komma åt loggfiler och orkestrera arbetsflöden via Apache Airflow. Apache Spark är ett ramverk för databehandling som snabbt kan köra storskalig databehandling.

Det amerikanska finansdepartementet tillhandahåller två olika datauppsättningar, en för godkända lån över 150 000 USD och en för godkända lån under 150 000 USD. För att ta fram de två slutrapporterna för LBB, följdes dessa steg (se fig. 1).

  • Första steget var att ladda de två separata datamängderna i en S3-hink.
  • Ett Spark-jobb skapades för varje datauppsättning för att hämta och filtrera data från S3-bucket.
  • Dessa två Spark-jobb omvandlade och laddade rena data till ett Hive-datalager för hämtning.
  • Ett tredje Spark-jobb skapades för att bearbeta data från Hives datalager för att skapa de två rapporterna.

När jobbkörningarna var klara gav CDE en grafisk representation av de olika stegen inom varje Spark-jobb (se fig. 2). Detta gjorde det möjligt för dataingenjören att enkelt se vilka delar av jobbet som potentiellt tog mest tid, vilket lät dem enkelt förfina och förbättra sin kod för att på bästa sätt uppfylla kundernas SLA.

Fig. 1:Dataresa för att producera de två slutrapporterna.

Fig. 2:CDE grafisk representation av olika Spark-steg.

Resultat

Det primära målet att ta fram de två slutrapporterna från rekordet med en miljon godkända sökande uppfylldes. Den grafiska sammanfattningen av den första rapporten (se fig. 3) visar ett topp 10-urval av antalet behållna jobb per stad i Texas, och den andra rapporten (se fig. 4) visar ett topp 5-urval av antalet behållna jobb efter företagstyp. Med dessa rapporter kan Texas Legislative Budget Board, till exempel, dra slutsatsen att städer med minsta möjliga jobb per capita kan behöva resurser för att minska eventuella ekonomiska konsekvenser.

Fig. 3:Topp 10 städer som behållit flest jobb, delstaten Texas, 2020

Fig. 4:Topp 5 företagstyper som behållit flest jobb, delstaten Texas, 2020

Nästa steg

För att se allt detta i aktion, klicka på länkarna nedan till några olika källor som visar upp processen som skapades.

  • Video – Om du vill se och höra hur detta byggdes, se videon på länken.
  • Självstudier – Om du vill göra detta i din egen takt, se en detaljerad genomgång med skärmdumpar och rad för rad instruktioner om hur du ställer in och utför detta.
  • Meetup – Om du vill prata direkt med experter från Cloudera, gå med i en virtuell träff för att se en livestreampresentation. Det kommer att finnas tid för direkta frågor och svar i slutet.
  • CDP-användarsida – Klicka på länken för att lära dig om andra CDP-resurser som skapats för användare, inklusive ytterligare video, handledning, bloggar och evenemang.

  1. ModuleNotFoundError:Ingen modul med namnet 'grp' på Windows

  2. Uppdatera dokument i MongoDB

  3. Systemet har inte startats med systemd som init-system (PID 1). Kan inte operera

  4. Vad gör Redis när det tar slut på minne?