sql >> Databasteknik >  >> RDS >> Oracle

Data Warehousing ETL-dataprofilering med Oracle Warehouse Builder

Introduktion till dataprofilering

Dataprofilering är processen att systematiskt dokumentera design och innehåll av data i en fil, tabell eller schema. Dataprofilering är ett viktigt första steg som tas när ett datalager är i planeringsstadiet. Det är viktigt för datalagerarkitekter och designers att förstå kvaliteten och den övergripande karaktären hos de underliggande operativa systemdata innan de genomför ett större datalagerprojekt. Några specifika aspekter av källdata som profilering kan avslöja inkluderar:

  • Den totala storleken (i byte) för varje källtabell eller fil, inklusive specifikationer för varje fält/kolumns datatyp.
  • Antal, medelvärden, intervall och förekomsten av nollvärden för varje kolumn.
  • Relationer mellan datakolumner i tabeller (som funktionella beroenden).
  • Relationer mellan tabeller (som utländska nyckelrelationer).

Resultaten av dataprofileringsstadiet kan vidare användas för att utveckla regler för att kontrollera datakvalitet och regler för att korrigera dataproblem under de första stegen av en ETL-pipeline.

Oracle Warehouse Builder tillhandahåller en kraftfull dataprofileringsfunktion som kan användas för att i detalj lära sig omfattningen och egenskaperna hos data i ett schema. Den officiella OWB-dokumentationen om dataprofilering finns på denna länk. Oracle Warehouse Builder installeras tillsammans med standard- och Enterprise-versioner av Oracle 11g Database. Här är några instruktioner om hur du installerar Oracle 11g Release 2 på Windows.

Om du har en central Oracle 11g-server kan du använda Oracle Warehouse Builder Client för att komma åt det centrala arkivet.

I den här demonstrationen presenteras de viktigaste stegen som krävs för att profilera ett OLTP-systemschema. Målschemat kommer att vara Oracles "Order Entry"-schema (OE) som kan installeras och aktiveras på Oracle 11g-databaser. Observera att Oracle Warehouse-användaren måste ha åtkomst (referenser) till OE-schemat för att ställa in lämplig modul i OWB.

Det första stora steget i profilering är att skapa en modul som pekar på källdatabasschemat. OWB stöder ett stort antal databaskällor såväl som platta (text)filer.

Konfigurera en ny modul för orderinmatningsschemat

I denna uppsättning steg kommer OE-schemat (Order Entry) att skapas som en ny modul i Oracle Warehouse Builder.

  1. Börja med att logga in på Oracle Warehouse Builder. Öppna Project Navigator-fönstret och öppna sedan MY_PROJECT
    Öppna databaserna mappen och sedan Oracle mapp.
    Högerklicka på Oracle mappen och välj Ny Oracle-modul som visas nedan:
  2. När välkomstskärmen visas klickar du på Nästa> knappen
  3. Ange ett nytt namn och en beskrivning för databasen. Observera att du inte får använda blanksteg i databasens namn.
    Klicka på Nästa> knappen för att fortsätta.
  4. Nästa huvudsteg blir att ange platsen för databasen. Mer än troligt är detta första gången som du går igenom dessa steg och därför har platsen för Oracle OE Schema inte fastställts. Klicka i så fall på Redigera... knappen som visas bredvid Plats uppmaning
  5. Fyll i namn, beskrivning och anslutningsinformation (värdnamn, användarnamn, lösenord, portnummer, Oracle-tjänstnamn, etc.) Klicka på OK knappen när du är klar.
  6. Bekräfta anslutningsinformationen och klicka på alternativet Importera efter avslutad .
    Klicka sedan på Nästa> knappen för att fortsätta:
  7. Den sista sammanfattningsskärmen visas och indikerar att modulen skapades.
    Klicka på Slutför knappen för att stänga den här skärmen.

Importera metadata för orderinmatningsschemat

  1. Genom att markera Importera efter avslutad alternativet i steg 6, guiden Importera metadata startar automatiskt när databasmodulen har skapats. Om du hoppade över det här alternativet, högerklicka på den nya Order_Entry-modulen och välj Importera metadata från menyn.
    När guiden Importera metadata startar klickar du på Nästa> knappen för att fortsätta.
  2. Filterinformation skärmen visas härnäst. I det här fallet vill vi importera metadata för allt schemainnehåll så klicka på Alla och klicka sedan på Nästa> knappen för att fortsätta.
  3. Nästa skärm som visas erbjuder möjligheten att välja några eller alla objekt som upptäckts i schemat. Till en början Objektval skärmen visas enligt följande:
  4. Klicka på den dubbla högerpilen för att flytta alla objekt från Tillgänglig sida till Valda sida som visas nedan. Klicka sedan på Nästa> knappen för att fortsätta.
  5. Sammanfattning och import skärmen visas härnäst. Granska skärmen för att se till att alla objekt har valts och klicka på Slutför för att slutföra importen.
  6. Ett Import resultat en sammanfattningsskärm visas. Klicka på OK knappen för att stänga den.
  7. I Oracle Warehouse Builder Projects Navigator kommer databasen ORDER_ENTRY att fyllas i med alla dess objekt inklusive tabellerna som visas nedan:

Vid det här laget har en ny databasmodul för Oracle Order Entry-databasschemat skapats och all schemats metadata har importerats till Oracle Warehouse Builder. I nästa steg, en ny dataprofil kommer att skapas.

Skapa en dataprofil i Oracle Warehouse Builder

Nästa stora steg är att skapa en dataprofil .

  1. I Oracle Warehouse Builder Projects Navigator högerklickar du på Dataprofiler grupp och välj Ny dataprofil
  2. När välkomstskärmen visas klickar du på Nästa> knappen
  3. Ange ett namn och en beskrivning av den nya dataprofilen. I det här exemplet döpte vi den nya profilen:Order_Entry_Schema_Profile (observera att mellanslag inte är tillåtna i profilnamnet). Klicka på Nästa> knappen för att fortsätta.
  4. Nästa skärm visar en lista över schemaobjekt. Öppna tabellerna mapp och lägg till alla tabeller (med undantag för KÖPORDER tabell) listad under Orderingångsdatabasen till Valda sidan av skärmen.
    Lägg inte till någon av vyerna.
    Klicka på Nästa> knappen för att fortsätta.
  5. Vid det här laget visas Sammanfattning skärmen visas och dataprofilen har ställts in. Klicka på Slutför knapp.
  6. När den nya profilen har konfigurerats, Dataprofilredigeraren skärmen visas.

Nästa steg blir att köra profileraren på schemat.

Arbeta med profilredigeraren i Oracle Warehouse Builder

Det sista huvudsteget är att arbeta i Profilredigeraren för att starta ett dataprofileringsjobb och sedan se resultatet. Om du har följt de föregående stegen för att skapa en ny dataprofil, borde OWB ha startat Dataprofilredigeraren . Alla instruktioner från denna punkt förutsätter att vi arbetar i dataprofilredigeraren.

  1. Nedan är en vy av dataprofilredigeraren. Observera att ORDER_ENTRY-databasmodulen är öppen i Profilobjekt fönstret och alla tabeller bör listas här.
  2. Du kan göra ändringar i profileringsstegen genom Property Inspectors sektioner som Ladda in konfiguration och Aggregationskonfiguration . Beskrivningar av dessa inställningar finns på den här länken.
    Se till att följande profilinställningar är valda för detta exempel:

    • Aktivera Common Format Discovery
    • Aktivera Type Discovery
    • Aktivera mönsterupptäckt
    • Aktivera Domain Discovery
    • Aktivera Unique Key Discovery
    • Aktivera Functional Dependency Discovery
    • Aktivera upptäckt av redundanta kolumner
    • Aktivera dataregelprofilering
  3. Dra ned Profil för att påbörja dataprofileringsjobbet menyn och välj Profil
  4. När profiljobbet har initierats visas en dialogruta som visar framstegen med att validera profilen. Detta kan ta flera minuter beroende på serverns hastighet och antalet databasobjekt i profilen.
  5. När valideringssteget är klart körs det faktiska profiljobbet. Observera att det här jobbet körs asynkront i bakgrunden. Klicka på OK knappen för att stänga Profil initierad dialog ruta.
  6. När profiljobbet är klart Hämta profilresultat skärmen visas. Klicka på Ja för att hämta profilresultaten till profilredigeraren.
  7. Profilresultaten visas i profilredigeraren. Klicka på ett tabellnamn för att se metadata i Profilresultatcanvas . Klicka på ett kolumnnamn för att se detaljerna för en kolumn i Data Drill Panel
    I bilden nedan (klicka för en större bild) visas KUNDER tabellen har valts ut för visning i profilresultatsidan och NLS_TERRITORY kolumnen har valts att visa i Data Drill Panel.

Mer information om Oracle OWB-dataprofilering

Utöver dokumentationen tillhandahåller Oracle också en Oracle By Example (OBE)-serie med handledning för OWB, inklusive:Oracle Warehouse Builder:Granska källdata med hjälp av dataprofilering.


  1. SQL Server 2016:In-Memory OLTP Enhancements

  2. SQL-fråga för att hitta post med ID som inte finns i en annan tabell

  3. Tabellen är "skrivskyddad"

  4. Nyckelindikatorer för problemdesign