sql >> Databasteknik >  >> RDS >> Database

Avlasta mycket stora databaser

En av de största problemen DBA:er som behöver ladda ner stor data från VLDB-tabeller är snabbheten. Snabbare avlastning gör data tillgänglig i olika former för olika ändamål och plattformar. Ju snabbare data samlas in, desto snabbare kan den bearbetas och levereras. Det slutliga resultatet är snabbare tid till lösning, och därmed produktiviteten och konkurrenskraften hos företag som tjänar pengar på information.

De flesta tillgängliga verktyg och metoder som för närvarande används för att extrahera data från stora faktatabeller är helt enkelt för långsamma. De som utger sig för att vara snabbare är komplicerade, proprietära eller kräver köp av ett dyrt ETL-paket. Ett skifte till ett ELT- eller Hadoop-paradigm medför stora hårdvarukostnader (eller DB-apparat), beskattar den underliggande DB som nu förvandlas och pålägger branta inlärningskurvor och underhållsbördor.

Finns det inte andra alternativ för lossning och nedströmsprocesser som är snabbare, enklare och mer överkomliga?

Varför ta bort VLDB-tabeller?

Det finns många anledningar till varför du i första hand skulle massavläsa data från dessa tabeller:

Databasmigrering :Ju snabbare du kan få ut data från de gamla databaserna, desto snabbare kan du kartlägga och flytta data till de nya databaserna. Bulkdataförflyttning skulle vara fördelaktigt om datavolymerna är enorma, det finns fördelar med offlinetransformation, skydd och/eller analys (vilket är möjligt på en gång i IRI CoSort), och när försorterade bulklaster är det enda sättet att möta SLA deadlines.

Databasreorganisering :Avlasta, sortera, ladda om för att hålla databasen fungerande effektivt och optimera vanliga frågor genom att hålla tabellerna i sammanfogad ordning. Lossning sker i off-line eller externa omorganisationer. Se den här jämförelsen om omorganiseringsmetoder offline och on-line.

Dataintegrering :Storskaliga DW extrahera-transform-last (ETL) operationer börjar med extraktion av tabeller i datauppsamlingsområdet. Data som dumpats från tabeller och blandas med stordatordataset, webbloggar och andra platta filer kan mest effektivt integreras och bearbetas i filsystemet. Externa transformationer via  är inte bara mer effektiva eftersom flera åtgärder kan iscensättas i ett enda I/O-pass, utan eftersom beräkningsoverheaden för allt detta arbete tas bort från databasen (se ETL vs. ELT).

Datareplikering/arkiv :Genom att ladda ner faktatabeller kan gyllene källa operationsdata dupliceras och lagras i ett portabelt format. Data i platta filer kan efterfrågas, manipuleras och omformateras med verktyg som IRI NextForm eller CoSort, och användas för att fylla i andra databaser och applikationer. På samma sätt kan ett tillgängligt arkiv med denna data också lagras offline för återställning och hämtning av säkerhetskopior, eller distribution till parter som behöver tillgång till data i en annan miljö.

Business Intelligence :Det kan vara snabbare och enklare att importera driftsdata till Excel och andra BI-verktyg i platta filformat som CSV och XML istället för att försöka överbrygga mellan tabellen och ett kalkylblad eller BI-kub. Att överföra tabeller till platta filer är därför ett första och effektivt steg i datafranchising – förberedelse av data för BI-operationer.

En titt på urladdningsmetoder

VLDB-extraktionsmetoder varierar i prestanda och funktionalitet. Ett bra verktyg för att ladda ner big data från Oracle och andra stora DB:er måste vara effektivt, lätt att använda och stödja vissa omformateringsfunktioner som inte skulle belasta processen.

SQL SPOOL-kommandot kan dumpa data till en platt fil, men den är vanligtvis långsam i volym. Inbyggda verktyg som Oracles export eller datapump är snabbare, men producerar proprietära utdrag som bara kan återimporteras till samma databas och inte kan analyseras som en platt fil.

Om du snabbt behöver ladda ner stora tabeller till portabla platta filer, överväg IRI FACT (Fast Extract) för Oracle, DB2, Sybase, MySQL, SQL Server, Altibase, Tibero, etc. FACT använder parallellism och inbyggda databasanslutningsprotokoll (som Oracle OCI ) för att optimera extraktionsprestanda. Den kostnadsfria FACT GUI (guiden) som är en del av IRI Workbench, byggd på Eclipse™, presenterar tillgängliga tabeller och kolumner att extrahera och använder SQL SELECT-syntax.

En annan fördel med att använda FACT är dess metadataintegrering med SortCL-programmet i IRI Voracity för att transformera, skydda, rikta in sig på och till och med rapportera om plattfilsextrakten. FACT skapar också kontrollfilen för databasbulkladdningsverktyget i väntan på ompopulationer av samma tabell med hjälp av pre-CoSorted platta filer i storskaliga ETL- eller reorg-operationer.


  1. MySQL-skillnad mellan två rader i en SELECT-sats

  2. ORA-12557 TNS:protokolladapter kan inte laddas

  3. Hitta referensenheter i SQL Server:sys.dm_sql_referencing_entities()

  4. Är det bättre att köra många sql-kommandon med en anslutning, eller återansluta varje gång?