sql >> Databasteknik >  >> RDS >> Database

Ansluter Google BigQuery till IRI Voracity Software

BigQuery är ett hanterat, serverlöst datalager i Google Cloud designat för att möjliggöra skalbar analys över petabyte data. Det är en relationsdatabas Platform as a Service (PaaS) som stöder ANSI SQL-frågor. Som sådan fungerar det med IRI-programvara.

Att ansluta Google BigQuery RDB till IRI Workbench och back-end SortCL-bearbetningsprogrammet är enkelt och möjliggör förflyttning och manipulering av dess strukturerade data genom kompatibla IRI-produkter. Det betyder IRI CoSort, FieldShield, NextForm och RowGen, eller IRI Voracity-plattformen som inkluderar dem alla.

Anslutning följer samma paradigm som alla andra relationsdatabaser som IRI stöder. Detta innebär nedladdning och installation av ODBC- och JDBC-drivrutiner, konfiguration (användning och testning med dina referenser), registrering och validering.

Eftersom Workbench är byggt på Eclipse behöver den en JDBC-anslutning för att se BigQuery-schemat och analysera tabellens metadata. Och för att skicka data mellan BigQuery och SortCL-datamanipuleringsmotorn behövs också en ODBC-drivrutin. Slutresultatet kan bli detta:

Google har slagit sig ihop med Magnitude Simba för att tillhandahålla ODBC- och JDBC-drivrutiner för att ansluta till BigQuery. När detta skrivs saknar dock dess JDBC-drivrutin nyckelfunktioner som Workbench behöver. För att komma runt detta, använd JDBC-drivrutinen från CData.

Den här artikeln innehåller steg-för-steg-instruktioner för IRI-programvara för åtkomst till BigQuery.

Tjänstekonton i BigQuery

BigQuery auktoriserar åtkomst till resurser baserat på verifierad identitet, som behöver ett användar-ID i form av ett tjänstkonto och en nyckel/lösenord. För att skapa en verifierad identitet, logga in på BigQuery, gå till Service Accounts under IAM &Admin och skapa ett konto:

Det första fältet skapar namnet på tjänstekontot, för min installation kallade jag det iri-simba. Det andra fältet kommer automatiskt att fyllas i med en e-postadress för ett servicekonto med det namn du valde. Det sista fältet kan hoppas över. Klicka på Skapa och fortsätt.

Nu när ett tjänstekonto har skapats kan vi gå vidare till den typ av behörigheter som detta konto kan ha. Klicka på Välj en roll och leta efter BigQuery för att lägga till specifika roller för databasen.

Om du håller muspekaren över varje roll får du en snabb beskrivning av vilken typ av åtkomst som denna roll kommer att ge till tjänstekontot; hitta en mer detaljerad förklaring här. Detta möjliggör större kontroll över att ge specifika användare behörighet som möjligheten att kunna visa tabeller, skapa frågor eller köra som administratör.

Jag valde rollen som BigQuery-användare, vilket gör att det här tjänstkontot kan se och manipulera tabeller. "Ge användaråtkomst till detta tjänstkonto" hoppas över. Klicka på Klar tar dig tillbaka till tjänstekontots huvudsida där du kan se kontot:

Gå vidare till den andra delen, låt oss skapa nyckeln som kommer att kopplas till det nya tjänstekontot. I fältet Åtgärd klickar du på Hantera nycklar för att skapa nyckeln för tjänstekontot — antingen genom att lägga till din egen nyckel eller genom att skapa den åt dig.

Om du låter Google skapa din nyckel kommer den att presentera två alternativ för nyckeltyp, JSON eller P12. Välj JSON-typen eftersom denna nyckel också kommer att användas för JDBC-drivrutinen som använder JSON-formatet.

När JSON-nyckeln har skapats kommer den att laddas ner till datorn. Du kan placera den var du vill, men kom ihåg sökvägen eftersom den kommer att användas för att ställa in ODBC- och JDBC-drivrutinen.

Nu när tjänstekontot har skapats och har en nyckel som fungerar som lösenordet, låt oss gå vidare till att ladda ner ODBC-anslutningen och ställa in den.

ODBC – Nedladdning och konfiguration

Jag använder ett Windows-operativsystem och väljer 64-bitars Windows-versionen för kompatibilitet med den körbara CoSort V10.5 SortCL. När du följt instruktionerna och accepterat licensavtalet för Simba Installer, öppnar du ODBC Data Source Administrator (64-bitars) för att konfigurera anslutningen.

Lägg bara till och leta efter drivrutinen som heter "Simba ODBC Driver for Google BigQuery".

Med drivrutinen vald bör inställningssidan se ut så här:

Här är konfigurationen väldigt enkel, och börjar med namnet på datakällan.
Jag valde namnet Google BigQuery men du kan välja vilket namn som helst för ditt användningsfall.

För autentisering behåll standardalternativet Service Account och flytta ner till e-post. Här kan du kopiera och klistra in tjänstkontots e-postmeddelande som skapades tidigare i den här artikeln.

Fältet nedan (Key File Path) använder sökvägen till JSON-nyckelfilen som indata. Klicka på rullgardinsmenyn längst ned där det står Katalog (projekt). Om allt är korrekt konfigurerat bör det visa namnet på projektet och noden som innehåller datamängder och tabeller.

Du kan göra samma sak för alternativet Datauppsättning, klicka på rullgardinsmenyn för att välja en specifik datauppsättning eller lämna denna tom för att se alla datauppsättningar i detta projekt. Testa slutligen anslutningen för att säkerställa att allt fungerar korrekt.

När ODBC är inställt kan vi konfigurera JDBC-drivrutinen.

JDBC – Nedladdning och konfiguration

Ladda ner JDBC-drivrutinen från CData här. När installationen är klar kommer det att finnas en mapp som heter GoogleBigQueryJDBCDriver med en setup.jar inuti.

Setup.jar kommer att installera alla filer som behövs för att JDBC-anslutningen ska fungera. Den innehåller också en speciell burk för att hjälpa till att skapa anslutnings-URL för JDBC-drivrutinen.

När setup.jar har slutfört installationen måste vi ha konfigurationerna i Workbench redo. I Data Source Explorer (inuti Workbench), lägg till en ny anslutning genom att klicka på Ny anslutningsprofil .

En pop kommer upp (som bilden nedan) och ger flera alternativ för vilken typ av anslutningar som kan skapas. Välj Generic JDBC och ge den ett namn som BigQuery, detta gör det lätt att hitta i Data Source Explorer.

På nästa sida kommer du att ställa in drivrutinen och ange anslutningsinformationen. Klicka på Ny drivrutinsdefinition som ser ut som en kompass med ett grönt plustecken.

På följande sida kan du ge föraren ett specifikt namn om så önskas. Om du flyttar till fliken JAR List, det är här de nödvändiga burken läggs till för att JDBC-drivrutinen ska fungera.

Om standardplatsen användes när filerna för JDBC-drivrutinen installerades, bör den finnas i mappen Program Files med namnet CData. Inuti lib-mappen finns en Jar-fil som heter cdata.jdbc.googlebigquery.GoogleBigQueryDriver , lägg till den burken i listan och fortsätt till fliken Egenskaper.

*Standardsökvägen visas på bilden nedan om det finns några problem med att hitta jar-filen*

På fliken Egenskaper måste vi skapa en anslutnings-URL, ge databasen ett namn och ange förarklassen. Fokusera först på att skapa anslutnings-URL, i Filutforskaren leta upp jar-filen som precis lades till och kör den.

Detta kommer att hjälpa till att skapa anslutnings-URL i det format som CData föreslår. Som framgår av bilden nedan finns det egenskaper till vänster som måste ställas in för att skapa anslutnings-URL.

CData har dokumentation om vilka egenskaper som behöver ställas in beroende på hur användaren valt att autentisera. Eftersom vi autentiserar med ett servicekonto listas egenskaperna som måste ställas in nedan.

  • AuthScheme – Ställ in på OAuthJWT
  • Projekt-ID – finns på startsidan för BigQuery
  • InitieraOAuth – Ställ in på GETANDREFRESH
  • OAuthJWTCertType – Ställ in på GOOGLEJSON
  • OAuthJWTCert – Sökväg till .json-filen från Google

När alla egenskaper är inställda testar du anslutningen för att säkerställa att allt fungerar. Om det lyckas, kopiera anslutningssträngen längst ned. Om du avslutar utan att kopiera anslutningsadressen måste du ställa in egenskaperna igen.

Tillbaka i Workbench, klistra in URL-adressen bredvid Connection URL-egenskapen och lägg till namnet på databasen för Database Name-egenskapen. För egenskapen förarklass finns det en knapp med tre punkter i det tomma fältet.

Klicka på den så får du möjlighet att ange namnet på förarklassen eller låta den skanna JAR-listan efter föraren. När allt är klart bör det se ut så här:

Klicka på OK och du kommer att skickas tillbaka till sidan "Ange en drivrutin och anslutningsinformation". Du behöver inte lägga till ett användarnamn eller lösenord eftersom all information finns i anslutningsadressen. Testa anslutningen en sista gång och klicka på Slutför.

Anslutningsprofilen kommer nu att vara synlig i Data Source Explorer och scheman/tabellerna kan ses när du högerklickar på profilen och väljer ansluta.

Den sista uppgiften är att skapa ett dataanslutningsregister som mappar DSN till den anslutningsprofil som just skapades. Gå till IRI-menyn, välj inställningar och leta upp dataanslutningsregistret som bilden nedan antyder.

Till vänster finns DSN och till höger är anslutningsprofilerna. Leta reda på DSN som skapats i ODBC-avsnittet ovan och klicka på Redigera…. Välj DSN, version och anslutningsprofil.

Eftersom DSN har inloggningsuppgifterna sparade i anslutnings-URL:n behöver du inte autentisera med en användare/lösenord. Klicka på OK och Använd och stäng för att stänga menyn.

Du är nu klar med databasanslutningsstegen för Google BigQuery. Om du behöver hjälp, maila [email protected].


  1. Fel:Klienten stöder inte autentiseringsprotokoll som begärts av servern; överväg att uppgradera MySQL-klienten

  2. Hur man väljer rätt datatyper

  3. SQL Server:dynamisk pivot över 5 kolumner

  4. SQLite trigger