sql >> Databasteknik >  >> RDS >> PostgreSQL

SparkSQL PostgresQL Dataframe-partitioner

I huvudsak används den nedre och övre gränsen och antalet partitioner för att beräkna ökningen eller uppdelningen för varje parallell uppgift.

Låt oss säga att tabellen har partitionskolumnen "år" och har data från 2006 till 2016.

Om du definierar antalet partitioner som 10, med lägre gräns 2006 och högre gräns 2016, kommer du att få varje uppgift att hämta data för sitt eget år - det idealiska fallet.

Även om du felaktigt anger den nedre och/eller övre gränsen, t.ex. ställ in lägre =0 och övre =2016, kommer det att finnas en skevhet i dataöverföringen, men du kommer inte att "förlora" eller misslyckas med att hämta någon data, eftersom:

Den första uppgiften hämtar data för år <0.

Den andra uppgiften hämtar data för år mellan 0 och 2016/10.

Den tredje uppgiften hämtar data för år mellan 2016/10 och 2*2016/10.

...

Och den sista uppgiften kommer att ha ett vartillstånd med år->2016.

T.



  1. Funktioner kontra procedurer i Oracle

  2. Introduktion till SQL Server Identity

  3. Grails:fel i SQL-syntax vid ändring av vilolägesdialekt

  4. Visa Oracle CPU-användning för sessioner i procent