sql >> Databasteknik >  >> RDS >> Mysql

Spark:Att läsa stora MySQL-tabeller i DataFrame misslyckas

Spark JDBC API verkar klaffa för att ladda all data från MySQL-tabellen till minnet utan. Så när du försöker ladda en stor tabell, vad du bör göra är att använda Spark API-klondata till HDFS först (JSON bör användas för att behålla schemastrukturen), så här:

spark.read.jdbc(jdbcUrl, tableName, prop)
       .write()
       .json("/fileName.json");

Då kan du arbeta på HDFS istället som vanligt.

spark.read().json("/fileName.json")
       .createOrReplaceTempView(tableName);



  1. Exportera en PostgreSQL-fråga till en csv-fil med Python

  2. Behöver hjälp med sql-fråga för att hitta saker taggade med alla angivna taggar

  3. Kan jag återställa en transaktion som jag redan har genomfört? (dataförlust)

  4. Hur man kontrollerar om SQL-databasen är skadad - Lösning för att reparera MDF-fil