sql >> Databasteknik >  >> NoSQL >> MongoDB

Varför Mongo Spark Connector returnerar olika och felaktiga räkningar för en fråga?

Jag löste mitt problem. Anledningen till inkonsekventa räkningar var MongoDefaultPartitioner som omsluter MongoSamplePartitioner som använder slumpmässigt urval. För att vara ärlig är detta en ganska konstig standard för mig. Jag personligen skulle föredra att ha en långsam men en konsekvent partitionerare istället. Detaljerna för partitioneringsalternativ finns i de officiella konfigurationsalternativen dokumentation.

kod:

val df = spark.read
  .format("com.mongodb.spark.sql.DefaultSource")
  .option("uri", "mongodb://127.0.0.1/enron_mail.messages")
  .option("partitioner", "spark.mongodb.input.partitionerOptions.MongoPaginateBySizePartitioner ")
  .load()


  1. pymongo.errors.OperationFailure:typ i filter som inte stöds

  2. hur många totala anslutningar eller maxanslutningar är tillgängliga i Redis Server?

  3. Kan jag göra en textfråga med mongodb c#-drivrutinen

  4. Model.find() returnerar tomt i mongoose