sql >> Databasteknik >  >> NoSQL >> MongoDB

Undantag vid anslutning till mongodb in spark

Jag tror att jag har hittat problemet:mongodb-hadoop har en "statisk" modifierare på sina BSON-kodare/avkodarinstanser i core/src/main/java/com/mongodb/hadoop/input/MongoInputSplit.java. När Spark körs i flertrådsläge försöker alla trådar deserialisera med samma encoder/decoder-instanser, som förutsägbart ger dåliga resultat.

Patcha på min github här (har skickat en pull-begäran uppströms)

Jag kan nu köra en 8-kärnig multitrådad Spark->mongo collection count() från Python!



  1. Django Channels Error - Kan inte importera BACKEND 'asgi_redis.RedisChannelLayer'

  2. Konstigt beteende hos MongoDB LINQ-leverantör för fält som kallas id

  3. Tidsstämpel till datum i php och mongodb

  4. hur man strukturerar ett sammansatt index i mongodb