Jag tror att jag har hittat problemet:mongodb-hadoop har en "statisk" modifierare på sina BSON-kodare/avkodarinstanser i core/src/main/java/com/mongodb/hadoop/input/MongoInputSplit.java. När Spark körs i flertrådsläge försöker alla trådar deserialisera med samma encoder/decoder-instanser, som förutsägbart ger dåliga resultat.
Patcha på min github här (har skickat en pull-begäran uppströms)
Jag kan nu köra en 8-kärnig multitrådad Spark->mongo collection count() från Python!