sql >> Databasteknik >  >> NoSQL >> MongoDB

Spark utför inte uppgifter

Om någon snubblat på det här som jag och arbetar på ett kluster men med behovet av att köra några lokala skript på en målnod .

LÖSNING

Den enklaste idiotsäkra lösningen skulle vara att ställa in PYSPARK_PYTHON env i början av skriptet, eftersom pyspark-shell i mitt fall inte kunde ta upp det även om det konfigurerades korrekt i $SPARK_HOME/conf/spark-env.sh eller till och med i spark-defaults.conf och ~/.bashrc (båda mindre önskvärda än det första alternativet).

import os
os.environ['PYSPARK_PYTHON'] = '/path/to/python3' # Worker executable
os.environ['PYSPARK_DRIVER_PYTHON'] = '/path/to/python3' # Driver executable

TROLIG ORSAK

Jag är inte helt säker, men min gissning är att pyspark installerad från pip i din venv är annorlunda än den som faktiskt laddas av Spark själv och den hittar inte den korrekta env-variabeln, och använder standardpython 2.7-körbara filer trots att den har konfigurerats överallt.



  1. Hur använder man $hint i MongoDB-aggregationsfråga?

  2. mongoose/mongodb fråga flera sorter

  3. Hur gör man selektiv Mongo-återställning?

  4. Hur man skriver över objekt-ID:n i Mongo db samtidigt som man skapar en app i Sails