AWS EMR PySpark anslut till mysql

Om du vill köra något Spark Job på Amazon EMR 3.x eller EMR 4.x måste du göra följande:

1) Du kan nämna spark-defaults.conf egenskaper medan du startar upp, dvs du kan ändra konfigurationen av Drivrutinsklassväg och Executor Classpath egendom och även maximizeResourceAllocation (Be om mer information i kommentarerna om du behöver.) dokument

2) Du måste ladda ner alla nödvändiga jars dvs (mysql-connector.jar och mariadb-connector.jar) i ditt fall MariaDB och MySQL connector JDBC jars till alla klassvägsplatser som Spark, Yarn och Hadoop på alla noder antingen det är MASTER, CORE eller TASK (Spark On Yarn Scenario täcker det mesta) bootstrap scripts docs

3) Och om ditt Spark Job bara kommunicerar från drivrutinsnoden till din databas kanske du bara behöver det med --jars och ger dig inget undantag och fungerar bra.

4) Rekommenderar dig också att prova Master som garnkluster istället för lokal eller garn-klient

I ditt fall, om du använder MariaDB eller MySQL, kopiera antingen dina burkar på $SPARK_HOME/lib , $HADOOP_HOME/lib etc. på varje nod i ditt kluster och försök sedan.

Senare kan du använda Bootstrap-åtgärder för att kopiera dina burkar på alla noder under tiden för klusterskapande.

Vänligen kommentera nedan för mer information.