SparkR作业处理依赖项

时间:2016-04-07 09:57:28

标签: r maven apache-spark sparkr

如果(互动)sparkR 工作,如何处理依赖

我知道java作业可以作为包含所有依赖项的fat-Jar提交。对于任何其他作业,可以在--packages命令上指定spark-submit选项。但我想使用sparkR从 R (Rstudio)连接到我的小集群。 (这很有效率)

但我需要一些外部包装,例如连接到数据库(Mongo,Cassandra)或读取csv文件。在 local 模式下,我可以在启动时轻松指定这些包。这在已经运行的集群中自然不起作用。 https://github.com/andypetrella/spark-notebook提供了一种在运行时加载此类外部包的非常方便的模式。

如何在我的sparkR(交互式会话)运行时期间或图像创建将maven-coordinate包加载到spark类路径中> dockerized cluster?

1 个答案:

答案 0 :(得分:0)

您还可以尝试在spark.driver.extraClassPath文件中配置这两个变量:spark.executor.extraClassPathSPARK_HOME/conf/spark-default.conf,并将这些变量的值指定为jar文件的路径。确保工作节点上存在相同的路径。 来自No suitable driver found for jdbc in Spark