如果(互动)sparkR 工作,如何处理依赖?
我知道java作业可以作为包含所有依赖项的fat-Jar提交。对于任何其他作业,可以在--packages
命令上指定spark-submit
选项。但我想使用sparkR从 R (Rstudio)连接到我的小集群。 (这很有效率)
但我需要一些外部包装,例如连接到数据库(Mongo,Cassandra)或读取csv文件。在 local 模式下,我可以在启动时轻松指定这些包。这在已经运行的集群中自然不起作用。 https://github.com/andypetrella/spark-notebook提供了一种在运行时加载此类外部包的非常方便的模式。
如何在我的sparkR(交互式会话)运行时期间或图像创建将maven-coordinate包加载到spark类路径中> dockerized cluster?
答案 0 :(得分:0)
您还可以尝试在spark.driver.extraClassPath
文件中配置这两个变量:spark.executor.extraClassPath
和SPARK_HOME/conf/spark-default.conf
,并将这些变量的值指定为jar文件的路径。确保工作节点上存在相同的路径。
来自No suitable driver found for jdbc in Spark