应用错误收集

如果（互动）sparkR 工作，如何处理依赖？

我知道java作业可以作为包含所有依赖项的fat-Jar提交。对于任何其他作业，可以在--packages命令上指定spark-submit选项。但我想使用sparkR从 R （Rstudio）连接到我的小集群。（这很有效率）

但我需要一些外部包装，例如连接到数据库（Mongo，Cassandra）或读取csv文件。在 local 模式下，我可以在启动时轻松指定这些包。这在已经运行的集群中自然不起作用。 https://github.com/andypetrella/spark-notebook提供了一种在运行时加载此类外部包的非常方便的模式。

如何在我的sparkR（交互式会话）运行时期间或图像创建将maven-coordinate包加载到spark类路径中> dockerized cluster？

SparkR作业处理依赖项

1 个答案: