应用错误收集

使用s3a获取驱动程序和执行程序中的spark jar

时间：2016-05-10 00:09:53

标签： amazon-s3 apache-spark mesos

我正在尝试使用驱动程序/执行程序模型在AWS上使用Spark。似乎没有办法设置驱动程序类路径，以便它可以使用hadoop-aws jar和aws-sdk jar来访问s3。我想从s3拉出我的工作罐。

似乎我需要将所有这些类添加到spark程序集jar中，或者我需要修改spark-class脚本以手动将这些jar添加到类路径中？

是否有任何较少侵入性的方法，即在配置中的任何地方指定它？

我正在运行1.6.1和hadoop 2.4，但我希望我也可以使用2.6（同样的问题）。

1 个答案:

答案 0 :(得分：0)

不确定我是否理解正确，但您应该能够根据docs

设置spark.driver.extraClassPath和/或spark.driver.extraLibraryPath属性

恕我直言，使用--jars时指定spark-submit命令行选项应该可以实现同样的目标，请参阅spark-submit中的help output。