使用s3a获取驱动程序和执行程序中的spark jar

时间:2016-05-10 00:09:53

标签: amazon-s3 apache-spark mesos

我正在尝试使用驱动程序/执行程序模型在AWS上使用Spark。似乎没有办法设置驱动程序类路径,以便它可以使用hadoop-aws jar和aws-sdk jar来访问s3。我想从s3拉出我的工作罐。

似乎我需要将所有这些类添加到spark程序集jar中,或者我需要修改spark-class脚本以手动将这些jar添加到类路径中?

是否有任何较少侵入性的方法,即在配置中的任何地方指定它?

我正在运行1.6.1和hadoop 2.4,但我希望我也可以使用2.6(同样的问题)。

1 个答案:

答案 0 :(得分:0)

不确定我是否理解正确,但您应该能够根据docs

设置spark.driver.extraClassPath和/或spark.driver.extraLibraryPath属性

恕我直言,使用--jars时指定spark-submit命令行选项应该可以实现同样的目标,请参阅spark-submit中的help output