我正在尝试使用驱动程序/执行程序模型在AWS上使用Spark。似乎没有办法设置驱动程序类路径,以便它可以使用hadoop-aws jar和aws-sdk jar来访问s3。我想从s3拉出我的工作罐。
似乎我需要将所有这些类添加到spark程序集jar中,或者我需要修改spark-class脚本以手动将这些jar添加到类路径中?
是否有任何较少侵入性的方法,即在配置中的任何地方指定它?
我正在运行1.6.1和hadoop 2.4,但我希望我也可以使用2.6(同样的问题)。
答案 0 :(得分:0)
不确定我是否理解正确,但您应该能够根据docs
设置spark.driver.extraClassPath
和/或spark.driver.extraLibraryPath
属性
恕我直言,使用--jars
时指定spark-submit
命令行选项应该可以实现同样的目标,请参阅spark-submit
中的help output。