我试图运行使用本机共享库(.so)的spark作业。我使用--jars将我的.so复制到所有执行器(并且文件似乎在那里,沿着spark .jar应用程序),但不知怎的,我没有设置环境查找并使用。所以。试过--conf spark.executor.extraLibraryPath和-Djava.library.path,但不确定要使用哪些路径.. 有一种简单的方法可以使它工作吗? (使用AWS EMR 4.5.0,spark 1.6.x)
我的火花提交:
spark-submit \
--deploy-mode cluster \
--driver-java-options \
--jars s3://at/emr-test/asb_UT/libSplineFitWrapperJava.so \
--class com.SplineFittingDummy \
s3://at/emr-test/asb_UT/asb-0.0.1-SNAPSHOT-jar-with-dependencies.jar \
s3://at/emr-test/asb_UT/testPoints01.xml \
s3://at/emr-test/asb_UT/output
答案 0 :(得分:0)
问题是方式。所以是建立。在尝试了不同的设置和可用的设置(solaris& sfw,debian& g ++ 4.6,...)后,我试图编译.so在EMR上,现在一切正常。 虽然如果亚马逊可以提供一些docker图像及其设置会有所帮助,所以我们可以编译而无需将所有源代码实际复制到EMR ..