Question

我正在使用一个群集，这不是我自己管理的。 Tensorflow库未安装在任何群集节点上。但我想使用tensorflow包运行一些Spark程序。我不确定是否可以简单地使用spark-submit --packages在群集节点上广播tensorflow包。

Answer 1

我不了解Tensorflow本身，但您可以使用--jars local jars和使用--files的文件传递给作业。以下是一个例子：

spark-submit --master yarn-cluster --num-executors 5 --driver-memory 640m --executor-memory 640m --conf spark.yarn.maxAppAttempts=1000 \
    --jars /usr/hdp/current/spark-client-1.6.1/lib/datanucleus-api-jdo-3.2.6.jar,/usr/hdp/current/spark-client-1.6.1/lib/datanucleus-core-3.2.10.jar,/usr/hdp/current/spark-client-1.6.1/lib/datanucleus-rdbms-3.2.9.jar  \
    --files /usr/hdp/current/spark-client-1.6.1/conf/hive-site.xml \
    --class com.foobar.main

这是我如何启动spark streaming job并在未安装spark的群集上运行Application Master和Driver的示例。所以我需要通过一些长的罐子和配置才能运行。

是否可以使用spark-submit -package广播Tensorflow库

1 个答案: