我正在使用一个群集,这不是我自己管理的。 Tensorflow库未安装在任何群集节点上。但我想使用tensorflow包运行一些Spark程序。我不确定是否可以简单地使用spark-submit --packages在群集节点上广播tensorflow包。
答案 0 :(得分:1)
我不了解Tensorflow本身,但您可以使用--jars
local jars和使用--files
的文件传递给作业。以下是一个例子:
spark-submit --master yarn-cluster --num-executors 5 --driver-memory 640m --executor-memory 640m --conf spark.yarn.maxAppAttempts=1000 \
--jars /usr/hdp/current/spark-client-1.6.1/lib/datanucleus-api-jdo-3.2.6.jar,/usr/hdp/current/spark-client-1.6.1/lib/datanucleus-core-3.2.10.jar,/usr/hdp/current/spark-client-1.6.1/lib/datanucleus-rdbms-3.2.9.jar \
--files /usr/hdp/current/spark-client-1.6.1/conf/hive-site.xml \
--class com.foobar.main
这是我如何启动spark streaming job并在未安装spark的群集上运行Application Master和Driver的示例。所以我需要通过一些长的罐子和配置才能运行。