是否可以使用spark-submit -package广播Tensorflow库

时间:2016-11-06 01:28:30

标签: apache-spark tensorflow

我正在使用一个群集,这不是我自己管理的。 Tensorflow库未安装在任何群集节点上。但我想使用tensorflow包运行一些Spark程序。我不确定是否可以简单地使用spark-submit --packages在群集节点上广播tensorflow包。

1 个答案:

答案 0 :(得分:1)

我不了解Tensorflow本身,但您可以使用--jars local jars和使用--files的文件传递给作业。以下是一个例子:

spark-submit --master yarn-cluster --num-executors 5 --driver-memory 640m --executor-memory 640m --conf spark.yarn.maxAppAttempts=1000 \
    --jars /usr/hdp/current/spark-client-1.6.1/lib/datanucleus-api-jdo-3.2.6.jar,/usr/hdp/current/spark-client-1.6.1/lib/datanucleus-core-3.2.10.jar,/usr/hdp/current/spark-client-1.6.1/lib/datanucleus-rdbms-3.2.9.jar  \
    --files /usr/hdp/current/spark-client-1.6.1/conf/hive-site.xml \
    --class com.foobar.main

这是我如何启动spark streaming job并在未安装spark的群集上运行Application Master和Driver的示例。所以我需要通过一些长的罐子和配置才能运行。