我在哪里找到要添加到我的Spark提交中的.py文件

时间:2019-10-14 14:59:55

标签: python apache-spark pyspark

我在Edgenode上工作,那里有一些库,例如pandas,sqlalchemy,它们由于代理受限制而被手动安装。

我正在尝试将这些库添加到我的spark作业中,以将其部署到未安装这些库的集群上,我知道我必须添加一些参数才能这样做

spark-submit --master yarn-cluster --deploy-mode cluster --queue high --py-files filesToAdd sparkjob.py

但是我不知道我必须在命令行中输入哪个“ filesToAdd”,这是库源代码吗?是它的特定部分吗?还有吗?

1 个答案:

答案 0 :(得分:0)

您不能使用--py-files添加库。 pandassqlalchemy之类的所有库以及其他所有库都应安装在每个群集节点上。

--py-files参数应用于在群集上分发您的应用程序代码。有关更多详细信息,请参见https://spark.apache.org/docs/latest/submitting-applications.html