应用错误收集

时间：2019-10-14 14:59:55

标签： python apache-spark pyspark

我在Edgenode上工作，那里有一些库，例如pandas，sqlalchemy，它们由于代理受限制而被手动安装。

我正在尝试将这些库添加到我的spark作业中，以将其部署到未安装这些库的集群上，我知道我必须添加一些参数才能这样做

spark-submit --master yarn-cluster --deploy-mode cluster --queue high --py-files filesToAdd sparkjob.py

但是我不知道我必须在命令行中输入哪个“ filesToAdd”，这是库源代码吗？是它的特定部分吗？还有吗？

答案 0 :(得分：0)

您不能使用--py-files添加库。 pandas，sqlalchemy之类的所有库以及其他所有库都应安装在每个群集节点上。

--py-files参数应用于在群集上分发您的应用程序代码。有关更多详细信息，请参见https://spark.apache.org/docs/latest/submitting-applications.html