我在Edgenode上工作,那里有一些库,例如pandas,sqlalchemy,它们由于代理受限制而被手动安装。
我正在尝试将这些库添加到我的spark作业中,以将其部署到未安装这些库的集群上,我知道我必须添加一些参数才能这样做
spark-submit --master yarn-cluster --deploy-mode cluster --queue high --py-files filesToAdd sparkjob.py
但是我不知道我必须在命令行中输入哪个“ filesToAdd”,这是库源代码吗?是它的特定部分吗?还有吗?
答案 0 :(得分:0)
您不能使用--py-files添加库。 pandas
,sqlalchemy
之类的所有库以及其他所有库都应安装在每个群集节点上。
--py-files
参数应用于在群集上分发您的应用程序代码。有关更多详细信息,请参见https://spark.apache.org/docs/latest/submitting-applications.html