向Spark文件添加依赖项

时间:2020-05-16 22:51:12

标签: python apache-spark pyspark dependencies cluster-computing

我正在编写将在大学集群上运行的PySpark代码,提供的环境没有安装我运行我的代码所需的所有软件包。

我知道我可以使用--py-files来安装/传递运行代码所需的依赖项。

我在require.txt文件中列出了我想要的所有软件包

requirements.txt

cartopy == 0.18.0
rtree == 0.9.4
pyproj == 2.6.1
geopandas == 0.7.0
shapely == 1.7.0

我的问题是,每当代码在群集节点上运行时,如何安装软件包?

0 个答案:

没有答案