在spark-submit之前安装pyspark工作的要求

时间:2018-04-18 20:11:21

标签: python apache-spark pyspark virtualenv dependency-management

我想在Spark集群上运行Python应用程序,并通过spark-submit将其发送到那里。该应用程序具有多个依赖项,例如pandasnumpyscikit-learn。在提交作业之前,确保安装依赖项的干净方法是什么?

由于我使用virtualenv进行开发,因此可以轻松生成requirements.txt

1 个答案:

答案 0 :(得分:-1)

您必须以群集模式运行作业。假设您使用Yarn作为调度程序。

$_FILES['userfile']['tmp_name']

同时尝试以下

$_FILES['userfile']['name']

关于pandas,如果您拥有确切的数据结构,则可以调用spark-submit --master yarn-cluster my_script.py --py-files my_dependency.zip

numpy通常被整合到许多pyspark电话中但不确定。