Question

我想在Spark集群上运行Python应用程序，并通过spark-submit将其发送到那里。该应用程序具有多个依赖项，例如pandas，numpy，scikit-learn。在提交作业之前，确保安装依赖项的干净方法是什么？

由于我使用virtualenv进行开发，因此可以轻松生成requirements.txt。

Answer 1

您必须以群集模式运行作业。假设您使用Yarn作为调度程序。

$_FILES['userfile']['tmp_name']

同时尝试以下

$_FILES['userfile']['name']

关于pandas，如果您拥有确切的数据结构，则可以调用spark-submit --master yarn-cluster my_script.py --py-files my_dependency.zip

numpy通常被整合到许多pyspark电话中但不确定。