我想在Spark集群上运行Python应用程序,并通过spark-submit
将其发送到那里。该应用程序具有多个依赖项,例如pandas
,numpy
,scikit-learn
。在提交作业之前,确保安装依赖项的干净方法是什么?
由于我使用virtualenv进行开发,因此可以轻松生成requirements.txt
。
答案 0 :(得分:-1)
您必须以群集模式运行作业。假设您使用Yarn作为调度程序。
$_FILES['userfile']['tmp_name']
同时尝试以下
$_FILES['userfile']['name']
关于pandas,如果您拥有确切的数据结构,则可以调用spark-submit --master yarn-cluster my_script.py --py-files my_dependency.zip