pyspark:如何提交依赖文件&文件夹?

时间:2016-11-13 13:09:36

标签: python pyspark

我想提交pyspark task。以及不同文件夹中的一些.py文件。特别是我想将配置文件和常用工具放在一个文件夹中。但是当我提交一个pyspark任务时,我只知道--py-files param,那么如何提交文件夹呢?我的代码结构喜欢:

--conf folder
|  --origin.conf
|  --scenes.conf
--tools folder
|  --utils.py
|  --vali.py
-- other fodlsers...

2 个答案:

答案 0 :(得分:3)

  • 创建Python package以整理代码
  • zip包或创建egg file
  • 将您的应用通过egg或zip文件提交至--py-files / sc.pyFiles

答案 1 :(得分:0)

Cloudera的这个链接有一些将python包分发给Spark执行器的例子 Running Spark Python Applications