如何将conda的site-package目录中的Python模块添加到spark-submit?

时间:2017-06-25 15:06:17

标签: python apache-spark pyspark fuzzywuzzy spark-submit

我需要运行PySpark应用程序(v1.6.3)。有--py-files标志可以添加.zip,.egg或.py文件。如果我在/usr/anaconda2/lib/python2.7/site-packages/fuzzywuzzy有一个Python包/模块,我将如何包含整个模块?

在这个目录中,我注意到一些* .py和* .pyc文件。

  • fuzz.py
  • process.py
  • StringMatcher.py
  • string_processing.py
  • utils.py

我是否必须逐一包含这些内容?例如。

spark-submit \
 --py-files /usr/anaconda2/lib/python2.7/site-packages/fuzzywuzzy/fuzz.py,/usr/anaconda2/lib/python2.7/site-packages/fuzzywuzzy/process.py,/usr/anaconda2/lib/python2.7/site-packages/fuzzywuzzy/StringMatcher.py,/usr/anaconda2/lib/python2.7/site-packages/fuzzywuzzy/string_processing.py,/usr/anaconda2/lib/python2.7/site-packages/fuzzywuzzy/utils.py

有更简单的方法吗?

  • 我应该尝试找到.egg或.zip并使用它(例如pypi)吗?
  • 我可以将此目录压缩并传入吗?

任何提示或指示都将不胜感激。实际上,我需要的是由conda管理的更多Python模块。

1 个答案:

答案 0 :(得分:0)

我建议在其他方向上做。使用以下命令将pyspark安装到Anaconda:

conda install -c conda-forge pyspark=2.1.1