在spark python中导入外部模块

时间:2017-02-24 12:58:34

标签: apache-spark pyspark amazon-emr spark-submit

我有一个带有pyspark应用程序的EMR作业。我的代码包括一些外部包和一些文件供查找。

当我在本地方框中尝试相同时,这是文件系统的层次结构。

[1] Wordcount.py -> spark file
[2] Temp.py -> external packages
[3] files/
        -you have some files which will be used by temp.py 

更多详情:
               当我运行WorkCount.py时,它会导入temp.py。 files文件夹包含一些模型文件。 temp.py在内部使用那些模型文件。在本地框中我将所有代码保存在一个地方并运行该作业,它在那里工作得很好
在localbox中工作正常,但在群集中运行时失败

[1] No module temp found
[2] No *** file does not exist

有人可以告诉我如何在EMR集群中组织这个,以便我可以顺利运行。

0 个答案:

没有答案