我有一个Python脚本,正在使用spark-shell在主节点上执行。该脚本使用了一些用户定义的模块,特别是其他脚本。但是,当我在本地系统上运行脚本并导入模块时,它不会引发任何异常。但是,当我在Spark环境中执行脚本时,它会引发异常,例如找不到模块。我也尝试了以下类似方法,但是在Spark Cluster上也不起作用。 sys.path.append('') 导入
有人可以帮助我如何解决pyspark中的模块。 我正在使用python 2.7版本。
答案 0 :(得分:0)
您的代码依赖性在执行程序中不可用。您需要指示pyspark分发您的源文件,以便它们可用。您可以使用上下文的方法addPyFile
包含单个文件。在此处查看文档:{{3}}