python - 如何从pyspark

如何从pyspark

时间：2018-10-25 20:07:36

标签： python pyspark

我有一个Python脚本，正在使用spark-shell在主节点上执行。该脚本使用了一些用户定义的模块，特别是其他脚本。但是，当我在本地系统上运行脚本并导入模块时，它不会引发任何异常。但是，当我在Spark环境中执行脚本时，它会引发异常，例如找不到模块。我也尝试了以下类似方法，但是在Spark Cluster上也不起作用。 sys.path.append（''）导入

有人可以帮助我如何解决pyspark中的模块。我正在使用python 2.7版本。

1 个答案:

答案 0 :(得分：0)

您的代码依赖性在执行程序中不可用。您需要指示pyspark分发您的源文件，以便它们可用。您可以使用上下文的方法addPyFile包含单个文件。在此处查看文档：{{3}}

Android：从特定目录加载图像
Prism：如何从另一个模块的命令加载目录中的模块
如何加载目录中的所有模块并从模块中获取类
使用NPM从根目录加载自定义模块
从特定目录加载文件
在没有前缀
yarn - 在特定目录中安装模块
如何从单个目录
如何在其他延迟加载模块中使用模块中的组件
如何从pyspark

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？