Pig // Spark职位没有看到Python模块

时间:2016-08-09 15:32:31

标签: python hadoop apache-pig pyspark

我的hadoop群集有一个反复出现的问题,偶尔会有正常运行的代码停止查看位于正确位置的python模块。我正在寻找可能遇到同样问题的人提示。

当我第一次开始编程并且代码停止工作时,我在这里问了一个问题,有人告诉我只是去睡觉,早上它应该工作,或者其他一些"你是一个假的,你必须改变一些东西"有点评论。

我运行了几次代码,它工作,我去睡觉,早上我尝试再次运行它失败了。有时我用CTRL + C杀死作业,有时候我使用CTRL + Z.但这只是占用资源而且除此之外不会引起任何其他问题 - 代码仍在运行。 代码工作后我还没有看到这个问题。这通常发生在我10个小时前离开代码工作后我上班的那天早上。重新启动群集通常可以解决问题

我目前正在检查群集是否由于某种原因重新启动,或者某些部分是否失败,但到目前为止,ambari屏幕显示所有内容都是绿色的。我不确定是否有一些自动化维护或已知的事情会搞砸。

仍然在我的大象书中工作,对不起,如果在XXXX页上清楚地说明了这个话题,我还没有进入那个页面。

我查看了所有错误日志,但我看到的唯一有意义的事情是stderr:

  File "/data5/hadoop/yarn/local/usercache/melvyn/appcache/application_1470668235545_0029/container_e80_1470668235545_0029_01_000002/format_text.py", line 3, in <module>

    from formatting_functions import *

ImportError: No module named formatting_functions

1 个答案:

答案 0 :(得分:0)

所以我们解决了这个问题。这个问题特别适合我们的设置。我们安装了所有数据节点nfs。有时节点会出现故障,有人必须将其重新启动并重新安装。

我们的脚本指定了库的路径,如:'

    pig -Dmapred.child.env="PYTHONPATH=$path_to_mnt$hdfs_library_path" ...

所以猪找不到库,因为$ path_to_mnt对其中一个节点无效。