如何在Hue中加载和执行Python脚本?

时间:2019-01-04 17:46:54

标签: python hadoop hdfs hue

我是Hadoop的新用户,正在尝试通过Hue界面运行Python脚本。

经过一些搜索,我在cloudera论坛中找到了解决方案:

https://community.cloudera.com/t5/Web-UI-Hue-Beeswax/How-to-run-Python-script-in-Hue-through-oozie/m-p/61455

张贴者说:“解决方案是将python脚本放入Hue-> Query-> Editor-> Spark中,并带有python脚本示例的完整路径:Libs:/ user / userxyz / myscript。 py并运行查询。单击job_xxxxx链接将显示脚本是否成功运行。“

但是,我不知道如何在Hadoop分布式文件系统中加载并执行我的Python脚本。色相界面似乎没有显示我的根目录并允许文件上传的HDFS功能。我是从桌面将Python脚本加载为文本文件,还是在Hue中使用编辑器?

2 个答案:

答案 0 :(得分:1)

Python脚本可能应该通过python script.py从Oozie脚本任务运行,并将HDFS文件引用附加到工作流任务。

如果没有Spark代码,则不应使用Spark Notebook Editor。

  

色相中有编辑吗?

如果在文件浏览器中单击任何文档,但这会将文件下载到Hue服务器文件系统,然后重新上传,因此最好直接自己编辑和上传。

  

色调界面似乎没有显示我的根目录并允许文件上传的HDFS功能

INI中有一个配置设置,允许文件上载which is true by default。如果您完全禁用了文件浏览器,或者甚至禁用了旧版本的Hue,则可能不存在。

答案 1 :(得分:0)

您可以将Python脚本写入HUE,然后将文件另存为myScript.py。 为了使用python和分布式文件系统,您必须安装pySpark例如。 然后,您可以转到Oozie编辑器并选择Spark Action。在Jar/py name字段中,必须输入 myScript.py 。作为 ARGUMENTS ,您应提供pySpark(python Api)的安装路径。同样,在文件中,您必须提供保存myScript.py的路径。