我最近尝试在Hue UI中设置Spark Notebook。我在VirtualBox中运行Cloudera CDH 5.8。 Spark笔记本适用于Livy Server,我安装了livy服务器。我还从Hue.ini文件中删除黑名单中的spark。 但是,我还没有在Hue UI中获得Spark Notebook。
更新:现在我可以访问笔记本了。但是,我无法向群集提交火花作业。我已经尝试了几个脚本只有Impala,Hive脚本可以工作,但R,Pyspark或Scala脚本不起作用。我得到以下错误。
有人可以帮我解决问题吗?如果需要,我可以提供更多信息。
谢谢。
.....感谢Romainr,我本可以设法在顺化运行Spark Notebook。现在我面临一些问题,将作业提交给在同一个localhost上运行在Cloudera管理器中的Apache spark。错误在以下屏幕截图中公开。任何帮助都感激不尽。谢谢。
Error: Spark session could not be created in cluster: timeout
答案 0 :(得分:0)
如果你从Hue运行pySpark笔记本,它会说超时,因为它无法访问资源。 实际上,如果您尝试从命令行界面运行命令pyspark或scala,您将看到一些错误。
当您从Hue Notebook获得超时错误时,请查看日志,您会发现权限被拒绝的问题。 因此,为了提供访问权限,请执行以下操作:(在Linux shell上运行)
{{1}}
在此之后,如果您尝试在CDH中重新启动hue和spark服务并从hue创建pyspark或scala笔记本,它应该是开箱即用的。 如果您仍然遇到错误,请告诉我。