我有一个HDP 2.5群集,我正在使用ZEPPELIN的%pyspark解释器来生成代码。
我想使用一个库来帮助在python,java和scala中使用Spark中的时间序列分析,这在此处指定:https://github.com/sryza/spark-timeseries
问题是我不知道如何将此库导入并使用我的ZEPPELIN%pyspark解释器。
首先,我下载了名为&#34的.jar文件; sparkts-0.2.0-jar-with-dependencies.jar"。接下来,我将它保存在ZEPPELIN工作的集群节点的/ opt /目录中。
然后,我尝试使用%dep,但在我当前版本的HDP中已经弃用了,所以我在ZEPPELIN"解释器"中添加了一个依赖项。菜单,这样:
我重新启动了翻译并尝试使用ZEPPELIN笔记本:
%pyspark
import sparkts
但我收到了一个错误:
ImportError: No module named sparkts
所以我的问题是:如何导入和使用此.jar文件在我的HDP群集中使用ZEPPELIN进行时间序列分析?
非常感谢你!
答案 0 :(得分:0)
因为它是Python库,所以如果您使用YARN这样的资源管理器在集群顶部运行zeppelin,则需要在集群的每个节点上PIP安装zeppelin,其中作业可以在集群的任何节点上运行,并且您正在使用像Livy这样的口译员来分配您的工作。如果无法通过PIP使用该库,则可以通过运行setup.py(如果有)来安装它,或者作为最后的供应jar文件直接提供给Pyspark shell,例如spark-shell --jars(不是Zeppelin的解决方案)虽然)