Question

我有一个HDP 2.5群集，我正在使用ZEPPELIN的％pyspark解释器来生成代码。

我想使用一个库来帮助在python，java和scala中使用Spark中的时间序列分析，这在此处指定：https://github.com/sryza/spark-timeseries

问题是我不知道如何将此库导入并使用我的ZEPPELIN％pyspark解释器。

首先，我下载了名为＆＃34的.jar文件; sparkts-0.2.0-jar-with-dependencies.jar＆＃34;。接下来，我将它保存在ZEPPELIN工作的集群节点的/ opt /目录中。

然后，我尝试使用％dep，但在我当前版本的HDP中已经弃用了，所以我在ZEPPELIN＆＃34;解释器＆＃34;中添加了一个依赖项。菜单，这样：

我重新启动了翻译并尝试使用ZEPPELIN笔记本：

%pyspark

import sparkts

但我收到了一个错误：

ImportError: No module named sparkts

所以我的问题是：如何导入和使用此.jar文件在我的HDP群集中使用ZEPPELIN进行时间序列分析？

非常感谢你！

Answer 1

因为它是Python库，所以如果您使用YARN这样的资源管理器在集群顶部运行zeppelin，则需要在集群的每个节点上PIP安装zeppelin，其中作业可以在集群的任何节点上运行，并且您正在使用像Livy这样的口译员来分配您的工作。如果无法通过PIP使用该库，则可以通过运行setup.py（如果有）来安装它，或者作为最后的供应jar文件直接提供给Pyspark shell，例如spark-shell --jars（不是Zeppelin的解决方案）虽然）

如何在Hortonworks中将外部jar库导入ZEPPELIN？

1 个答案: