在Spark 2解释器下使用Python和Zeppelin

时间:2018-05-30 08:07:27

标签: python apache-zeppelin

我在虚拟机上部署了HDP:2.6.4

我可以看到spark2没有指向正确的python文件夹。我的问题是

1)我怎样才能找到我的python所在的位置?

解决方案:输入whereis python,您将获得一个列表

2)如何更新现有的python库并将新库添加到该文件夹​​?例如,相当于' pip install numpy'在CLI上。

  • 没什么好说的

3)如何在包含我可以更新的python文件夹的特定目录中创建Zeppelin Spark2点? - 在Zeppelin上,有一个小编辑'我可以更改包含python的目录的路径的按钮。

解决方案:转到zeppelin中的解释器,找到spark2,然后让zeppelin.pyspark.python指向python已经存在的位置。

现在如果你需要python 3.4+,你需要完成一整套不同的步骤,首先将python 3.4。+加入HDP沙箱。

谢谢,

1 个答案:

答案 0 :(得分:1)

对于像您这样的Sandbox环境,沙盒图像是在Linux OS(CentOS)上制作的。 Zeppelin Notebook很可能指向每个Linux操作系统附带的Python安装。 如果您希望自己安装Python和您自己的数据分析库,就像SciPy堆栈中那样。您需要在虚拟机上安装Anaconda。您的VM已连接到Internet,以便您可以下载并安装Anaconda软件包进行测试。

然后你可以将Zeppelin指向anaconda的目录,直到以下路径: / home / user / anaconda3 / bin / python 其中user是你的用户名

Zeppelin Configuration也确认了它在/usr/bin/python使用默认的python安装。您可以查看其文档以获取更多信息

<强>更新

嗨Joseph,Spark Installations,默认情况下,使用Python解释器和操作系统上安装的python库。您显示的文件夹结构仅告诉您PySpark模块的位置。这个模块是像Pandas ior NumPy这样的库。

您可以通过命令pip install package name安装SciPy Stack [NumPy,Pandas,MatplotLib等..]并将这些库直接导入您的Zeppelin Notebook。

在snadbox的终端中使用命令whereis python,结果将为您提供如下内容 /usr/bin/python /usr/bin/python2.7 ....

在Zeppelin配置中,对于属性zeppelin.pyspark.python,您可以设置上一个命令的输出中的第一个值,即/usr/bin/python。所以现在通过pip install命令安装的所有库都可以在zeppelin中使用。

此过程仅适用于您的Sandbox环境。在实际生产群集中,管理员需要在Spark群集的所有节点上安装所有这些库。