我在虚拟机上部署了HDP:2.6.4
我可以看到spark2没有指向正确的python文件夹。我的问题是
1)我怎样才能找到我的python所在的位置?
解决方案:输入whereis python
,您将获得一个列表
2)如何更新现有的python库并将新库添加到该文件夹?例如,相当于' pip install numpy'在CLI上。
3)如何在包含我可以更新的python文件夹的特定目录中创建Zeppelin Spark2点? - 在Zeppelin上,有一个小编辑'我可以更改包含python的目录的路径的按钮。
解决方案:转到zeppelin中的解释器,找到spark2,然后让zeppelin.pyspark.python指向python已经存在的位置。
现在如果你需要python 3.4+,你需要完成一整套不同的步骤,首先将python 3.4。+加入HDP沙箱。
谢谢,
答案 0 :(得分:1)
对于像您这样的Sandbox环境,沙盒图像是在Linux OS(CentOS)上制作的。 Zeppelin Notebook很可能指向每个Linux操作系统附带的Python安装。 如果您希望自己安装Python和您自己的数据分析库,就像SciPy堆栈中那样。您需要在虚拟机上安装Anaconda。您的VM已连接到Internet,以便您可以下载并安装Anaconda软件包进行测试。
然后你可以将Zeppelin指向anaconda的目录,直到以下路径: / home / user / anaconda3 / bin / python 其中user是你的用户名
Zeppelin Configuration也确认了它在/usr/bin/python
使用默认的python安装。您可以查看其文档以获取更多信息
<强>更新强>
嗨Joseph,Spark Installations,默认情况下,使用Python解释器和操作系统上安装的python库。您显示的文件夹结构仅告诉您PySpark模块的位置。这个模块是像Pandas ior NumPy这样的库。
您可以通过命令pip install package name
安装SciPy Stack [NumPy,Pandas,MatplotLib等..]并将这些库直接导入您的Zeppelin Notebook。
在snadbox的终端中使用命令whereis python
,结果将为您提供如下内容
/usr/bin/python /usr/bin/python2.7 ....
在Zeppelin配置中,对于属性zeppelin.pyspark.python
,您可以设置上一个命令的输出中的第一个值,即/usr/bin/python
。所以现在通过pip install
命令安装的所有库都可以在zeppelin中使用。
此过程仅适用于您的Sandbox环境。在实际生产群集中,管理员需要在Spark群集的所有节点上安装所有这些库。