应用错误收集

我在虚拟机上部署了HDP：2.6.4

我可以看到spark2没有指向正确的python文件夹。我的问题是

1）我怎样才能找到我的python所在的位置？

解决方案：输入whereis python，您将获得一个列表

2）如何更新现有的python库并将新库添加到该文件夹？例如，相当于＆＃39; pip install numpy＆＃39;在CLI上。

没什么好说的

3）如何在包含我可以更新的python文件夹的特定目录中创建Zeppelin Spark2点？ - 在Zeppelin上，有一个小编辑＆＃39;我可以更改包含python的目录的路径的按钮。

解决方案：转到zeppelin中的解释器，找到spark2，然后让zeppelin.pyspark.python指向python已经存在的位置。

现在如果你需要python 3.4+，你需要完成一整套不同的步骤，首先将python 3.4。+加入HDP沙箱。

谢谢，

对于像您这样的Sandbox环境，沙盒图像是在Linux OS（CentOS）上制作的。 Zeppelin Notebook很可能指向每个Linux操作系统附带的Python安装。如果您希望自己安装Python和您自己的数据分析库，就像SciPy堆栈中那样。您需要在虚拟机上安装Anaconda。您的VM已连接到Internet，以便您可以下载并安装Anaconda软件包进行测试。

然后你可以将Zeppelin指向anaconda的目录，直到以下路径： / home / user / anaconda3 / bin / python 其中user是你的用户名

Zeppelin Configuration也确认了它在/usr/bin/python使用默认的python安装。您可以查看其文档以获取更多信息

<强>更新

嗨Joseph，Spark Installations，默认情况下，使用Python解释器和操作系统上安装的python库。您显示的文件夹结构仅告诉您PySpark模块的位置。这个模块是像Pandas ior NumPy这样的库。

您可以通过命令pip install package name安装SciPy Stack [NumPy，Pandas，MatplotLib等..]并将这些库直接导入您的Zeppelin Notebook。

在snadbox的终端中使用命令whereis python，结果将为您提供如下内容 /usr/bin/python /usr/bin/python2.7 ....

在Zeppelin配置中，对于属性zeppelin.pyspark.python，您可以设置上一个命令的输出中的第一个值，即/usr/bin/python。所以现在通过pip install命令安装的所有库都可以在zeppelin中使用。

此过程仅适用于您的Sandbox环境。在实际生产群集中，管理员需要在Spark群集的所有节点上安装所有这些库。

在Spark 2解释器下使用Python和Zeppelin

1 个答案: