在Jupyter上使用Spark Kernel

时间:2016-03-29 18:09:37

标签: apache-spark jupyter jupyter-notebook

所以我刚刚开始使用Jupyter和笔记本电脑的想法。

我通常在VIM和终端进行编程,所以我仍然想弄清楚事情。

我正在尝试使用Toree内核。

我正在尝试安装一个能够执行spark并且遇到Toree的内核。我安装了toree,当我运行内核列表时它出现了。结果如下:

$ jupyter kernelspec list Available kernels: python3 C:\Users\UserName\AppData\Local\Continuum\Anaconda3\lib\site-packages\ipykernel\resources bash C:\Users\UserName\AppData\Roaming\jupyter\kernels\bash toree C:\ProgramData\jupyter\kernels\toree

因此,当我打开一个toree笔记本时,内核会死掉并且不会重启。关闭笔记本并重新打开它会导致内核更改为Python3。

有一条大错误消息被打印到主机终端并显示笔记本错误消息。还有另一个职位被搁置;它们是相同的错误消息。

我按照此页面进行安装: https://github.com/apache/incubator-toree

这些说明主要针对Linux / Mac。

关于如何在Jupyter上获得一个火花笔记本的任何想法?

我知道这里没有很多信息,如果需要更多信息。让我知道。

2 个答案:

答案 0 :(得分:4)

我向Gitter发了一个类似的问题,他们回答说(转述):

Toree是Jupyter上火花编程的未来,并且似乎已经在Windows机器上正确安装,但.jar和.sh文件将无法在Windows机器上正常运行。

知道了这一点,我在我的Linux(Fedora)和借来的Mac上尝试过它。安装了jupyter(和Anaconda)后,我输入了以下命令:

$ SparkHome="~/spark/spark1.5.5-bin.hadoop2.6"
$ sudo pip install toree
 Password: **********
$ sudo jupyter toree install --spark_home=$SparkHome

Jupyter在两台机器上运行了toree笔记本电脑。我认为VM也可以正常工作。我想看看Window的10 bash shell是否也适用于我正在运行的Windows 7。

感谢其他文档!

答案 1 :(得分:0)

来自@ user3025281的答案也为我解决了这个问题。我必须对我的环境进行以下调整(运行Spark 2.2.0和Hadoop 2.7的Ubuntu 16.04 Linux发行版)。下载是从托管站点或镜像站点直接下载文件。

假设它是通过anaconda安装的,那么你将主要配置你的环境变量然后调用jupyter。这几乎是

SPARK_HOME="~/spark/spark-2.2.0-bin-hadoop2.7"

将此内容写入~/.bashrc文件,然后在`.bashrc

上调用source
# reload environment variables
source ~/.bashrc` 

安装

sudo pip install toree
sudo jupyter toree install --spark_home=$SPARK_HOME

可选:在Windows 10上,您可以使用“在Windows上使用Ubuntu上的Bash”来配置Linux发行版上的jupyter