当我为Jupyter笔记本安装PySpark时,我使用以下cmd:
jupyter toree install --kernel_name=tanveer --interpreters=PySpark --python="/usr/lib/python3.6"
但是,我得到
的提示[ToreeInstall] ERROR | Unknown interpreter PySpark. Skipping installation of PySpark interpreter
所以我不知道有什么问题。我已经成功设置了Toree的Scala和SQL。认为
答案 0 :(得分:3)
正如Lee的回答中所述,Toree版本0.3.0删除了对PySpark和SparkR的支持。根据他们的发行说明,他们要求“使用特定的内核”。对于PySpark,这意味着手动安装要与Jupyter一起使用的pyspark。
步骤很简单,如下所示:
pip install pyspark
或下载Apache Spark二进制软件包并解压缩到特定文件夹中。添加以下3个环境变量。如何执行此操作取决于您的操作系统。例如,在MacOS上,我将以下行添加到文件~/.bash_profile
export SPARK_HOME=<path_to_your_installed_spark_files>
export PYSPARK_DRIVER_PYTHON="jupyter"
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
就是这样。要启动您的PySpark Jupyter Notebook,只需从命令行运行“ pyspark”,然后选择“ Python”内核
请参阅
https://subscription.packtpub.com/book/big_data_and_business_intelligence/9781788835367/1/ch01lvl1sec17/installing-jupyter
或
https://opensource.com/article/18/11/pyspark-jupyter-notebook
了解更多详细说明。
答案 1 :(得分:2)
Toree版本0.3.0删除了对PySpark和SparkR的支持:
在Toree中删除了对PySpark和Spark R的支持(使用特定的内核)
在此处发布注释:incubator-toree release notes
我不确定“使用特定内核”的含义,并继续寻找Jupyter PySpark内核。