ToreeInstall错误|未知译员PySpark。 Toree无法安装PySpark

时间:2019-03-15 02:57:56

标签: pyspark

当我为Jupyter笔记本安装PySpark时,我使用以下cmd:

jupyter toree install  --kernel_name=tanveer --interpreters=PySpark --python="/usr/lib/python3.6"

但是,我得到

的提示
[ToreeInstall] ERROR | Unknown interpreter PySpark. Skipping installation of PySpark interpreter

所以我不知道有什么问题。我已经成功设置了Toree的Scala和SQL。认为

2 个答案:

答案 0 :(得分:3)

正如Lee的回答中所述,Toree版本0.3.0删除了对PySpark和SparkR的支持。根据他们的发行说明,他们要求“使用特定的内核”。对于PySpark,这意味着手动安装要与Jupyter一起使用的pyspark。

步骤很简单,如下所示:

  1. 安装pyspark。通过pip install pyspark或下载Apache Spark二进制软件包并解压缩到特定文件夹中。
  2. 添加以下3个环境变量。如何执行此操作取决于您的操作系统。例如,在MacOS上,我将以下行添加到文件~/.bash_profile

    export SPARK_HOME=<path_to_your_installed_spark_files>
    export PYSPARK_DRIVER_PYTHON="jupyter"
    export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
    

就是这样。要启动您的PySpark Jupyter Notebook,只需从命令行运行“ pyspark”,然后选择“ Python”内核

请参阅
https://subscription.packtpub.com/book/big_data_and_business_intelligence/9781788835367/1/ch01lvl1sec17/installing-jupyter

https://opensource.com/article/18/11/pyspark-jupyter-notebook
了解更多详细说明。

答案 1 :(得分:2)

Toree版本0.3.0删除了对PySpark和SparkR的支持:

  

在Toree中删除了对PySpark和Spark R的支持(使用特定的内核)

在此处发布注释:incubator-toree release notes

我不确定“使用特定内核”的含义,并继续寻找Jupyter PySpark内核。