使用Jupyter笔记本和SparkR

时间:2016-05-25 04:05:49

标签: sparkr jupyter-irkernel

我想在SparkR上使用Jupyter笔记本,我想在我的Jupyter群集上安装的Spark上安装IR内核。

我可以找到JupyterpySpark一起使用的帮助,但不能与SparkR一起使用。

我在Spark群集上创建了AWS-EMR群集。

2 个答案:

答案 0 :(得分:0)

如果使用IRkernel不是必不可少的,要将Jupyter与Spark一起使用,您应该考虑安装Apache Toree内核:https://toree.incubator.apache.org/

此内核允许您使用任何Spark API将Jupyter笔记本与Spark连接。它还允许使用魔法(例如%pyspark或%sparkr)在单个笔记本的不同单元格中切换语言。

答案 1 :(得分:0)

使用Toree创建内核之后,您的kernel.json应包含SPARK_HOME env,的确是这样的:

  

“ / opt / cloudera / parcels / SPARK2 / lib / spark2”:   “ / opt / cloudera / parcels / SPARK2 / lib / spark2”,

有时:

  

“ / opt / cloudera / parcels / SPARK2 / lib / spark2”:“ spark-home”,

尽管我为Scala手动修复了SPARK_HOME并让Scala内核正常工作,但我仍然无法使SparkR内核为我工作,但是也许内核中的错误是您应该首先检查的-如果您使用Toree。