我在HDInsight上设置了SPARK群集,并且正在尝试使用GraphFrames this tutorial。
我已经在群集创建期间使用了自定义脚本来启用spark群集上的GraphX,如此处所述。
当我在运行记事本时,
import org.apache.spark.sql._
import org.apache.spark.sql.functions._
import org.graphframes._
我收到以下错误
<console>:45: error: object graphframes is not a member of package org
import org.graphframes._
^
我尝试使用以下命令通过Jupyter从spark终端安装graphframes
:
$SPARK_HOME/bin/spark-shell --packages graphframes:graphframes:0.1.0-spark1.5
但仍然无法让它发挥作用。我是Spark和HDInsight的新手,所以有人可以指出我需要在这个集群上安装什么才能使其工作。
答案 0 :(得分:0)
今天,这适用于spark-shell,但在jupyter笔记本中不起作用。所以当你运行这个: $ SPARK_HOME / bin / spark-shell --packages graphframes:graphframes:0.1.0-spark1.5 它在此spark-shell会话的上下文中起作用(至少在spark 1.6集群版本上)。 但是在jupyter中,目前无法加载包。这个功能将很快添加到群集中的jupyter笔记本中。在此期间,您可以使用spark-shell或spark-submit等。
答案 1 :(得分:0)
从Maven存储库上传或导入graphframes库后,您需要重新启动集群以附加库。
所以它对我有用。