如何在HDInsight群集

时间:2016-03-28 05:14:42

标签: apache-spark hdinsight spark-graphx graphframes

我在HDInsight上设置了SPARK群集,并且正在尝试使用GraphFrames this tutorial

我已经在群集创建期间使用了自定义脚本来启用spark群集上的GraphX,如此处所述。

当我在运行记事本时,

import org.apache.spark.sql._
import org.apache.spark.sql.functions._

import org.graphframes._

我收到以下错误

<console>:45: error: object graphframes is not a member of package org
       import org.graphframes._
                  ^

我尝试使用以下命令通过Jupyter从spark终端安装graphframes

$SPARK_HOME/bin/spark-shell --packages graphframes:graphframes:0.1.0-spark1.5

但仍然无法让它发挥作用。我是Spark和HDInsight的新手,所以有人可以指出我需要在这个集群上安装什么才能使其工作。

2 个答案:

答案 0 :(得分:0)

今天,这适用于spark-shell,但在jupyter笔记本中不起作用。所以当你运行这个:     $ SPARK_HOME / bin / spark-shell --packages graphframes:graphframes:0.1.0-spark1.5 它在此spark-shell会话的上下文中起作用(至少在spark 1.6集群版本上)。 但是在jupyter中,目前无法加载包。这个功能将很快添加到群集中的jupyter笔记本中。在此期间,您可以使用spark-shell或spark-submit等。

答案 1 :(得分:0)

从Maven存储库上传或导入graphframes库后,您需要重新启动集群以附加库。

所以它对我有用。