如何访问HDFS头节点群集中安装的pyspark

时间:2019-01-22 07:36:37

标签: hadoop pyspark jupyter-notebook hdfs cluster-computing

我有一个由hadoop集群组成的头节点。我看到pyspark安装在hdfs集群中,即我可以在hdfs用户中使用pyspark shell。但是在用户headnode中没有安装pyspark。因此,我无法从hdfs访问文件并将其带到pyspark。如何在jupyter笔记本中的hdfs中使用pyspark。我在用户头节点中安装了pyspark,但无法访问hdfs文件。 jupyter无法使用hdfs中安装的spark。如何启用它,以便可以访问jupyter中的hdfs文件。

现在,当我在jupyter中访问hdfs文件时,

It says 'Spark is not installed'

我知道它的广泛性,如果我强调不足或过分强调,请在评论中让我知道

1 个答案:

答案 0 :(得分:0)

头节点是其他Linux帐户还是其他Linux主机?

如果只是一个不同的帐户,则比较两个帐户上的环境变量。登录到hdfs并运行“ env | sort”,然后在头节点上执行相同的操作。

主要检查环境变量PATH和某些SPARK变量是否存在差异