应用错误收集

如何访问HDFS头节点群集中安装的pyspark

时间：2019-01-22 07:36:37

标签： hadoop pyspark jupyter-notebook hdfs cluster-computing

我有一个由hadoop集群组成的头节点。我看到pyspark安装在hdfs集群中，即我可以在hdfs用户中使用pyspark shell。但是在用户headnode中没有安装pyspark。因此，我无法从hdfs访问文件并将其带到pyspark。如何在jupyter笔记本中的hdfs中使用pyspark。我在用户头节点中安装了pyspark，但无法访问hdfs文件。 jupyter无法使用hdfs中安装的spark。如何启用它，以便可以访问jupyter中的hdfs文件。

现在，当我在jupyter中访问hdfs文件时，

It says 'Spark is not installed'

我知道它的广泛性，如果我强调不足或过分强调，请在评论中让我知道

1 个答案:

答案 0 :(得分：0)

头节点是其他Linux帐户还是其他Linux主机？

如果只是一个不同的帐户，则比较两个帐户上的环境变量。登录到hdfs并运行“ env | sort”，然后在头节点上执行相同的操作。

主要检查环境变量PATH和某些SPARK变量是否存在差异