我有一个由hadoop集群组成的头节点。我看到pyspark安装在hdfs集群中,即我可以在hdfs用户中使用pyspark shell。但是在用户headnode中没有安装pyspark。因此,我无法从hdfs访问文件并将其带到pyspark。如何在jupyter笔记本中的hdfs中使用pyspark。我在用户头节点中安装了pyspark,但无法访问hdfs文件。 jupyter无法使用hdfs中安装的spark。如何启用它,以便可以访问jupyter中的hdfs文件。
现在,当我在jupyter中访问hdfs文件时,
It says 'Spark is not installed'
我知道它的广泛性,如果我强调不足或过分强调,请在评论中让我知道
答案 0 :(得分:0)
头节点是其他Linux帐户还是其他Linux主机?
如果只是一个不同的帐户,则比较两个帐户上的环境变量。登录到hdfs并运行“ env | sort”,然后在头节点上执行相同的操作。
主要检查环境变量PATH和某些SPARK变量是否存在差异