我在/ project1目录下的hadoop文件系统中有一个文本文件名mr.txt。我需要编写python代码来读取文本文件的第一行而不将mr.txt文件下载到本地。但我无法从hdfs打开mr.txt文件。 我试过了:
open('hdfs:///project1/mr.txt','r')
答案 0 :(得分:2)
安装PySpark。
text = sc.textFile('hdfs:///project1/mr.txt')
first_line = text.first()
答案 1 :(得分:0)
不知道您的软件是什么或运行的位置......
您可以使用NFS server,以便可以安装HDFS卷并在本地访问它。如果此选项不符合您的需求,您应该使用Hadoop Streaming。最后,如果您正在编写Spark作业,则可以像访问本地FS一样访问HDFS。