如何从hdfs读取文件

时间:2017-02-24 20:42:01

标签: python hadoop hdfs

我在/ project1目录下的hadoop文件系统中有一个文本文件名mr.txt。我需要编写python代码来读取文本文件的第一行而不将mr.txt文件下载到本地。但我无法从hdfs打开mr.txt文件。 我试过了:

open('hdfs:///project1/mr.txt','r') 

2 个答案:

答案 0 :(得分:2)

安装PySpark。

text = sc.textFile('hdfs:///project1/mr.txt')
first_line = text.first()

答案 1 :(得分:0)

不知道您的软件是什么或运行的位置......

您可以使用NFS server,以便可以安装HDFS卷并在本地访问它。如果此选项不符合您的需求,您应该使用Hadoop Streaming。最后,如果您正在编写Spark作业,则可以像访问本地FS一样访问HDFS。