标签: python python-2.7 apache-spark hadoop mrjob
我正在研究用于图像集群的Hadoop和Spark框架。 我使用Python作为编程语言。对于map-reduce框架,使用MRJOB包。 我的疑问是如何直接在python中访问hdfs文件? 例如,如果我在hdfs上的文件是/a.txt 现在我如何直接在python中访问它以应用进一步的处理。 我查看了许多库,但没有得到具体的答案。我看到了蛇咬伤,但仅适用于python 2。