我正在从hive查询生成一些分隔文件到多个HDFS目录。下一步,我想将文件读入单个pandas数据帧,以便应用标准的非分布式算法。
在某种程度上,可行的解决方案使用“hadoop dfs -copyTolocal”,然后是本地文件系统操作是微不足道的,但是我正在寻找一种特别优雅的方式来加载我将合并到我的标准实践中的数据。
理想解决方案的一些特征:
答案 0 :(得分:3)
看起来pydoop.hdfs模块在满足一系列目标的同时解决了这个问题:
http://pydoop.sourceforge.net/docs/tutorial/hdfs_api.html
我无法对此进行评估,因为pydoop有非常严格的编译要求,而且我的Hadoop版本有点过时了。