将HDFS(Hadoop文件系统)目录中的文件读入Pandas数据帧

时间:2013-05-16 21:47:56

标签: python hadoop pandas hdfs

我正在从hive查询生成一些分隔文件到多个HDFS目录。下一步,我想将文件读入单个pandas数据帧,以便应用标准的非分布式算法。

在某种程度上,可行的解决方案使用“hadoop dfs -copyTolocal”,然后是本地文件系统操作是微不足道的,但是我正在寻找一种特别优雅的方式来加载我将合并到我的标准实践中的数据。

理想解决方案的一些特征:

  1. 无需创建本地副本(谁喜欢清理?)
  2. 最少的系统调用次数
  3. 几行Python代码

1 个答案:

答案 0 :(得分:3)

看起来pydoop.hdfs模块在满足一系列目标的同时解决了这个问题:

http://pydoop.sourceforge.net/docs/tutorial/hdfs_api.html

我无法对此进行评估,因为pydoop有非常严格的编译要求,而且我的Hadoop版本有点过时了。