获取pydoop HDFS文件的示例

时间:2016-04-29 21:08:28

标签: python-2.7 hadoop hdfs

我有一个存储在HDFS中的文件。我正在使用它如下:

from pydoop import hdfs

with hdfs.open(some_file, 'r') as t:
    run_func(t)

但我不需要打开并阅读所有文件。一小部分就足够了。 我需要编写一个函数,它允许我处理样本和真实文件。例如:

with get_sample(hdfs.open(some_file, 'r'), percent) as s:
    run_func(s)

我知道简单而丑陋的解决方案。它可以实现如下:

  1. 我们从HDFS读取源文件。
  2. 我们从文件中随机读取n个字符串并将其写入新文件 (目的地)档案。
  3. 将目标文件放入HDFS并打开它。
  4. 但是这个解决方案可能需要很长时间,因为源文件可能很大。它还提供了带有样本的临时HDFS文件。

    这样做的简单方法是否存在?

0 个答案:

没有答案