我有一个存储在HDFS中的文件。我正在使用它如下:
from pydoop import hdfs
with hdfs.open(some_file, 'r') as t:
run_func(t)
但我不需要打开并阅读所有文件。一小部分就足够了。 我需要编写一个函数,它允许我处理样本和真实文件。例如:
with get_sample(hdfs.open(some_file, 'r'), percent) as s:
run_func(s)
我知道简单而丑陋的解决方案。它可以实现如下:
但是这个解决方案可能需要很长时间,因为源文件可能很大。它还提供了带有样本的临时HDFS文件。
这样做的简单方法是否存在?