应用错误收集

我有一个存储在HDFS中的文件。我正在使用它如下：

from pydoop import hdfs

with hdfs.open(some_file, 'r') as t:
    run_func(t)

但我不需要打开并阅读所有文件。一小部分就足够了。我需要编写一个函数，它允许我处理样本和真实文件。例如：

with get_sample(hdfs.open(some_file, 'r'), percent) as s:
    run_func(s)

我知道简单而丑陋的解决方案。它可以实现如下：

但是这个解决方案可能需要很长时间，因为源文件可能很大。它还提供了带有样本的临时HDFS文件。

这样做的简单方法是否存在？