应用错误收集

如何事先知道hadoop map中每个reducer的记录数减少\忽略基于大小的分区

时间：2013-10-22 11:30:07

标签： hadoop mapreduce

我有一份将数据拆分成组的工作。我只需要保留大分区（超过一定的阈值）。

有这方法吗？

一种解决方案是迭代所有项目并将它们存储在内存中，并且只有当它们达到一定大小时才刷新它们。但是，此解决方案可能需要非常大的内存。

1 个答案:

答案 0 :(得分：0)

我不认为有一般的直接解决方案（除了存储直到达到大小）。也许如果你提供更多细节，这会给我们更多灵感？