如何事先知道hadoop map中每个reducer的记录数减少\忽略基于大小的分区

时间:2013-10-22 11:30:07

标签: hadoop mapreduce

我有一份将数据拆分成组的工作。我只需要保留大分区(超过一定的阈值)。

有这方法吗?

一种解决方案是迭代所有项目并将它们存储在内存中,并且只有当它们达到一定大小时才刷新它们。 但是,此解决方案可能需要非常大的内存。

1 个答案:

答案 0 :(得分:0)

我不认为有一般的直接解决方案(除了存储直到达到大小)。也许如果你提供更多细节,这会给我们更多灵感?