标签: hadoop mapreduce
我有一份将数据拆分成组的工作。我只需要保留大分区(超过一定的阈值)。
有这方法吗?
一种解决方案是迭代所有项目并将它们存储在内存中,并且只有当它们达到一定大小时才刷新它们。 但是,此解决方案可能需要非常大的内存。
答案 0 :(得分:0)
我不认为有一般的直接解决方案(除了存储直到达到大小)。也许如果你提供更多细节,这会给我们更多灵感?