为什么使用Java的流API收集器进行管道分组需要更多时间?

时间:2019-06-13 08:45:19

标签: java performance java-8 java-stream

我正在使用Stream API从列表创建Map of Map。列表包含1000万条记录。我已经使用以下两个'groupingBy'操作通过单个语句完成了此操作。问题在于,这一行语句需要花费近1.5分钟的时间来执行,这成为了我的性能至关重要的应用程序中执行的瓶颈。

我已经给出了使用并行流API在下面尝试过的代码

Map<MyKey, Map<String, List<Person>>> personMap = personList.parallelStream()
    .collect(Collectors.groupingBy(
        person -> new MyKey(person.Id(), person.getPricePointId()),
        Collectors.groupingBy(Person::getWorkType)));

执行以上代码需要花费超过1.5分钟的时间,几乎占我总执行时间的75%。我找不到比这更快的其他解决方案。所以我的问题是,这么大量的数据是否具有最大的吞吐量?还是使用下游(multiple groupingBy)不是这里的正确选择?如果不是,减少执行时间的正确方法是什么?

1 个答案:

答案 0 :(得分:0)

您正在做什么是一个坏主意,查询1000万条记录会占用大量内存 因此,将您的查询分为极限和起点,并根据极限和起点将查询划分为多个,最后在单独的线程中运行每个查询。对于您的用例,它将更快,更高效