如何在Stream的某些部分执行缩减操作

时间:2017-01-26 16:36:19

标签: java java-stream

我遇到过一种情况,我虽然可以使用Stream API处理,但我根本找不到合适的解决方案。

案例如下:我有一个按标识符字段排序的元素流。这个标识符有几个具有相同值的元素,我需要根据其他字段的条件对它们进行重复数据删除。从概念上讲,它可以被视为对流的几个块进行简化操作,从而产生相同类型的流。

目前,我设法提供的唯一解决方案是根据公共标识符收集流以获取Map<Id, List<Elem>>之类的内容,然后使用此地图的流来应用我的重复数据删除规则并继续。问题(以及为什么我不使用这个解决方案)是collect是一个终端操作,重新流式传输意味着我将迭代我的元素两次。

更新

考虑以下课程:

public static class Item {
    private final int _id;
    private final double _price;

    public Item(final int id, final double price) {
        _id = id;
        _price = price;
    }

    public int id() {
        return _id;
    }

    public double price() {
        return _price;
    }
}

以下流:

final Stream<Item> items = Stream.<Item>builder()
        .add(new Item(1, 4))
        .add(new Item(1, 6))
        .add(new Item(1, 3))
        .add(new Item(2, 5))
        .add(new Item(2, 1))
        .add(new Item(3, 5))
        .build();

在执行所需操作后,如果重复数据删除规则为“具有最高价格”,则流应仅包含项目(1,6),项目(2,5)和项目(3,5)。

如果我强制执行此操作,我可以在具有相同ID的情况下使用我的项目,在临时集合中备份它们,并在遇到具有不同ID的项目时对此集合进行重复数据删除。

如果我使用collect首先按id分组项目,我会在转到下一个操作之前立即使用所有数据,我需要避免这种情况。

2 个答案:

答案 0 :(得分:2)

对于大多数此类案例,临时存储(如Map)是不可避免的。毕竟,它是地图的有效查找算法,允许识别每个元素所属的组。此外,第一组可能包含源流的第一个和最后一个元素,并且找出是否是这种情况的唯一方法是迭代整个源流。对于预排序数据的特殊情况,这可能不是这样,但API没有提供将此用于分组操作的方法。如果它存在,它将不能很好地与并行Stream支持一起使用。

但请考虑groupingBy collector accepting a downstream Collector,它允许您将组缩减到最终结果。如果它是真正的减少,你可以使用,例如, reducing作为下游收集器。这允许您将元素收集到Map<Id, Reduced>而不是Map<Id, List<Elem>>,因此您不会收集到List之后必须减少的内容。

对于任何类似的情况,如果您可以将后续操作描述为Collector,则在遇到组的第一个元素时,它的处理确实会正确开始。请注意,还有mappingcollectingAndThen之类的其他组合Collector。 Java 9还将添加filteringflatMapping,因此您可以以下游收集器的形式表达许多典型的Stream操作。为方便起见,this collector将映射步骤与后续缩减步骤相结合。

只有在完成分组后才能通过访问Map.values()来进一步处理这些组。如果最终结果应该是Collection,则不必再次对其进行流式传输,因为现有的收集操作已足够,例如,如果您需要new ArrayList<>(map.values())而不是非特定List,则可以使用Collection

如果你担心在调用者开始对最终Stream进行终端操作之前不应该执行操作,你可以使用这样的操作:

public Stream<ResultType> stream() {
    return StreamSupport.stream(() -> items.stream()
            .collect(Collectors.groupingBy(classificationFunc,
                Collectors.reducing(id, mappingFunc, reductionFunc)))
            .values().spliterator(),
        Spliterator.SIZED, false);
}

答案 1 :(得分:0)

我没有对此进行测试,但使用StreamEx库,您应该可以collapse()这样的相邻元素:

items.collapse((a, b) -> a.id() == b.id(), (a, b) -> a.price() < b.price() ? b : a)