我遇到过一种情况,我虽然可以使用Stream API处理,但我根本找不到合适的解决方案。
案例如下:我有一个按标识符字段排序的元素流。这个标识符有几个具有相同值的元素,我需要根据其他字段的条件对它们进行重复数据删除。从概念上讲,它可以被视为对流的几个块进行简化操作,从而产生相同类型的流。
目前,我设法提供的唯一解决方案是根据公共标识符收集流以获取Map<Id, List<Elem>>
之类的内容,然后使用此地图的流来应用我的重复数据删除规则并继续。问题(以及为什么我不使用这个解决方案)是collect
是一个终端操作,重新流式传输意味着我将迭代我的元素两次。
更新
考虑以下课程:
public static class Item {
private final int _id;
private final double _price;
public Item(final int id, final double price) {
_id = id;
_price = price;
}
public int id() {
return _id;
}
public double price() {
return _price;
}
}
以下流:
final Stream<Item> items = Stream.<Item>builder()
.add(new Item(1, 4))
.add(new Item(1, 6))
.add(new Item(1, 3))
.add(new Item(2, 5))
.add(new Item(2, 1))
.add(new Item(3, 5))
.build();
在执行所需操作后,如果重复数据删除规则为“具有最高价格”,则流应仅包含项目(1,6),项目(2,5)和项目(3,5)。
如果我强制执行此操作,我可以在具有相同ID的情况下使用我的项目,在临时集合中备份它们,并在遇到具有不同ID的项目时对此集合进行重复数据删除。
如果我使用collect首先按id分组项目,我会在转到下一个操作之前立即使用所有数据,我需要避免这种情况。
答案 0 :(得分:2)
对于大多数此类案例,临时存储(如Map
)是不可避免的。毕竟,它是地图的有效查找算法,允许识别每个元素所属的组。此外,第一组可能包含源流的第一个和最后一个元素,并且找出是否是这种情况的唯一方法是迭代整个源流。对于预排序数据的特殊情况,这可能不是这样,但API没有提供将此用于分组操作的方法。如果它存在,它将不能很好地与并行Stream支持一起使用。
但请考虑groupingBy
collector accepting a downstream Collector
,它允许您将组缩减到最终结果。如果它是真正的减少,你可以使用,例如, reducing
作为下游收集器。这允许您将元素收集到Map<Id, Reduced>
而不是Map<Id, List<Elem>>
,因此您不会收集到List
之后必须减少的内容。
对于任何类似的情况,如果您可以将后续操作描述为Collector
,则在遇到组的第一个元素时,它的处理确实会正确开始。请注意,还有mapping
和collectingAndThen
之类的其他组合Collector
。 Java 9还将添加filtering
和flatMapping
,因此您可以以下游收集器的形式表达许多典型的Stream
操作。为方便起见,this collector将映射步骤与后续缩减步骤相结合。
只有在完成分组后才能通过访问Map.values()
来进一步处理这些组。如果最终结果应该是Collection
,则不必再次对其进行流式传输,因为现有的收集操作已足够,例如,如果您需要new ArrayList<>(map.values())
而不是非特定List
,则可以使用Collection
。
如果你担心在调用者开始对最终Stream进行终端操作之前不应该执行操作,你可以使用这样的操作:
public Stream<ResultType> stream() {
return StreamSupport.stream(() -> items.stream()
.collect(Collectors.groupingBy(classificationFunc,
Collectors.reducing(id, mappingFunc, reductionFunc)))
.values().spliterator(),
Spliterator.SIZED, false);
}
答案 1 :(得分:0)
我没有对此进行测试,但使用StreamEx库,您应该可以collapse()
这样的相邻元素:
items.collapse((a, b) -> a.id() == b.id(), (a, b) -> a.price() < b.price() ? b : a)