我的源代码格式如下:
field1(key) field2 field3 field4
111 1 1 randomstring
111 2 1 randomstring
111 3 1 randomstring
111 4 1 randomstring
111 4 1 randomstring2
111 1 2 randomstring
...
每个field3可以有任意数量的field2和field4,而field2可能会出现多次field4。
我想检查存在的每个field3的所有field2和field4值,并确定所有field4值是否相同。
我的第一个想法是尝试使用聚合器转换到groupby field3,然后在field4上使用groupby执行额外的聚合,并比较每个之间的Count(),但我不确定它是否会起作用,或者是执行此逻辑的最佳方式。
我想要了解的是在我对field3执行第一个groupby之后,我如何检查每个条目的所有字段。可以在这里应用聚合函数First()来获取第一个值,然后作为输出发送以用于以下过滤器trans吗?