我要解决的用例如下:
例如:
问题:
答案 0 :(得分:1)
自定义分区程序会有所帮助,但对您来说没有必要。
您只需从邮件中提取分组值并将其用作分组键即可。因此,在源读取数据后,如果您使用数据类型map
,则使用byte[] -> Tuple2<keyType,byte[]>
提取值(例如,记录 - >(groupingValue,记录);想保留原始信息)。之后,您可以使用.keyBy(0)
并在其上应用您想要的任何运算符。 keyBy
确保Tuple2
的第一个字段中具有相同值的所有记录都由同一个运算符处理。