我正在尝试对包含;
个分隔项的平面输入文件进行分区。
一行中的第一项表示一个类别,我想对此类别进行分区,以便为每个类别创建一个将由专用线程处理的分区。
但我对如何在自定义Partitioner
中实现此分区逻辑感到困惑。
分区似乎发生在面向块的步骤之前,因此在读取,写入之前,所以看起来我需要逐行读取自定义分区器中的文件,从行中获取类别字段并收集具有相同类别的行并创建每个集合都有一个ExecutionContext
?
我正朝着正确的方向前进吗? 有经验的人可以使用文件提供一个小例子(可能是伪代码)吗?