我想使用自定义分区器对数据进行分区,并将我的DataSet与自身交叉,以在每个分区中生成我的数据的笛卡尔积。
以下代码运行跨所有DataSet的运算符,但我正在寻找一个解决方案,以便在分区内和分区内执行此操作。
DataSet<Tuple2<Integer, String>> partitionedData =
data.partitionCustom(new MyPartitioner(), 0);
DataSet<Tuple2<Tuple2<Integer, String>, Tuple2<Integer, String>>> crossedData = data.cross(data);