我正在尝试对一个类中包含byte []字段的数据集进行排序。对数据集进行排序之后,我将它们以拼写形式存储在s3中,并回读以验证其是否正确排序以及是否未正确排序。
Class A {int id, byte[] desc}
public static final Column[] sortingColumns = {asc("id"), asc("desc")}
public Dataset<A> sortA(Dataset<A> unsorted) {
Dataset<A> sorted = unsorted.sort(sortingColumns);
return sorted
}
//code to write to s3
writeData(Dataset entries, String path) {
entries.write().format(SparkConstant.PARQUET).mode(SaveMode.Overwrite).save(path);
}
我将这些数据集保存在s3中,然后回读以验证排序顺序。
我在这里想念什么?我是否需要做一些特殊的事情来让数据集知道它是一个字节[]?