无法使用Spark中的数据集对字节数组字段进行排序

时间:2019-12-22 01:22:23

标签: java apache-spark parquet apache-spark-dataset

我正在尝试对一个类中包含byte []字段的数据集进行排序。对数据集进行排序之后,我将它们以拼写形式存储在s3中,并回读以验证其是否正确排序以及是否未正确排序。

Class A {int id, byte[] desc}
public static final Column[] sortingColumns = {asc("id"), asc("desc")}
public Dataset<A> sortA(Dataset<A> unsorted) {
    Dataset<A> sorted = unsorted.sort(sortingColumns);
    return sorted
}
//code to write to s3
writeData(Dataset entries, String path) {
   entries.write().format(SparkConstant.PARQUET).mode(SaveMode.Overwrite).save(path);
}

我将这些数据集保存在s3中,然后回读以验证排序顺序。

我在这里想念什么?我是否需要做一些特殊的事情来让数据集知道它是一个字节[]?

0 个答案:

没有答案