应用错误收集

我正在尝试对一个类中包含byte []字段的数据集进行排序。对数据集进行排序之后，我将它们以拼写形式存储在s3中，并回读以验证其是否正确排序以及是否未正确排序。

Class A {int id, byte[] desc}
public static final Column[] sortingColumns = {asc("id"), asc("desc")}
public Dataset<A> sortA(Dataset<A> unsorted) {
    Dataset<A> sorted = unsorted.sort(sortingColumns);
    return sorted
}
//code to write to s3
writeData(Dataset entries, String path) {
   entries.write().format(SparkConstant.PARQUET).mode(SaveMode.Overwrite).save(path);
}

我将这些数据集保存在s3中，然后回读以验证排序顺序。

我在这里想念什么？我是否需要做一些特殊的事情来让数据集知道它是一个字节[]？

无法使用Spark中的数据集对字节数组字段进行排序

0 个答案: