我应该如何序列化DataSet
?有没有办法使用Encoder
创建二进制文件,还是应该将其转换为DataFrame
然后将其保存为镶木地板?
答案 0 :(得分:2)
我应该如何序列化数据集?
dataset.toDF().write.parquet("")
我相信它会自动遵循数据集正在使用的架构。
有没有办法使用编码器来创建二进制文件
基于Encoder
的源代码(适用于1.6.0),它被设计为将输入数据源转换为数据集(来往于InternalRow
以确切但这是一个非常低级别的详情)。默认实现将数据帧中的每一列与case-class(对于scala)或元组或基元进行匹配,以生成数据集。
答案 1 :(得分:1)