Spark正确使用数据集?

时间:2018-04-08 23:35:17

标签: apache-spark dataframe dataset apache-spark-sql

背景

很容易理解Spark中数据集的所有好处,包括编译时错误检查,性能优化等。

当您开始使用数据集编码时,您很快就会发现许多操作返回数据帧而不是数据集。例如,dataSet.select(" a"," b")将返回一个数据框(至少在很多情况下会是这样)。

我的问题

使用案例类和.as [CaseClassName]选择后,您可以轻松地将数据框更改为数据集。在每次改造之后这样做似乎有点痛苦。

转换为" as"每次转型后,坚持使用数据集的正确方法?或者我是否正在接近这个错误?

0 个答案:

没有答案