标签: scala apache-spark spark-dataframe apache-spark-dataset
我们什么时候应该在spark中使用数据框和数据集? 在讨论结构化和半结构化数据时,两者都支持scala并且比RDD更有效。
scala
但是,选择数据集而不是数据框是否含糊不清? 数据集的唯一优势是数据帧TypeSafety吗?