如何在spark数据帧/数据集上启用严格数据类型检查? 我们正在接收来自上游系统的许多系统生成和手动馈送,以进行转换。 Ask是在开始转换之前提取提要并对模式执行严格的数据类型检查 有人可以建议我们如何有效地使用Spark 2.0吗? 我们尝试了以下
data-dismiss="modal"
答案 0 :(得分:0)
我假设您正在使用scala,因此我的建议是使用Case类来定义您的架构。您可以执行以下操作:
case class Item(item_price: Long, item_id: Long)
val item = spark.
read.
schema(schema).
csv("path").
as[Item]
让我知道你对它的看法。
建议从Databricks阅读本文。