获取Spark数据集元数据

时间:2018-03-28 18:42:37

标签: apache-spark

我正在尝试将Dataset<row>转换为另一个对象。可能是java.list。我需要提取此数据集的元数据。与列数,列名和列类型一样。无论如何要做到这一点? 谢谢

1 个答案:

答案 0 :(得分:3)

您可以将数据集中的架构设为

ds.schema

这为您提供了包含所有信息的StructType

ds.schema.fieldNames

这给出了所有列名列表

ds.schema.fields

这会为您提供StructField的列表,其中包含column namedatatypenullable作为boolean值。

ds.schema.size 

这给出了列名的总数

此外,您可以使用ds.printSchema()

查看详细信息

希望这有帮助!