我知道我可以UUID.randomUUID.toString
为我的Dataset
中的每一行添加一个ID,但是我需要这个ID,因为我想使用GraphX。我如何在Spark中做到这一点?我知道Spark有monotonically_increasing_id()
但这只适用于DataFrame API - 数据集怎么样?
答案 0 :(得分:0)
我们可以通过放入数据帧来实现这一目标:
case class Row(id: Long, name: String .....)
val ds: Dataset[Row] = ....
val ds2 = ds.withColumn("id", monotonically_increasing_id()).as[Row]