标签: java random dataset apache-spark-sql
我有一个包含以下列的数据集:
我,种子
我的数据集每100k行有10M,每100k行有种子变化。我想添加一个“随机”列如下:
data.withColumn("random",rand(col("seed")))
问题是函数org.apache.spark.sql.functions.rand只接受一个值而不是一列。有没有办法用sparksql和一个列作为种子生成random?
由于