SparkSql随机使用列作为种子

时间:2017-07-11 07:14:30

标签: java random dataset apache-spark-sql

我有一个包含以下列的数据集:

我,种子

我的数据集每100k行有10M,每100k行有种子变化。我想添加一个“随机”列如下:

 data.withColumn("random",rand(col("seed")))

问题是函数org.apache.spark.sql.functions.rand只接受一个值而不是一列。有没有办法用sparksql和一个列作为种子生成random?

由于

0 个答案:

没有答案