我正在开发一个spark mllib算法。我拥有的数据集采用这种形式
公司“:”XXXX“,”CurrentTitle“:”XYZ“,”Edu_Title“:”ABC“,”Exp_mnth“:.(有更多与此类似的值)
我尝试将字符串值原始编码为数字值。所以,我尝试使用zipwithuniqueID为每个字符串值的唯一值。由于某种原因,我无法将修改后的数据集保存到磁盘。我可以使用spark SQL以任何方式执行此操作吗?或者更好的方法是什么?
答案 0 :(得分:5)
<强> Scala的强>
val dataFrame1 = dataFrame0.withColumn("index",monotonically_increasing_id())
<强>爪哇强>
Import org.apache.spark.sql.functions;
Dataset<Row> dataFrame1 = dataFrame0.withColumn("index",functions.monotonically_increasing_id());