Spark 2.0 - pyspark2数据框 - “独特的id生成

时间:2018-06-15 02:01:12

标签: scala apache-spark pyspark unique pyspark-sql

将spark 2.0与pyspark结合使用。

源表位于配置单元中 目标表位于配置单元

在目标表中,想要创建唯一的row_id,这些row_id将是唯一的,并且不应重复。

示例代码

SourceDf=Spark.sql ("""select * from table""")
SouceDf.registerastemptable (souceDf)
Spark.sql (insert into targettable select 
Rowid,  a.col1, a.col2....from sourceDf

如何做同样的事?

1 个答案:

答案 0 :(得分:1)

您可以使用pyspark.sql.functions

中的monotonically_increasing_id
from pyspark.sql.functions import monotonically_increasing_id
with_id=SourceDF.withColumn('_id',monotonically_increasing_id())