将spark 2.0与pyspark结合使用。
源表位于配置单元中 目标表位于配置单元
在目标表中,想要创建唯一的row_id,这些row_id将是唯一的,并且不应重复。
示例代码
SourceDf=Spark.sql ("""select * from table""")
SouceDf.registerastemptable (souceDf)
Spark.sql (insert into targettable select
Rowid, a.col1, a.col2....from sourceDf
)
如何做同样的事?
答案 0 :(得分:1)
from pyspark.sql.functions import monotonically_increasing_id
with_id=SourceDF.withColumn('_id',monotonically_increasing_id())