Pyspark DataFrameWriter
类有一个jdbc
function用于将数据帧写入sql。该函数有一个--ignore
选项,文档说明:
如果数据已存在,请静默忽略此操作。
但是它会忽略整个事务,还是只会忽略插入重复的行?如果我要将--ignore
与--append
标志组合,该怎么办?这种行为会改变吗?
答案 0 :(得分:3)
mode("ingore")
只是NOOP。如果您要查找INSERT IGNORE
或INSERT INTO ... WHERE NOT EXISTS ...
之类的内容,则必须手动执行此操作,例如使用mapPartitions
。