我正在使用Databricks,该数据使用Spark Connector将CSV文件中的数据写入Cosmos DB。现在,我的Cosmos数据库已经包含了很少的记录,因此当我运行Databricks Notebooks时,它应该只写数据库中不存在的记录。 我尝试了SaveMode。忽略但无济于事。
df.write.mode(SaveMode.Ignore).cosmosDB(writeConfig)
现在理想情况下,SaveMode.Ignore应该跳过现有记录,并写出唯一不存在于数据库中但没有发生的记录。
如果有人对如何实现这一目标有任何建议,那将是一个很大的帮助。
谢谢。
答案 0 :(得分:1)
使用CSV文件中的某些唯一字段创建具有唯一键的容器。之后,您无法将重复的唯一键值添加到Cosmos DB。
更多信息: https://docs.microsoft.com/en-us/azure/cosmos-db/unique-keys