如何通过使用Azure Cosmos DB Spark仅将不存在的记录写入Cosmos DB?

时间:2020-07-07 06:40:49

标签: azure apache-spark azure-cosmosdb databricks azure-databricks

我正在使用Databricks,该数据使用Spark Connector将CSV文件中的数据写入Cosmos DB。现在,我的Cosmos数据库已经包含了很少的记录,因此当我运行Databricks Notebooks时,它应该只写数据库中不存在的记录。 我尝试了SaveMode。忽略但无济于事。

df.write.mode(SaveMode.Ignore).cosmosDB(writeConfig)

现在理想情况下,SaveMode.Ignore应该跳过现有记录,并写出唯一不存在于数据库中但没有发生的记录。

如果有人对如何实现这一目标有任何建议,那将是一个很大的帮助。

谢谢。

1 个答案:

答案 0 :(得分:1)

使用CSV文件中的某些唯一字段创建具有唯一键的容器。之后,您无法将重复的唯一键值添加到Cosmos DB。

更多信息: https://docs.microsoft.com/en-us/azure/cosmos-db/unique-keys