使用Mongo DB API的Cosmos DB的Spark / Databricks数据写入问题

时间:2019-01-12 16:51:54

标签: apache-spark azure-cosmosdb-mongoapi azure-databricks

我正在尝试将数据(使用Databricks)从Spark写入Azure Cosmos DB中的Mongo DB。我已经创建了一个Cosmos DB帐户,其API为“用于Mongo DB API的Azure Cosmos DB”

我已经使用Azure Cosmos数据库帐户的数据资源管理器创建了一个数据库以及一个集合。

在创建集合时,我提供了以下详细信息:

Cosmos DB Collection Input

我在集合中输入了以下记录

Collection Data input

我也可以通过执行查询来检查数据

Query output

当我使用Databricks连接时,使用 printSchema 得到以下输出。

printschema output

调用 display(df)时,显示以下详细信息

Display df output

如果我尝试使用Spark Dataframe插入一行,则使用以下代码将$ t和$ v的插入数据显示为空

color: CSS.ColorProperty

Data output

我看到新记录添加了新列,如下图所示。

New Columns

从数据浏览器和Spark插入数据的方式非常不同。

另一件事,我注意到从spark插入数据后,数据浏览器无法显示集合,而是在尝试显示文档时出现错误。

Data Browser Error

我想知道需要做些什么才能将数据正确地从Spark / Databricks插入Cosmos DB Mongo DB中。请帮忙。

0 个答案:

没有答案