使用Azure CosmosDB图表在Spark中工作

时间:2018-06-14 06:46:32

标签: azure-cosmosdb azure-cosmosdb-sqlapi

我有一个配置为Gremlin(图形)API的Azure CosmosDB帐户。它是一个相当大的图形,~100k节点和~1M边缘。

然后,我想将它加载到Spark(Python)。我知道Gremlin API不适合这个...所以我通过两个SQL查询来做,一个用于获取顶点,另一个用于边缘。 (Q1)这确实是最佳做法吗?

在Spark中处理图形之后,我需要更新现有节点/边缘的一些属性,并生成新的节点/边缘。 ( Q2)将其保存回我的CosmosDB帐户的最佳方法是什么?我尝试了SQL API,但我注意到,我还需要设置私有属性以添加像_etag这样的新记录,_rid。我应该为这些属性生成随机值吗?

0 个答案:

没有答案