我有一个配置为Gremlin(图形)API的Azure CosmosDB帐户。它是一个相当大的图形,~100k节点和~1M边缘。
然后,我想将它加载到Spark(Python)。我知道Gremlin API不适合这个...所以我通过两个SQL查询来做,一个用于获取顶点,另一个用于边缘。 (Q1)这确实是最佳做法吗?
在Spark中处理图形之后,我需要更新现有节点/边缘的一些属性,并生成新的节点/边缘。 ( Q2)将其保存回我的CosmosDB帐户的最佳方法是什么?我尝试了SQL API,但我注意到,我还需要设置私有属性以添加像_etag这样的新记录,_rid。我应该为这些属性生成随机值吗?