我正在为一些大型数据处理任务使用Bluemix数据服务。 原始数据进入Cloudant,我们正在使用cloudant中的仓库服务将其推送到DashDB,并将数据推送到dashDB。
当仓库运行时,它会将新的/更新的行推送到dashdb,但也会查看仓库状态列,它会显示“5/5 revisions warehoused”,这意味着它还会推送和覆盖现有的行。
我想确保只将更改的行推送到dashdb。我查看了since_seq属性,但查看文档,看起来这是cloudant到cloudant复制。有人可以建议一种方法来专门对dashdb进行增量推送。
谢谢
答案 0 :(得分:0)
使用复制过程将数据从Cloudant加载到dashDB。这意味着,如果以某种方式更新或修改Cloudant数据,则必须再次将文档复制到dashDB中,以确保使用最新信息继续使用分析任务。
与普通的Cloudant复制一样,数据仅单向传输:对于仓库,传输是从Cloudant到dashDB。在初始加载数据之后,仓库订阅Cloudant数据库中的数据内容更改。任何更改都会从Cloudant源复制到dashDB目标。这意味着仓库是从Cloudant到dashDB的连续复制形式。
随着时间的推移,您的Cloudant数据库可能还会进行结构更改。这可能包括添加或删除JSON文档中的字段。发生这种情况时,仓库使用的架构可能会变为无效,从而导致在将新数据从Cloudant复制到dashDB时报告错误。
要解决此问题,Cloudant仓库具有“重新扫描”功能。