让我们说,我想将数据从1个包含5000万条记录的MongoDB群集传输到另一个自我强加的“模式”已大幅改变的数据,我想在实际运行之前测试导入+转换。
我能够很好地找到不同字段的列表,但我想提取各种文档,以便拉出每个不同的字段。然后,这些数据将成为测试我的Map-Reduce脚本的源。
由于多年来使用和更改保存存储数据的方式,问题出现了。最初的user.orgId变成了user.organizationid。
有什么建议吗?即使是第三方工具?
答案 0 :(得分:1)
基本上你似乎有两个相关的问题:
这两个问题都有各种适当的答案。
问题1。
一个。您可以创建群集的临时副本:然后在此环境中运行导入和转换。这是最安全的方式。
湾您只需使用不同的最终集合运行导入和转换即可。这不像a那么安全,因为它要求开发人员在测试时和最终部署时勤勉地选择适当的集合。
问题2。
这在很大程度上取决于你正在开发的环境,我对此一无所知。但是,为了一个例子,如果你在python中工作,你可以使用类似:https://pypi.python.org/pypi/jsonschema的东西,并迭代每个文档,确认它符合你需要的模式。如果您已经有ODM,并且具有描述模式的映射,那么应该可以使用映射来验证文档。