数据转换帮助 - 各种文档 - 不同的领域

时间:2014-02-27 13:59:18

标签: mongodb transform data-conversion

让我们说,我想将数据从1个包含5000万条记录的MongoDB群集传输到另一个自我强加的“模式”已大幅改变的数据,我想在实际运行之前测试导入+转换。

我能够很好地找到不同字段的列表,但我想提取各种文档,以便拉出每个不同的字段。然后,这些数据将成为测试我的Map-Reduce脚本的源。

由于多年来使用和更改保存存储数据的方式,问题出现了。最初的user.orgId变成了user.organizationid。

有什么建议吗?即使是第三方工具?

1 个答案:

答案 0 :(得分:1)

基本上你似乎有两个相关的问题:

  1. 如何在不影响最终集合的情况下运行导入和转换。
  2. 如何验证集合中的文档是否与特定模式定义匹配。
  3. 这两个问题都有各种适当的答案。

    问题1。

    一个。您可以创建群集的临时副本:然后在此环境中运行导入和转换。这是最安全的方式。

    湾您只需使用不同的最终集合运行导入和转换即可。这不像a那么安全,因为它要求开发人员在测试时和最终部署时勤勉地选择适当的集合。

    问题2。

    这在很大程度上取决于你正在开发的环境,我对此一无所知。但是,为了一个例子,如果你在python中工作,你可以使用类似:https://pypi.python.org/pypi/jsonschema的东西,并迭代每个文档,确认它符合你需要的模式。如果您已经有ODM,并且具有描述模式的映射,那么应该可以使用映射来验证文档。