我有两个系列 集合1的结构是
{'click_id':"123345",
...
}
第二集的结构是
{'click_id':"123345",
...
}
在集合1中执行以下操作的最佳方法是什么
{'click_id':"123345",
'collection2':true,
...
}
考虑到集合1中有大约10亿条记录,集合2中有大约3000万条记录。
答案 0 :(得分:0)
据我所知,你不能从MongoDB上的SQL DB那样做JOIN之类的东西。
如果您的作业是批处理的,并且您可以将第二个集合视为状态快照,则可以将所有3000万个ID加载到内存中(应该低于1 GB,但这取决于ID的长度)作为字典/地图。
然后浏览第一个集合中的所有10亿条记录,并将结果保存为批量插入/更新(IDK您想要的内容)。