想要创建一组数据的报告,这些数据显示了数据集的密集/备用填充程度。
具体来说,我想
遍历每个_ID(数据集中大约有250个,因此手动制作它们非常耗时)
对于each_ID,产生一个NULL / NOT NULL值的计数
输出如上所示:
CUstomer_ID 350000 0 Customer_Name 150000 200000 Customer_DOB 200000 150000
有关如何执行此操作的任何提示/提示?我已经搜索了一段时间,但迭代遍历所有_ID键似乎可以通过mapreduce:
MongoDB Get names of all keys in collection
然后用这个:
mr = db.runCommand({
"mapreduce" : "mpfs",
"map" : function() {
for (var key in this) { emit(key, null); }
},
"reduce" : function(key, stuff) { return null; },
"out": "mpfs" + "_keys"
})
但是我不知道如何使用mapreduce集来提供另一个会产生结果的查询。
我还不确定这是否是最有效的方式,因为我是从SQL背景中获取的......有更有效的方法吗?