我是mongodb和map-reduce的新手,想要使用k-means空间聚类来评估空间数据。我发现这个article似乎是对算法的一个很好的描述,但我不知道如何将其转换为mongo shell脚本。假设我的数据如下:
{
_id: ObjectID(),
loc: {x: <longitude>, y: <latitude>},
user: <userid>
}
我可以使用{k = sqrt(n / 2)},其中n是样本数。 我可以使用聚合来获取数据的边界范围和计数等。 我有点迷失了对集群点文件的引用,我认为这只是另一个集合,我不知道如何进行迭代,或者是否可以在客户端或数据库中完成?
好的,我在这方面取得了一些进展,因为我已经生成了初始随机点数组,我需要在map-reduce阶段计算最小平方和,但我不知道如何通过这些到地图功能。我写了一下地图函数:
var mapCluster = function() {
var key = -1;
var sos = 0;
var pos;
for (var i=0; i<pts.length; i++) {
var dx = pts[i][0] - this.arguments.pos[0];
var dy = pts[i][1] - this.arguments.pos[1];
var sumOfSquare = dx*dx + dy*dy;
if (i == 0 || sumOfSquares < sos) {
key = i;
sos = sumOfSquares;
pos = this.arguments.pos;
}
}
emit(key, pos);
};
在这种情况下,群集点就像,这可能不起作用:
var pts = [ [x,y], [x1,y1], ... ];
因此,对于每个mr迭代,我们将所有收集点与该数组进行比较并发出我们最接近的点的索引以及收集点的位置,然后在reduce函数中发出与每个关联点相关的点的平均值。 index将用于创建新的群集点位置。然后在finialize函数中,我可以更新集群文档。
我假设我可以在集群文档上执行findOne()来加载map函数中的集群点,但是我们是否要在每次调用map时加载此文档?或者有没有办法为每次迭代加载一次?
所以看起来你可以使用范围变量执行上述操作:
db.main.mapReduce( mapCluster, mapReduce, { scope: { pnts: pnts, ... }} );
您必须注意范围中的变量名称,因为它们被放置在地图的范围内,减少和完成它们可能与现有变量名称冲突的函数。
答案 0 :(得分:0)
你有什么尝试?
请注意,您需要多个映射器。
使用在MR上运行k-means的规范方法,每次迭代需要一个mapper / reducer 。
那么,您是否可以尝试编写地图并减少单次迭代的步骤?