我想用hadoop map reduce和python做一个简单的k-means。
映射器获取点并将每个点映射到最近的中心。
减速器以中心为关键点并指向值并计算点的新中心。
但是现在,我需要从减速器中收集所有新的中心,并以某种方式将它们提供给映射器 在下一轮。
我该怎么办?我需要为每个地图任务建立一个全局数组中心。
这样做的正确方法是什么?
答案 0 :(得分:1)
有关如何编码全局常量的信息,请参阅this question。
<强>接受强>
<强>计算强>
<强>可发出强>
<强>接受强>
<强>计算强>
<强>可发出强>
您将提供下一个K-Means时代:
重复直到满足您的停止标准。