我有一个问题,要使用mapReduce计算大型数据集中数据点的平均距离。
我已经编写了顺序代码,但是我一直在思考如何将其转换为MapReduce作业。
def mean_distance(data):
list_distance = []
import itertools
for x,y in itertools.combinations(data,2):
list_distance.append(euclidean_distance(x,y))
summation = sum(list_distance)
mean_dist = (2.0/(len(data)*(len(data)-1)))*summation
return mean_dist
请,我是MMapReduce的新手,因此需要有关如何进行此操作的指南。 解冻