MapReduce数据集中许多数据项之间的平均距离

时间:2019-09-25 16:10:41

标签: mapreduce

我有一个问题,要使用mapReduce计算大型数据集中数据点的平均距离。

我已经编写了顺序代码,但是我一直在思考如何将其转换为MapReduce作业。

 def mean_distance(data):

    list_distance = []

    import itertools

    for x,y in itertools.combinations(data,2):
        list_distance.append(euclidean_distance(x,y))

    summation = sum(list_distance)

    mean_dist = (2.0/(len(data)*(len(data)-1)))*summation
    return mean_dist

请,我是MMapReduce的新手,因此需要有关如何进行此操作的指南。 解冻

0 个答案:

没有答案