如何使用MapReduce并行化平均距离计算

时间:2019-08-26 17:26:48

标签: mapreduce

我在计算大型数据集中的数据元素的平均距离时遇到问题,想使用Mapreduce将其并行化。目的是计算样本之间的距离,将它们相加并乘以(2 / n(n-1)),其中n是数据集中的样本总数。

我已经实现了它,但是我想对其进行并行化

def euclidean_distance(array1,array2):     return sum((x-y)** 2 for zip中的x,y(array1,array2))** 0.5

data = [[1,2,3],[6,4,5],[8,9,10],[6,7,8]]

list_distance = []

导入itertools

在itertools.combinations(data,2)中用于x,y的

:     list_distance.append(euclidean_distance(x,y))

print(list_distance)
总和= sum(list_distance)

mean_distance =(2.0 /(len(数据)*(len(数据)-1)))*求和

print(“总距离为” + str(求和)) print(“平均距离为” + str(mean_distance))

0 个答案:

没有答案