我需要计算大型数据集上的距离矩阵(约20k样本)
distance_matrix = np.ndarray((len(foo),len(foo)))
for i, bar1 in enumerate(foo):
for j, bar2 in enumerate(foo[i+1:]):
distance_matrix[i,j] = hight_level_python_function(bar1, bar2)
除了切割marix并将每个优化技术传递给不同的进程外,还可以使用哪些优化技术来减少计算时间?
UPD:我的数组包含字符串,所以我不能使用ufuncs或scipy.spatial.distance.pdist
。