标签: python distributed-filesystem
我有一个包含1,00,000条记录的数据集。我需要找到该数据集的欧几里得距离矩阵。它应该创建1,00,000 * 1,00,000矩阵。在python中,我们有squareform(pdist(x))。由于我无法在rdd上执行相同的功能,如何在python的spark平台上执行此操作?
squareform(pdist(x))