我正在尝试使用numpy使用以下代码计算坐标之间的差异:
X = np.random.random((1000, 3))
# using broadcasting to calculate to find pairwise diffrence
diff = X.reshape(1000, 1, 3) - X
D = (diff**2).sum(2)
有人能解释一下上面两行是做什么的吗?我不明白这是如何计算坐标的欧氏距离的。
答案 0 :(得分:5)
第一个计算随机 1000×3 矩阵,所有值都在0到1之间,因此行代表3D单位立方体中的点:
np.random.random((1000, 3))
接下来我们使用reshape来构造一个带有X.reshape(1000, 1, 3)
的 1000×1×3 矩阵。
现在,当我们减去那个重新形成的矩阵时,会发生一些非常流行的numpy:broadcast。所以我们有一个 1000×1×3 矩阵和一个 1000×1×3 矩阵。这意味着我们将通过假设重复第二维1000次来“炸毁”第一个矩阵。所以像这样的矩阵:
[[[x1, y1, z1]],
[[x2, y2, z2]],
...
[[xn, yn, zn]]]
现在将转变为:
[[[x1, y1, z1], [x1, y1, z1], ..., [x1, y1, z1]],
[[x2, y2, z2], [x2, y2, z2], ..., [x2, y2, z2]],
... , ... , ... ,
[[xn, yn, zn], [xn, yn, zn], ..., [xn, yn, zn]]]
每行三次重复 n 次。
我们也炸掉第二个矩阵,这样:
[[x1, y1, z1],
[x2, y2, z2],
...
[xn, yn, zn]]
(请注意,我们每排少了一对方括号),会爆炸:
[[x1, y1, z1], [x2, y2, z2], ..., [xn, yn, zn],
[x1, y1, z1], [x2, y2, z2], ..., [xn, yn, zn],
... , ..., ..., ... ,
[x1, y1, z1], [x2, y2, z2], ..., [xn, yn, zn]]
如果我们现在减去两个矩阵,我们得到:
[[[x1-x1, y1-y1, z1-z1], [x1-x2, y1-y2, z1-z2], ..., [x1-xn, y1-yn, z1-zn]],
[[x2-x1, y2-y1, z2-z1], [x2-x2, y2-y2, z2-z2], ..., [x2-xn, y2-yn, z2-zn]],
... , ... , ... ,
[[xn-x1, yn-y1, zn-z1], [xn-x2, yn-y2, zn-z2], ..., [xn-xn, yn-yn, zn-zn]]]
所以我们构造了一个 1000×1000×3 矩阵,其中 i,j -th元素是一个包含点坐标差异的3元组在行 i 处指定,以及在行 j 指定的点的坐标。我们将结果存储在diff
。
接下来,我们使用diff**2
计算元素方形,现在:
(diff**2)[i, j] == array([(xi-xj)**2, (yi-yj)**2, (zi-zj)**2])
最后,我们在该矩阵上调用.sum(2)
(这意味着axis=2
)。这意味着我们对(diff**2)
的每个元素将总结组件,然后:
((diff**2).sum())[i, j] == (xi-xj)**2 + (yi-yj)**2 + (zi-zj)**2
因此我们计算 1000×1000 矩阵,其中[i, j]
- 元素是 Euclidean 距离的 square 。请注意,我们不计算 Euclidean 距离,但是它的平方。但是,我们可以通过在结果上应用np.sqrt(..)
来计算它,所以:
D = np.sqrt((diff**2).sum(2)) # Euclidean distance