In this question six months ago,jez足以帮助我对行差异的外积进行快速近似,即:
K = np.zeros((len(X), len(X)))
for i, Xi in enumerate(X):
for j, Xj in enumerate(X):
dij = Xi - Xj
K += np.outer(dij, dij)
这有助于找到Fisher判别分析形式的散点图矩阵计算。但是现在我正在尝试进行局部Fisher判别分析,其中每个外部产品都由矩阵A加权,矩阵A具有关于该对的位置的信息,因此新行是:
K += A[i][j] * np.outer(dij, dij)
不幸的是,计算前一个答案中提到的未加权散布矩阵的快速方法对此不起作用,据我所知,快速更改并不容易。
线性代数绝对不是我的强项,我不擅长提出这些事情。什么是计算成对行差外积的加权和的快速方法?
答案 0 :(得分:3)
这是一种矢量化指定计算的方法。如果你做了很多这样的事情,那么可能值得学习如何使用," numpy.tensordot"。它根据标准的numpy广播将所有元素相乘,然后对用kwrd,#34;轴"给出的轴对进行求和。
以下是代码:
# Imports
import numpy as np
from numpy.random import random
# Original calculation for testing purposes
def ftrue(A, X):
""
K = np.zeros((len(X), len(X)))
KA_true = np.zeros((len(X), len(X)))
for i, Xi in enumerate(X):
for j, Xj in enumerate(X):
dij = Xi - Xj
K += np.outer(dij, dij)
KA_true += A[i, j] * np.outer(dij, dij)
return ftrue
# Better: No Python loops. But, makes a large temporary array.
def fbetter(A, X):
""
c = X[:, None, :] - X[None, :, :]
b = A[:, :, None] * c # ! BAD ! temporary array size N**3
KA_better = np.tensordot(b, c, axes = [(0,1),(0,1)])
return KA_better
# Best way: No Python for loops. No large temporary arrays
def fbest(A, X):
""
KA_best = np.tensordot(A.sum(1)[:,None] * X, X, axes=[(0,), (0,)])
KA_best += np.tensordot(A.sum(0)[:,None] * X, X, axes=[(0,), (0,)])
KA_best -= np.tensordot(np.dot(A, X), X, axes=[(0,), (0,)])
KA_best -= np.tensordot(X, np.dot(A, X), axes=[(0,), (0,)])
return KA_best
# Test script
if __name__ == "__main__":
# Parameters for the computation
N = 250
X = random((N, N))
A = random((N, N))
# Print the error
KA_better = fbetter(A, X)
KA_best = fbest(A, X)
# Test against true if array size isn't too big
if N<100:
KA_true = ftrue(A, X)
err = abs(KA_better - KA_true).mean()
msg = "Mean absolute difference (better): {}."
print(msg.format(err))
# Test best against better
err = abs(KA_best - KA_better).mean()
msg = "Mean absolute difference (best): {}."
print(msg.format(err))
我的第一次尝试(fbetter)制作了一个大小为NxNxN的大型临时数组。第二次尝试(fbest)永远不会比NxN更大。这种效果非常好,可达N~1000。
此外,当输出数组较小时,代码运行得更快。
我安装了MKL,因此对tensordot的调用非常快并且并行运行。
感谢您的提问。这是一个很好的练习,并提醒我避免制作大型临时数组是多么重要。