我有一个V
TF / IDF向量,因此它们非常稀疏
这是一个大约2,500乘150,000的阵列
我想计算语料库中每个文档之间的余弦相似度。
这几乎是我能想到的最天真的方式。我已经知道了三四个优化,但我不想假设答案。我想知道在这个计算中使用Chapel的计算效率最高的方法。目标是将X
作为对称矩阵diag(X) = 0
use Norm,
LinearAlgebra;
var ndocs = 2500,
nftrs = 150000,
docs = 1..ndocs,
ftrs = 1..nftrs,
V: [docs, ftrs] real,
X: [docs, docs] real;
for i in docs {
var n1 = norm(V[i,..]);
for j in (i+1)..ndocs {
var n2 = norm(V[j,..]);
var c = dot(V[i,..], V[j,..]) / (n1*n2);
X[i,j] = c;
X[j,i] = c;
}
}
使用
编译chpl -I/usr/local/Cellar/openblas/0.2.20/include -L/usr/local/Cellar/openblas/0.2.20/lib -lblas cosim.chpl
==更新==
这实际上应该可以编译并运行。原始代码有错误,如@bradcray下面
所示答案 0 :(得分:1)
以下是对原始实现的一些改进:
dot(V[i, ..], V[i, ..])
预先计算并缓存i
到数组中以减少重复计算。1..V.size
或V.domain
代替1..V.shape[1]
V.shape
是根据域大小计算的,而不是存储为字段。X
来利用此程序的令人尴尬的并行性质有关详细信息,请参阅GitHub issue,了解这些变化及其对时间的影响。
答案 1 :(得分:1)
您的代码中有一些突出的东西:
1)除非我遗漏了某些东西,否则你在计算过程中会多次多次计算norm(V[r, ..])
。渐渐地说,这表明你正在进行二次加工,只需要线性工作。我建议为每一行计算一次规范并将其存储在一个数组中以避免这种冗余计算:
var normVrow: [docs] real = [r in docs] norm(V[r,..]);
然后,在内部循环中,您可以引用normVrow[i]
或normVrow[j]
。
2)由于这是Chapel,你的循环似乎没有交叉循环依赖,而不是使用串行for
循环,你应该使用并行forall
循环进行此计算。关于是否:
(a)将外部循环更改为forall
(这将导致负载不平衡,因为整个迭代空间为三角形),
(b)将两个循环更改为forall
循环(这会通过过度分解来帮助解决负载不平衡问题,但可能还会增加开销),或者
(c)将外部循环变为动态调度循环以解决负载不平衡问题。
我的直觉是使用Chapel的dynamic迭代器做选项c:
use DynamicIters;
forall i in dynamic(ndocs) {
...
}
3)最后要考虑的是避免三角形迭代空间,只是冗余地计算X[i,j]
和X[j,i]
,即使它们具有相同的值。这在共享内存运行中可能没有意义,但如果您在分布式阵列X
上进行计算,则可能会减少通信,因为这些矩阵值将由不同的处理器存储。在这种方法中,您可以在forall
上使用单个X.domain
循环进行迭代,并且默认情况下结果将是良好负载平衡的,而无需动态迭代器。