Question

我有一组30 000个由浮点数向量表示的文档。所有载体都有100个元素。通过在矢量之间使用余弦测量来比较它们，我可以找到两个文档的相似性。问题是找到最相似的文件需要花费很多时间。是否有任何算法可以帮助我加快这个速度？

修改

现在，我的代码只计算第一个和所有其他向量之间的余弦相似度。大约需要3秒钟。我想加快速度;）算法不一定要准确，但应该给完全搜索提供类似的结果。

每个向量的元素总和等于1.

start = time.time()

first = allVectors[0]
for vec in allVectors[1:]:
    cosine_measure(vec[1:], first[1:])

print str(time.time() - start)

Answer 1

locality sensitive hashing（LHS）会有帮助吗？ 在LHS的情况下，散列函数以您选择的概率将相似的项目映射到彼此附近。据称它特别适用于高维相似性搜索/最近邻搜索/近似重复检测，并且在我看来，这正是您想要实现的目标。

Answer 2

有一篇论文How to Approximate the Inner-product: Fast Dynamic Algorithms for Euclidean Similarity描述了如何快速逼近内积。如果这不够好或不够快，我建议建立一个包含所有文档的索引。类似于quadtree但基于geodesic grid的结构可能效果很好，请参阅Indexing the Sphere with the Hierarchical Triangular Mesh。

更新：我完全忘记你正在处理100个维度。对高维数据建立索引为notoriously hard，我不确定对一个球体进行索引的概率是否会推广到100维。

Answer 3

如果向量归一化，则余弦与欧几里德距离相关：||a - b||² = (a - b)² = ||a||² + ||b||² - 2 ||a|| ||b|| cos(t) = 1 + 1 - 2 cos(t)。所以你可以用欧几里得最近邻居来重铸你的问题。

一种很好的方法，如果是kD树，一种推广二进制搜索（http://en.wikipedia.org/wiki/K-d_tree）的空间数据结构。无论如何，kD树在高维度（你的情况）中是低效的，所以首选所谓的best-bin-first-search（http://en.wikipedia.org/wiki/Best-bin-first_search）。