快速比较查询的余弦相似性与语料库中的文档

时间:2015-07-17 05:39:46

标签: machine-learning corpus cosine-similarity cosine

我很好奇公司如何在整个语料库中快速计算余弦相似度。例如,如果有人搜索了有趣的猫",并且有100,000个文档至少有一个这些术语,那么在查询向量和那些100,000个文档向量之间动态计算余弦相似度可能需要很长时间。是否存在缓存或加速此搜索的一般策略?

1 个答案:

答案 0 :(得分:0)

首先,在高度稀疏的向量中计算余弦相似度(只是一个点积)是......快......稀疏格式的100,000个向量真的没什么。

虽然有很多方法可以通过牺牲精度来加快速度。一些这样的方法是LSH(局部敏感哈希),你可以很快地过滤掉#34;矢量不够相似,不足以考虑。看来你可以建立一个基于随机超平面的搜索索引,它很有可能在使用时具有近似的余弦相似性。有关更多详细信息,请参阅"挖掘海量数据集"作者:Ullman等人。