cosine-similarity - 余弦相似性 - 一对多

我想知道是否有任何使用余弦相似性的好方法来将单个文档与一组文档进行比较。显然，您可以计算单个文档与集合中每个文档之间的余弦相似度，但如果您这样做，那么您会采用平均值吗？您是否会根据您与原始文档进行比较的其他每个文档的大小来衡量？我也想知道是否有任何方法可以将你所比较的文档集合中的所有字数统计在一起，这样你最终只计算余弦相似度一次;原始文档和“聚合”文档之间。我问的原因是我有大约200,000个文档，我想与另外一组约50,000个文档进行比较。将200,000个文档与50,000个文档中的每一个进行比较是很多计算，我不知道它是否是实际上，如果我最终要采取某种平均值，那么实际上是必要的。我的汇总文件是一个很大的禁忌吗？

余弦相似性 - 一对多

1 个答案: