我已经理解了当计算单词之间的相似性时LSA如何工作。我正在使用网站lsa.colorado.edu中的LSA,但我找不到如何计算句子或多个单词之间的相似性的来源。它是通过平均所有成对相似性来完成的吗?
答案 0 :(得分:1)
您可以简单地将单词向量相加并将最终求和作为句子向量返回来组合单词向量。由于这些表示与单词表示具有相同的类型,因此您可以轻松地使用现有方法来计算语义相似度。
然后,为了计算语义相似性,您可以使用这些向量之间的余弦值。
我目前正在使用S-Space库,它有一个DocumentVectorBuilder类来执行此任务。
答案 1 :(得分:0)
您使用所谓的Dot产品来计算两个向量之间的余弦相似度。因此,一旦从术语文档频率矩阵中获得SVD矩阵,就可以在两个向量之间应用点积公式。