潜在语义索引

时间:2009-11-20 15:06:22

标签: algorithm latent-semantic-indexing

据说,通过LSI,产生U,A和V的矩阵,它们汇集了具有同义词的文档。对于例如如果我们搜索“汽车”,我们也会得到有“汽车”的文件。但LSI只不过是对矩阵的操纵。它只考虑频率而不是语义。那么我失踪的这个魔法背后的东西是什么?请解释一下。

2 个答案:

答案 0 :(得分:0)

根据the Wikipedia article,“LSI基于这样的原则,即在相同背景下使用的词语往往具有相似的含义。”也就是说,如果两个词似乎可以互换使用,它们可能是同义词。

这不是万无一失的。

答案 1 :(得分:0)

LSI基本上创建每个文档的频率配置文件,并查找具有相似频率配置文件的文档。如果频率曲线的其余部分足够相似,它会将两个文档归类为非常相似,即使系统地替换某些单词也是如此。相反,如果频率配置文件不同,它可以/将文档分类为不同的,即使它们共享频繁使用一些特定术语(例如,“文件”在某些情况下与计算机相关,以及用于在其他情况下切割和光滑金属)。

LSI通常也用于相对较大的文档组。其他文档也可以帮助找到相似之处 - 即使文档A和B看起来大不相同,如果文档C使用A和B中的相当多的术语,它可以帮助发现A和B非常相似。