我已经阅读过使用奇异值分解(SVD)在文本语料库中进行潜在语义分析(LSA)。我已经明白了如何做到这一点,我也理解了SVD的数学概念。
但我不明白为什么它适用于文本的语料库(我相信 - 必须有语言解释)。有人能用语言学的观点来解释我吗?
由于
答案 0 :(得分:12)
没有语言解释,没有涉及语法,没有处理等价类,同义词,同音异义词,词干等。也没有涉及任何语义,它只是单词出现在一起。 将“文档”视为购物车:它包含单词(购买)的组合。单词往往与“相关”单词一起出现。
例如:“药物”一词可以与{爱,医生,医学,体育,犯罪}一起出现;每个都会指向不同的方向。但结合文档中的许多其他单词,您的查询可能会找到来自类似字段的文档。
答案 1 :(得分:4)
一起出现的单词(即附近或在语料库中的同一文档中)有助于上下文。潜在语义分析基本上将语料库中的类似文档基于它们在上下文方面彼此相似的类别进行分组。
我认为this页面上的示例和word-document图有助于理解。
答案 2 :(得分:3)
假设我们有以下五个文件集
和搜索查询:死亡,匕首。
显然,d3应该排在列表的首位,因为它包含死亡,匕首。然后,d2和d4 应该遵循,每个都包含查询的单词。但是,d1和d5怎么样?他们应该是 返回可能有趣的结果到这个查询?作为人类,我们知道d1非常相关 到查询。另一方面,d5与查询没有多大关系。因此,我们想要d1但是 不是d5,或者说不同,我们希望d1的排名高于d5。问题是:机器可以推断出这个吗?答案是肯定的,LSI正是如此。在这 例如,LSI将能够看到术语匕首与d1相关,因为它与d1一起出现 d1的分别是罗密欧和朱丽叶,分别是d2和d3。此外,术语死亡与d1和d5有关 因为它与d1的术语罗密欧和d5的术语新罕布什尔在d3和d4中一起出现, 分别。 LSI还将适当地权衡发现的连接; d1更多与查询相关
比d5因为d1通过罗密欧与朱丽叶“双重”连接到匕首,并且还连接到 通过罗密欧而死,而d5与新罕布什尔州的查询只有一个连接点。
参考:潜在语义分析(Alex Thomo)