我试图分析论文' Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis''。
我目前正在努力解决的系统的一个组成部分是潜在和显性语义分析之间的区别。
我一直在撰写一份文件来概括我的理解,但是它有点麻烦,#34;拼凑在一起",来自我不会100%理解的来源,所以我和#39;我想知道我提出的是否准确,这是:
When implementing a process like singular value decomposition (SVD) or Markov
chain Monte Carlo machines, a corpus of documents can be partitioned on the
basis of inherent characteristics and assigned to categories by applying different
weights to the features that constitute each singular data index. In this highdimensional
space it is often difficult to determine the combination of factors
leading to an outcome or result, the variables of interest are “hidden” or latent.
By defining a set of humanly intelligible categories, i.e. Wikipedia article
pages as a basis for comparison [Gabrilovich et al. 2007] have devised a system
whereby the criteria used to distinguish a datum are readily comprehensible,
from the text we note that “semantic analysis is explicit in the sense that we
manipulate manifest concepts grounded in human cognition, rather than ‘latent
concepts’ used by Latent Semantic Analysis”.
With that we have now established Explicit Semantic Analysis in opposition
to Latent Semantic Analysis.
准确吗?
有关此主题的信息有点稀疏。 This question表面上处理类似的问题,但不是真的。
答案 0 :(得分:1)
潜在语义分析和所谓的显式语义分析之间的区别在于使用的语料库以及模拟词义的向量的维度。
潜在语义分析从基于文档的单词向量开始,它捕获每个单词与其出现的文档之间的关联,通常使用加权函数(如tf-idf)。然后,它使用奇异值分解将这些单词向量的维度降低到(通常)300。与原始尺寸(对应于文档)相比,这300个新尺寸没有直接的解释。因此它们被称为“潜在的”。然后可以通过组合文本中单词的所有向量来使用LSA对文本进行分类。
从你提到的论文中,我理解显式语义分析也是一个基于文档的模型:它根据它们出现的维基百科文章来模拟单词。然而,它与潜在语义分析的不同之处在于:(a)语料库(维基百科)不能自由选择,(b)不涉及维度降低。同样,可以组合文本中的单词的向量以对文本进行分类或以其他方式解释。
答案 1 :(得分:1)
一个简单的解释是:
ESA - 使用像(维基百科)这样的知识库来创建将单词映射到内容的倒排索引(即单词出现的维基百科页面的标题)。然后对这个单词的向量表示进行操作,其中每个单词现在是标题的向量,其中包含0,1。
LSA - 使用奇异值分解原理将word-doc矩阵投影到排名较低的空间,以便word-doc矢量表示在任何文档中不会彼此共同出现的单词的点积,但它们是co - 与一组相似的单词(即Imagine Cat和Car永远不会在文档中共同出现,但在某些文档D_1中可能与Man一起出现,而Car在其他文档D_2中与Man共同出现)更高。