我正在尝试实施a paper之后的方法来消除实体的歧义。该过程包括两个步骤,即培训阶段和消除歧义阶段。我想问一下培训阶段,我不太明白如何获得原型载体,如本段所述:
在训练阶段,我们为每个与特定实体链接至少10次的单词或短语计算我们称之为原型向量的内容:这是所有术语的tf.idf加权,标准化列表,发生在各个链接的一个邻域中(我们考虑左边和右边的10个单词)。请注意,同一个单词或短语可以有几个这样的原型向量,每个实体用于从集合中某个单词或短语的出现链接。
他们使用维基百科的方法,并使用维基百科中的链接作为训练集。
有人可以帮助我举一个原型载体的例子,如那里所解释的那样,好吗?我是这个领域的初学者。
答案 0 :(得分:1)
以下是原型载体的概述:
首先要注意的是,维基百科中的单词可以是指向wikipedia页面的超链接(我们称之为实体)。 此entity在某种程度上与该词相关,但同一个词可以链接到不同的实体。
在维基百科上,我们会计算word_A
与entity_B
相关联的次数,如果超过10,我们会继续(写下他们链接的实体所在的位置):
[(wordA, entityA1), (wordA, entityA2),...]
此处wordA
出现在entityA1
,其中entityB
与<{1}}等相关联。
在entityA1
中,wordA
左右有10个单词(我们只显示4个单词):
are developed and the entity relationships between these data
wordA
link # (to entityB)
['are', 'developed, 'and', 'the', 'relationships', 'between', 'these', 'data']
每对(wordA, entityAi)
给我们这样一个列表,连接它们。
基本上,tf.idf意味着你应该比普通词更少的“重量”。例如,'and'
和'the'
是非常常见的字词,因此我们给予它们较少的含义(对于'entity'
)而不是'relationships'
或'between'
。
标准化,意味着我们应该(基本上)计算一个单词出现的次数(出现的次数越多,我们认为它与wordA
越相关。然后将此计数乘以权重以得到一些分数对列表进行排序...将最常见的最不常用词放在最上面。
这不仅取决于wordA
,还取决于entityB
,您可以将其视为映射。
(wordA, entityB) -> tf.idf-weighted, normalized list (as described above)
(wordA, entityB2) -> a different tf.idf-weighted, normalized list
这表明,与'cat'
相关联的cats链接不太可能包含'batman'
,而不是指向cat woman的链接。< / em>的