什么是训练集中短语的原型向量

时间:2012-09-27 12:25:00

标签: machine-learning wikipedia

我正在尝试实施a paper之后的方法来消除实体的歧义。该过程包括两个步骤,即培训阶段和消除歧义阶段。我想问一下培训阶段,我不太明白如何获得原型载体,如本段所述:

  

在训练阶段,我们为每个与特定实体链接至少10次的单词或短语计算我们称之为原型向量的内容:这是所有术语的tf.idf加权,标准化列表,发生在各个链接的一个邻域中(我们考虑左边和右边的10个单词)。请注意,同一个单词或短语可以有几个这样的原型向量,每个实体用于从集合中某个单词或短语的出现链接。

他们使用维基百科的方法,并使用维基百科中的链接作为训练集。

有人可以帮助我举一个原型载体的例子,如那里所解释的那样,好吗?我是这个领域的初学者。

1 个答案:

答案 0 :(得分:1)

以下是原型载体的概述:

首先要注意的是,维基百科中的单词可以是指向wikipedia页面的超链接(我们称之为实体)。 entity在某种程度上与该词相关,但同一个词可以链接到不同的实体。

“对于与特定实体链接至少10次的每个单词或短语”

在维基百科上,我们会计算word_Aentity_B相关联的次数,如果超过10,我们会继续(写下他们链接的实体所在的位置):

[(wordA, entityA1), (wordA, entityA2),...]

此处wordA出现在entityA1,其中entityB与<{1}}等相关联。

“在相应链接的一个邻域中出现的所有术语的列表”

entityA1中,wordA左右有10个单词(我们只显示4个单词):

are developed and the entity relationships between these data
                      wordA
                      link # (to entityB)

['are', 'developed, 'and', 'the', 'relationships', 'between', 'these', 'data'] 

每对(wordA, entityAi)给我们这样一个列表,连接它们。

“tf.idf-weighted,normalized list”

基本上,tf.idf意味着你应该比普通词更少的“重量”。例如,'and''the'是非常常见的字词,因此我们给予它们较少的含义(对于'entity')而不是'relationships''between'

标准化,意味着我们应该(基本上)计算一个单词出现的次数(出现的次数越多,我们认为它与wordA越相关。然后将此计数乘以权重以得到一些分数对列表进行排序...将最常见的最不常用词放在最上面。

“请注意,同一个单词或短语可以有几个这样的原型向量”

这不仅取决于wordA,还取决于entityB,您可以将其视为映射。

(wordA, entityB) -> tf.idf-weighted, normalized list (as described above)
(wordA, entityB2) -> a different tf.idf-weighted, normalized list

这表明,与'cat'相关联的cats链接不太可能包含'batman',而不是指向cat woman的链接。< / em>的