为什么将一行的第一个标记用作句子向量

时间:2019-04-09 03:45:38

标签: nlp doc2vec

在Tomas Mikolov的doc2vec实现中,句子的第一个标记用作句子向量。但是我不知道这是否会占用第一个标记并影响其词向量。 我考虑为每个句子分别设置一个句子向量,这相当于一个单词,就像上下文窗口中偏移为-1或结尾的单词一样,并且也像其他单词一样被初始化。 我不确定这是否正确。也许我不了解Tomas Mikolov的方法?希望能收到您的来信。

1 个答案:

答案 0 :(得分:0)

使用一行上的第一个标记作为检索学习到的图形向量的键只是一种快速简单的输入格式约定。 Mikolov可以轻松地将“段落向量”算法实现为word2vec.c的一个小补丁,只需对该第一个令牌进行一点特殊处理即可。

在该补丁程序中使用代码时,激活段落矢量标志,将第一个标记视为普通单词,作为其余句子/上下文的一部分。< / p>

如果需要更大的灵活性,可以在其他库中查看相同算法的实现。例如,“段落向量”算法在Python gensim库中作为类Doc2Vec可用,并且包括更多选项-包括从单个文本训练多个文档向量,其他可控元参数和惯用的Python数据源。