我可以使用单词上下文计数对作为gensim的Word2Vec的输入

时间:2018-02-12 15:27:31

标签: word2vec gensim

我想在大型语料库数据上训练word2vec(使用gensim)。我所掌握的信息只与任何两个词共同出现。我的数据格式为
word__tab__context_word__tab__Number
(例如:10岁的危险,意味着' 危险'' &#39>在窗口大小中共同出现10次对于每一行,在语料库中为5)。 gensim的word2vec是否接受了这样的输入?我搜索过gensim教程,并且没有看过这样的例子。

非常感谢你的帮助。 李

1 个答案:

答案 0 :(得分:0)

Gensim并没有把它作为输入;它期望实际的文本示例。

但是,您可以通过从您的信息生成合成语料库来近似跳过快速训练。

对于danger of 10,只需生成10个文本,每个文本['danger', 'of']。 (Gensim Word2Vec期望令牌列表。)这些合成文本将导致Word2Vec训练遇到10次跳过训练 - “危险”的例子。预测'和10个skip-gram培训 - ''预测危险' (因此,如果您的共现列表也包含of danger 10,您可能需要放弃这些以避免双重合成。)

它确实是真正的跳过-c,window为5,因为对真实文本的训练会随机缩小窗口,使得更接近的单词更加重要 - 而且您的数据并非如此包括亲密度的信息。但如果您没有其他选择,它应该在结果中类似。