我想在大型语料库数据上训练word2vec(使用gensim)。我所掌握的信息只与任何两个词共同出现。我的数据格式为
word__tab__context_word__tab__Number
(例如:10岁的危险,意味着' 危险'' &#39>在窗口大小中共同出现10次对于每一行,在语料库中为5)。
gensim的word2vec是否接受了这样的输入?我搜索过gensim教程,并且没有看过这样的例子。
非常感谢你的帮助。 李
答案 0 :(得分:0)
但是,您可以通过从您的信息生成合成语料库来近似跳过快速训练。
对于danger of 10
,只需生成10个文本,每个文本['danger', 'of']
。 (Gensim Word2Vec
期望令牌列表。)这些合成文本将导致Word2Vec
训练遇到10次跳过训练 - “危险”的例子。预测'和10个skip-gram培训 - ''预测危险' (因此,如果您的共现列表也包含of danger 10
,您可能需要放弃这些以避免双重合成。)
它确实是真正的跳过-c,window
为5,因为对真实文本的训练会随机缩小窗口,使得更接近的单词更加重要 - 而且您的数据并非如此包括亲密度的信息。但如果您没有其他选择,它应该在结果中类似。