应用错误收集

我可以使用单词上下文计数对作为gensim的Word2Vec的输入

时间：2018-02-12 15:27:31

标签： word2vec gensim

我想在大型语料库数据上训练word2vec（使用gensim）。我所掌握的信息只与任何两个词共同出现。我的数据格式为
word__tab__context_word__tab__Number
（例如：10岁的危险，意味着＆＃39; 危险＆＃39;＆＃39; ＆＃39>在窗口大小中共同出现10次对于每一行，在语料库中为5）。 gensim的word2vec是否接受了这样的输入？我搜索过gensim教程，并且没有看过这样的例子。

非常感谢你的帮助。李

1 个答案:

答案 0 :(得分：0)

Gensim并没有把它作为输入;它期望实际的文本示例。

但是，您可以通过从您的信息生成合成语料库来近似跳过快速训练。

对于danger of 10，只需生成10个文本，每个文本['danger', 'of']。（Gensim Word2Vec期望令牌列表。）这些合成文本将导致Word2Vec训练遇到10次跳过训练 - “危险”的例子。预测＆＃39;和10个skip-gram培训 - ＆＃39;＆＃39;预测危险＆＃39; （因此，如果您的共现列表也包含of danger 10，您可能需要放弃这些以避免双重合成。）

它确实是真正的跳过-c，window为5，因为对真实文本的训练会随机缩小窗口，使得更接近的单词更加重要 - 而且您的数据并非如此包括亲密度的信息。但如果您没有其他选择，它应该在结果中类似。