了解word2vec中的词汇量大小

时间:2017-12-30 22:55:13

标签: python tensorflow word2vec

我试图理解word2vec算法,但有些问题让我很困惑。我正在使用TensorFlow中的代码。问题是我的数据大小是1.84亿字,总共包含220万个不同的单词。我将vocabulary_size设置为250,000。这是否意味着我的网络实际上学习了最常见的250,000个单词,其余的1.950,000个单词只是UNK?

另一个问题是;我从理论上理解了这个模型。但是,我很难将它与代码联系起来。输入图层大小是否与代码中的vocabulary_size相对应?

如果你启发我,我将非常感激。

1 个答案:

答案 0 :(得分:0)

如果您查看代码中的build_dataset函数,您会发现词汇量大小以上的任何内容都会变为unk,以及输入图层的设置方式(仅限于wrod2vec)隐藏的图层,以便它。)