完成一个具体的演示代码以计算word2vec的可能性,我最少需要几个单词?

时间:2019-04-15 08:16:00

标签: word2vec

我正在学习Stanford CS224N:通过深度学习进行自然语言处理。

我想写一些代码来重现该过程。

假设在position t中指定了中心词,就像在Chris's example中一样。

enter image description here

,固定大小的窗口为2,与Chris's another example略有不同。

接下来,我需要仔细阅读所有单词(如下所示的等式中的第一个乘积)。

enter image description here

完成此演示,我最少需要几个单词? 5个字?

1 个答案:

答案 0 :(得分:0)

如果可用的相邻单词较少,则word2vec实现只会将有效窗口缩小到可用的范围。 (只要有一个邻居,就可以使用该context->target_word示例来训练网络。)

但是,word2vec的所有令人满意的质量都依赖于拥有大量,精妙对比的示例的语料库,这些示例将单词“拉”向各个方向。在很小的数据集上或仅在最小尺寸的上下文窗口上进行培训,将不会创建人们希望从word2vec获得的“密集”和相互关联的安排。