CBOW(连续词汇)可理解的代码

时间:2016-10-05 14:06:21

标签: word2vec

最近我读过word2vec。我想完全理解 CBOW (连续的Word模型)。为此,我阅读了一些讲义并得到了一些理解,然后决定如果有一个好的实现可以从代码中删除一些混淆。我找到了word2vec的Google代码。它有.sh文件,这意味着它可以在linux上运行,并且还会给出.c文件,但是代码中的评论非常少。此外,我直到现在才找到任何文档才能很好地理解代码。

然后我浏览了java中的another implementation,但它有自己的问题,比如着名的问题,DEBUG org.reflections.Reflections - 无法扫描url jar中的文件(文件名):file:

还有其他任何可用的实现,看看哪个可以更好地理解CBOW,最好是在windows而不是linux?如果有人能帮助我,我会感谢你。

2 个答案:

答案 0 :(得分:0)

也许

Tensorflow Implementation。您可能希望使用docker使其在Windows上运行。

答案 1 :(得分:0)

免责声明:这是我在GitHub上自己代码的链接。

我最近编写了CBOW Word2Vec的C#GPU实现,并在GitHub上发布:https://github.com/robosoup/Athena

它实现了Tomas Mikolov 2013年论文中概述的所有功能 - 包括频繁术语,动态窗口大小和负抽样的子采样。

如果您熟悉C#,这应该很容易理解。