最近我读过word2vec。我想完全理解 CBOW (连续的Word模型)。为此,我阅读了一些讲义并得到了一些理解,然后决定如果有一个好的实现可以从代码中删除一些混淆。我找到了word2vec的Google代码。它有.sh文件,这意味着它可以在linux上运行,并且还会给出.c文件,但是代码中的评论非常少。此外,我直到现在才找到任何文档才能很好地理解代码。
然后我浏览了java中的another implementation,但它有自己的问题,比如着名的问题,DEBUG org.reflections.Reflections - 无法扫描url jar中的文件(文件名):file:
还有其他任何可用的实现,看看哪个可以更好地理解CBOW,最好是在windows而不是linux?如果有人能帮助我,我会感谢你。
答案 0 :(得分:0)
Tensorflow Implementation。您可能希望使用docker使其在Windows上运行。
答案 1 :(得分:0)
免责声明:这是我在GitHub上自己代码的链接。
我最近编写了CBOW Word2Vec的C#GPU实现,并在GitHub上发布:https://github.com/robosoup/Athena
它实现了Tomas Mikolov 2013年论文中概述的所有功能 - 包括频繁术语,动态窗口大小和负抽样的子采样。
如果您熟悉C#,这应该很容易理解。