我正在尝试训练本文描述的中文斯坦福神经网络解析器:
http://cs.stanford.edu/people/danqi/papers/emnlp2014.pdf
在3.2节中,我发现了这一点
我们具体使用...经过训练的50维word2vec嵌入 (Mikolov et al。,2013)在中文维基百科和Gigaword语料库上 (#dictionary = 285,791,覆盖率= 79.0%)。
所以我想知道在哪里可以找到这些中文的嵌入物。我只能在word2vec网站上找到尺寸为 100个维度的嵌入,但是找不到任何尺寸为50个维度的嵌入。
如果我需要自己训练这些嵌入物,谁能提供一些详尽的信息?本文中的“在Wikipedia和Gigaword语料库上”的表达似乎很模糊,我真的不知道应该使用什么语料库和哪一部分进行训练。
谢谢!