如何使用word2vec工具计算语言模型?

时间:2014-02-26 09:15:36

标签: theano word2vec deep-learning

我正在尝试构建一个神经网络语言模型,似乎Mikolov等人的word2vec工具是一个很好的工具。我试过了,但它只产生了单词表示。 有谁知道我如何通过该工具或任何其他合理的深度学习框架来制作语言模型?

3 个答案:

答案 0 :(得分:4)

Microsoft Research发布了一个使用word2vec样式向量进行语言建模的工具包。你可以找到它here

答案 1 :(得分:2)

word2vec是一种将单个单词(一组单词)表示为数字向量的工具。所以它与语言模型没有直接关系。

要生成语言模型,您可以使用MITLM来执行此操作。例如,您可以使用语料Lectures.txt使用此命令创建N-gram模型:

estimate-ngram -text Lectures.txt -write-lm Lectures.lm

可以找到一个很棒的教程here

答案 2 :(得分:2)

在Gensim中实施的Doc2Vec完成了这项工作。诀窍是他们使用文档ID作为上下文单词,它存在于文档中所有单词的所有窗口大小中。

代码为here in Python/Gensim