如何用word2vec训练p(category | title)模型

时间:2015-02-03 14:09:47

标签: word2vec

使用word2vec,目标是最大化语料库概率p(单词| context),上下文以单词的形式出现。

假设给出了一个语料库标题及其类别(如运动,食物......),如何使用word2vec训练模型来预测p(类别|标题)。

1 个答案:

答案 0 :(得分:0)

你可以尝试通过在标题中添加单词来实现自己的天真组合,以获得“描述”整个句子的向量。一旦你有了这个向量,就可以训练它上面的任何分类器(SVM,逻辑回归,k-最近邻等)。

这种方法可能很简单,取决于这些标题的长度。 word2vec嵌入已被证明在简短的向量添加短语的情况下表现出一些组合性(在word2vec论文中,Mikolov等人显示vec(“德国”)+ vec(“大写”)非常接近vec(“柏林”)。所以也许这对你来说足够好了。

或者,如果标题更像是句子,你可以考虑使用Quoc Le& amp;的词汇级别扩展。 Tomas Mikolov的论文。 Gensim有一个非常简单易用的实现,叫做doc2vec。

http://rare-technologies.com/doc2vec-tutorial/

就像更简单的向量添加理念一样,doc2vec将生成一个固定长度的标题表示,然后您可以将其输入标准ML库进行分类。