应用错误收集

你可以尝试通过在标题中添加单词来实现自己的天真组合，以获得“描述”整个句子的向量。一旦你有了这个向量，就可以训练它上面的任何分类器（SVM，逻辑回归，k-最近邻等）。

这种方法可能很简单，取决于这些标题的长度。 word2vec嵌入已被证明在简短的向量添加短语的情况下表现出一些组合性（在word2vec论文中，Mikolov等人显示vec（“德国”）+ vec（“大写”）非常接近vec（“柏林”）。所以也许这对你来说足够好了。

或者，如果标题更像是句子，你可以考虑使用Quoc Le＆amp; amp;的词汇级别扩展。 Tomas Mikolov的论文。 Gensim有一个非常简单易用的实现，叫做doc2vec。

就像更简单的向量添加理念一样，doc2vec将生成一个固定长度的标题表示，然后您可以将其输入标准ML库进行分类。