如何从单词向量创建文档功能?

时间:2016-06-03 13:11:03

标签: machine-learning nlp feature-extraction word2vec

我有大约100000个不同字长的文件。我还在整个语料库中训练了一个word2vec模型。现在,我如何从这个单词向量中为每个单独的文档创建相同维度的特征?

我知道如何做到这一点的几种技巧,一种是对文档中所有单词的矢量进行简单平均,另一种是进行k均值聚类。

你能建议其他方法来执行这项任务吗?

1 个答案:

答案 0 :(得分:0)

如果要为每个文档创建矢量,可能需要检查Doc2Vec。

Doc2Vec - Gensim Tutorial

Doc2Vec paper