应用错误收集

如何从单词向量创建文档功能？

时间：2016-06-03 13:11:03

标签： machine-learning nlp feature-extraction word2vec

我有大约100000个不同字长的文件。我还在整个语料库中训练了一个word2vec模型。现在，我如何从这个单词向量中为每个单独的文档创建相同维度的特征？

我知道如何做到这一点的几种技巧，一种是对文档中所有单词的矢量进行简单平均，另一种是进行k均值聚类。

你能建议其他方法来执行这项任务吗？

1 个答案:

答案 0 :(得分：0)

如果要为每个文档创建矢量，可能需要检查Doc2Vec。

Doc2Vec - Gensim Tutorial