标签: machine-learning nlp feature-extraction word2vec
我有大约100000个不同字长的文件。我还在整个语料库中训练了一个word2vec模型。现在,我如何从这个单词向量中为每个单独的文档创建相同维度的特征?
我知道如何做到这一点的几种技巧,一种是对文档中所有单词的矢量进行简单平均,另一种是进行k均值聚类。
你能建议其他方法来执行这项任务吗?
答案 0 :(得分:0)
如果要为每个文档创建矢量,可能需要检查Doc2Vec。
Doc2Vec - Gensim Tutorial
Doc2Vec paper