python-3.x - 如何保存word2vec中的记录数？

如果您将每个条目拆分为单词列表，那么这基本上就是“标记化”。

Word2Vec只是学习每个单词的向量，而不是每个文本示例（＆＃39;记录＆＃39;） - 所以没有什么可以保留＆＃39;没有45,000条记录的向量永远都是创造的。但如果记录中有26,000个唯一单词（在应用min_count之后），则最后将有26,000个向量。

Gensim的Doc2Vec（＆＃39; 段落矢量＆＃39; algorithm）可以为每个文本示例创建一个向量，因此您可能想尝试这样做。

如果你只有单词向量，为一个较大的文本创建一个向量的一种简单方法就是将所有单个单词向量一起添加。进一步的选择包括在使用单位规范的单词向量或多个量级的原始单词向量之间进行选择;是否要对总和进行单位规范;以及是否以任何其他重要性因素（如TF / IDF）对单词进行加权。

请注意，除非您的文档很长，否则这对于Word2Vec或Doc2Vec来说都是一个非常小的训练集。