我的数据框中有45000条文本记录。我想将这45000条记录转换为单词向量,以便我可以在单词向量上训练分类器。我不是在说句子。我只是将每个条目分成单词列表。
在训练了具有300个功能的word2vec模型后,模型的形状仅产生了26000个。如何保存我的所有45000条记录?
在分类器模型中,我需要所有这45000条记录,以便它可以匹配45000个输出标签。
答案 0 :(得分:2)
如果您将每个条目拆分为单词列表,那么这基本上就是“标记化”。
Word2Vec只是学习每个单词的向量,而不是每个文本示例('记录') - 所以没有什么可以保留'没有45,000条记录的向量永远都是创造的。但如果记录中有26,000个唯一单词(在应用min_count
之后),则最后将有26,000个向量。
Gensim的Doc2Vec(' 段落矢量' algorithm)可以为每个文本示例创建一个向量,因此您可能想尝试这样做。
如果你只有单词向量,为一个较大的文本创建一个向量的一种简单方法就是将所有单个单词向量一起添加。进一步的选择包括在使用单位规范的单词向量或多个量级的原始单词向量之间进行选择;是否要对总和进行单位规范;以及是否以任何其他重要性因素(如TF / IDF)对单词进行加权。
请注意,除非您的文档很长,否则这对于Word2Vec或Doc2Vec来说都是一个非常小的训练集。