Doc2Vec:获取标签文本

时间:2019-02-17 19:29:56

标签: python gensim doc2vec

我已经训练过Doc2Vec模型,试图获得预测结果。

我用

test_data = word_tokenize("Филип Моррис Продактс С.А.".lower())
model = Doc2Vec.load(model_path)
v1 = model.infer_vector(test_data)
sims = model.docvecs.most_similar([v1])
print(sims)

返回

[('624319', 0.7534812092781067), ('566511', 0.7333904504776001), ('517382', 0.7264763116836548), ('523368', 0.7254455089569092), ('494248', 0.7212602496147156), ('382920', 0.7092794179916382), ('530910', 0.7086726427078247), ('513421', 0.6893941760063171), ('196931', 0.6776881814002991), ('196947', 0.6705600023269653)]

接下来我想知道,这个数字是什么文字

model.docvecs['624319']

但是它只返回矢量表示形式

array([ 0.36298314, -0.8048847 , -1.4890883 , -0.3737898 , -0.00292279,
   -0.6606688 , -0.12611026, -0.14547637,  0.78830665,  0.6172428 ,
   -0.04928801,  0.36754376, -0.54034036,  0.04631123,  0.24066721,
    0.22503968,  0.02870891,  0.28329515,  0.05591608,  0.00457001],
  dtype=float32)

那么,有什么方法可以从模型中获取该标签的文本吗? 加载火车数据集需要很多时间,因此我尝试寻找另一种方法。

1 个答案:

答案 0 :(得分:4)

无法将doc向量直接转换回原始文本(在减少文本->向量的过程中会丢失有关单词顺序的信息)。

但是,当您为Doc2Vec()创建TaggedDocument时,您可以通过在语料库列表中用索引标记每个文档来 检索原始文本。假设您有一个句子/文档的语料库,这些句子/文档包含在名为texts的列表中。像这样使用enumerate()为每个句子生成唯一索引i,并将其作为tags的{​​{1}}参数传递:

TaggedDocument

然后,经过训练,当您从tagged_data = [] for i, t in enumerate(texts): tagged_data.append(TaggedDocument(words=word_tokenize(c.lower()), tags=[str(i)])) model = Doc2Vec(vector_size=VEC_SIZE, window=WINDOW_SIZE, min_count=MIN_COUNT, workers=NUM_WORKERS) model.build_vocab(tagged_data) 获得结果时,每个元组中的第一个数字将是原始语料库文本列表的索引。例如,如果您运行model.docvecs.most_similar()并获得:

model.docvecs.most_similar([some_vector])

...然后,您可以通过使用[('624319', 0.7534812092781067), ('566511', 0.7333904504776001), ('517382', 0.7264763116836548), ('523368', 0.7254455089569092), ('494248', 0.7212602496147156), ('382920', 0.7092794179916382), ('530910', 0.7086726427078247), ('513421', 0.6893941760063171), ('196931', 0.6776881814002991), ('196947', 0.6705600023269653)]索引到初始语料库列表来检索第一个结果的原始文档('624319', 0.7534812092781067)

或者,如果您想遍历并获取所有最相似的文本,则可以执行以下操作:

texts[624319]