如何在训练有素的模型上获得新看不见文档的界限或困惑值?

时间:2017-05-29 19:32:17

标签: python gensim

我想通过使用LDA在我的数据集中找到异常值。为了指定异常值,对于这种情况,我打算在训练模型上使用新看不见的文档的绑定或困惑值? 之后,我会按升序对值进行排序,以检查它是否是异常值? 我的问题是我无法获得单个doc的绑定/复制值,模型会抛出" TypeError:' int'对象不可订阅" 错误。

如果你帮我解决我的情况,我将不胜感激?

以防万一,我附上了我的代码:

tokenized_corpora = dictionary.doc2bow(_acc[2])
total_number_of_words_tokenized_corpora = len(tokenized_corpora)
bound_corpora = ldaModel.bound(tokenized_corpora)
per_word_perplex_corpora = np.exp2(-bound_corpora / 
total_number_of_words_tokenized_corpora)

提前致谢。

1 个答案:

答案 0 :(得分:1)

根据我的研究,为了获得单个文档的日志困惑,可以使用以下命令:

ldaModel.log_perplexity([bow])