Question

我想通过使用LDA在我的数据集中找到异常值。为了指定异常值，对于这种情况，我打算在训练模型上使用新看不见的文档的绑定或困惑值？之后，我会按升序对值进行排序，以检查它是否是异常值？我的问题是我无法获得单个doc的绑定/复制值，模型会抛出＆＃34; TypeError：＆＃39; int＆＃39;对象不可订阅＆＃34; 错误。

如果你帮我解决我的情况，我将不胜感激？

以防万一，我附上了我的代码：

tokenized_corpora = dictionary.doc2bow(_acc[2])
total_number_of_words_tokenized_corpora = len(tokenized_corpora)
bound_corpora = ldaModel.bound(tokenized_corpora)
per_word_perplex_corpora = np.exp2(-bound_corpora / 
total_number_of_words_tokenized_corpora)

提前致谢。

Answer 1

根据我的研究，为了获得单个文档的日志困惑，可以使用以下命令：

ldaModel.log_perplexity([bow])

如何在训练有素的模型上获得新看不见文档的界限或困惑值？

1 个答案: