我想通过使用LDA在我的数据集中找到异常值。为了指定异常值,对于这种情况,我打算在训练模型上使用新看不见的文档的绑定或困惑值? 之后,我会按升序对值进行排序,以检查它是否是异常值? 我的问题是我无法获得单个doc的绑定/复制值,模型会抛出" TypeError:' int'对象不可订阅" 错误。
如果你帮我解决我的情况,我将不胜感激?
以防万一,我附上了我的代码:
tokenized_corpora = dictionary.doc2bow(_acc[2])
total_number_of_words_tokenized_corpora = len(tokenized_corpora)
bound_corpora = ldaModel.bound(tokenized_corpora)
per_word_perplex_corpora = np.exp2(-bound_corpora /
total_number_of_words_tokenized_corpora)
提前致谢。
答案 0 :(得分:1)
根据我的研究,为了获得单个文档的日志困惑,可以使用以下命令:
ldaModel.log_perplexity([bow])