如何使用TF-IDF模型从文档中查找“缺失”或代表性不足的单词?

时间:2019-12-29 16:29:13

标签: python nlp data-science gensim tf-idf

我专门使用gensim来构建TfidfModel,但我相信这更多是TF-IDF的一般问题...

假设我用10个文档构建了TF-IDF模型。如何使用此模型来检测模型中高价值的单词,但在特定的可见或不可见文档中代表性不足的单词?

例如,如果文档1-9都频繁使用“香蕉”一词,那么我怎么才能发现文档10(或未用于构建模型的文档)根本没有使用它呢?

我知道我可以从模型中提取单词和值的字典并进行自己的比较,但是我想知道是否有更好的方法。

0 个答案:

没有答案