应用错误收集

如何使用TF-IDF模型从文档中查找“缺失”或代表性不足的单词？

时间：2019-12-29 16:29:13

标签： python nlp data-science gensim tf-idf

我专门使用gensim来构建TfidfModel，但我相信这更多是TF-IDF的一般问题...

假设我用10个文档构建了TF-IDF模型。如何使用此模型来检测模型中高价值的单词，但在特定的可见或不可见文档中代表性不足的单词？

例如，如果文档1-9都频繁使用“香蕉”一词，那么我怎么才能发现文档10（或未用于构建模型的文档）根本没有使用它呢？

我知道我可以从模型中提取单词和值的字典并进行自己的比较，但是我想知道是否有更好的方法。

0 个答案:

没有答案