标签: python nlp data-science gensim tf-idf
我专门使用gensim来构建TfidfModel,但我相信这更多是TF-IDF的一般问题...
gensim
TfidfModel
假设我用10个文档构建了TF-IDF模型。如何使用此模型来检测模型中高价值的单词,但在特定的可见或不可见文档中代表性不足的单词?
例如,如果文档1-9都频繁使用“香蕉”一词,那么我怎么才能发现文档10(或未用于构建模型的文档)根本没有使用它呢?
我知道我可以从模型中提取单词和值的字典并进行自己的比较,但是我想知道是否有更好的方法。