我正在使用gensim python库处理小型语料库(每次大约1500篇新闻文章)。假设我有兴趣创建与同一新闻相关的文章集群。
因此,对于我标记过的每个文章语料库,检测到的并置词句,词干,然后提供一个小词典(大约2万个标记),我已经通过TFIDF模型。
最后,我使用TFIDF语料库建立了语料库的LSI模型,并借助gensim的文档相似性功能,我获得了很好的结果。
但是我很好奇,并通过以下方式对LSI进行了一致性检查:
lsi_topics = [[word for word, prob in topic] for topicid, topic in
lsi.show_topics(formatted=False)]
lsi_coherence = CoherenceModel(topics=lsi_topics[:10], texts=corpus, dictionary=dictionary, window_size=10).get_coherence()
logger.info("lsi coherence: %.3f" % lsi_coherence)
我总是得到大约0.45的值,这似乎很弱。
所以我想知道如何解释这个一致性值?当您只需要索引中的文档与索引本身具有相似性(因此查询是来自语料库的完整文档)时,此值有意义吗?
编辑:我尝试了多种方法来进行文本预处理,例如在喂入短语短语类之前将每个文档拆分成真实的句子,生成双字母组,三字母组或不删除重音符号,在某些情况下,我能够获得大约0.55的一致性值,因此至少我认为这可以帮助找到最有效的方式来处理原始数据...