主题模型的想法

时间:2018-12-19 07:13:53

标签: gensim topic-modeling

到目前为止,我已经完成了一些工作:

我正在基于文本数据构建主题模型,并且已经进行了主题调整(使用相干得分)以确定最佳主题数。

但是,我现在正在寻求将该模型投入生产。有了新数据,我希望自己的词汇量会发生变化,并且主题的最佳数量也可能会发生变化。

1)我正在寻找想法,以确保随着我的词汇量因新的看不见的数据而变化时,我可以自动调整以优化参数数量

2)独立于1),我计划用新数据更新gensim LDA模型,并使用一些相似性度量(例如Jaccard距离)将新更新的模型与旧模型进行比较。

请让我知道您的想法或一些更好的方法来处理看不见的新数据。

0 个答案:

没有答案