为语料库中的某些文档分配更多权重-LDA-Gensim

时间:2018-12-19 13:15:17

标签: python-3.x nlp gensim lda topic-modeling

我正在使用LDA进行主题建模,但不幸的是我的数据严重偏斜。我有来自10个不同类别的文档,希望每个类别对LDA主题同样有贡献。

但是,每个类别都有不同数量的文档(例如,一个类别占整个文档的50%以上,而几个类别仅占文档的1-2%)。

将权重分配给这些类别的最佳方法是什么,以便它们同样有助于我的主题?如果我不这样做就运行LDA,则我的主题将主要基于类别,该类别占语料库中文档的50%以上。我正在研究上采样,但希望使用一种直接在LDA中分配权重的解决方案。

0 个答案:

没有答案