LDA主题建模改进

时间:2018-05-08 01:05:39

标签: python machine-learning lda feature-engineering

我正在研究LDA模型,根据课程描述和标题确定约100,000个在线课程的主题。在进一步的过程中,我想使用这些主题来聚类这些课程。到目前为止,我们模型确定的主题并不是很好,我正在寻找改进方法 - 并对我的改进尝试有所了解。以下是我们当前 - 非常标准 - 方法的简要总结以及我需要改进的一些想法:

  1. 合并标题,副标题和课程说明

  2. 删除长度的描述< 100字,非英文描述

  3. 对于培训,我只使用更长的英文描述。当然,这意味着课程采用非英语描述 将被随机分类。

    1. 随机选择30,000条描述
    2. 这个数字有点武断。我注意到这些主题更加清晰"使用较少的描述进行培训时。但是,我们不希望根据此步骤中选择的随机描述来偏向我们的主题。

      1. 删除停用词
      2. 自定义和使用库。

        1. 删除标点符号

        2. Lemmatizing words

        3. 删除超过50%的文档中出现的字词

        4. 为了识别重复发生的主题,我在for循环中多次运行模型并打印结果主题。 基于这些迭代的主题重叠,我正在考虑添加与重复发生的主题相关的维基百科文章,并将它们添加到我们用于培训的描述中。这样我希望能够加强"培训数据中的那些主题并使其更加清晰 - 希望获得更多可解释的主题。目前,我正在将大约150篇维基百科文章添加到30,000个课程描述的语料库中,结果似乎很有希望。

          我的主要问题是:在我们的培训数据中添加预先选择的维基百科文章的方法是否有效?这有什么含义?

          我知道通过使用这种方法,我推动"推动"我们的模型是在初始运行中看到的主题方向 - 但是,我相信对此数据集的培训将导致更好/更可解释的课程描述分类。

0 个答案:

没有答案