我正在进行主题建模,其中给定的文本语料库在删除停用词后具有支持单词形式的大量噪音。这些词具有较高的词汇频率,但无法通过使用LDA以及其他有用的高频词来形成主题词。如何消除这种噪音?
答案 0 :(得分:1)
LDA算法不会在输入中使用tf-idf权重,而是使用单词包,但是您可以先根据其tf-idf分数过滤语料库中的单词,然后将新文本提供给LDA程序。
答案 1 :(得分:1)
基本的是你做了一个TF-IDF并清理分数,如果仍然没有帮助那么你可以创建特定于域的自定义停用词列表。假设我在一个工作领域,“job”这个词不是一个常规的禁止词,但在工作领域它是或者公司名称是一个禁用词,因为它在许多文件中重复。因此,构建自定义停用词列表是另一种方法。