如何自动生成一个或两个词来代表一个话题?

时间:2019-05-14 08:31:34

标签: python topic-modeling mallet

Mallet生成带有热门关键字的主题。关键字对于一个主题是唯一的。是否有一种自动方法可以从主题关键字中选择一个或多个单词作为主题标签。 例如,从500篇文章中生成20个主题。每个主题设置为包含20个单词。 主题之一是:

  

主题ID 12,权重0.05879,(关键字)石油能源天然气电力水   电力核工业海洋气候价格价格煤炭碳   排放年燃料环境环保年

看来我对这个话题可以有不同的解释。例如,

  1. 燃烧天然气,石油或燃料的能源问题
  2. 发电以保护环境
  3. 石油价格因气候变化而变化
  4. 碳排放导致环境问题
  5. ...

一个词标签可能是:能源,环境,石油,碳排放,绿色能源...

有没有一种方法可以只生成一个或两个词来表示该主题,而不是主观地和任意地组合这些词?

似乎最重要的词由关键字算法中的词频决定。槌针对每个主题生成唯一的单词。

我的问题:有没有办法自动选择一个最具代表性的单词或两个单词作为主题标签?

我是主题建模的新手,您能帮我吗?

谢谢

1 个答案:

答案 0 :(得分:1)

有一些自动标记主题的方法,但我个人发现它们不够可靠,不会引起欺骗。正如您所注意到的,通常有很多方法可以描述主题已标识的语义内容,而且许多主题将不容易解析为单个关键字或短语。

在实践中,自动提取的主题通常会结合多个相关主题(此处是碳氢化合物行业和气候变化),或代表较大主题的特定方面(例如,可能有两个主题,其中有很多关于教育和课程的文字,但一个主题仅仅是本科生和其他k-12)。如果不阅读在该主题中具有较大代表的文档,通常很难识别出该主题真正是关于什么的。

在很多情况下,都有一个非常明显的“标记”(在这种情况下为“油”),但是如果您向用户暗示某个主题代表一个特定的概念,则几乎可以肯定会发现那些并非如此的情况确实是正确的含义。