从SMS消息中提取主题

时间:2017-08-19 08:10:27

标签: machine-learning text-classification topic-modeling multilabel-classification multiclass-classification

我有一个SMS消息数据集,格式错误且稀疏。我尝试使用主题建模来获取每个消息中所有可能的主题以及每个相关主题的概率。我需要有能力安排或排列每个消息的主题。

我正在考虑的另一种解决方案是手动标记我的数据集并使用监督分类算法,如Naiive Bayes。 以下是我的SMS消息示例,这些消息稀疏且包含垃圾内容,因此我认为主题建模效果不佳:

enter image description here

我面临的挑战:

  1. 使用监督分类方法的替代方法是否合理,还是应该保留像主题建模这样的无监督方法?

  2. 我应该如何处理数据集:每条消息都应该有1个类别作为标签,还是可以分配多个类别?

  3. 这是一个多标签或多类别的分类问题吗?

1 个答案:

答案 0 :(得分:1)

如果您知道主题是什么,那么请使用受监督的朴素贝叶斯。无监督学习可用于课堂发现。

为样本分配多个主题不是问题。

Naive Bayes根据具有最高概率的主题为样本分配标签。当然,您可以使用最高x概率(可能具有阈值)来分配多个主题。