如果没有培训数据,如何对聊天文本进行分类?

时间:2013-05-13 09:41:16

标签: classification opennlp categorization

我有一个用例,其中聊天文本将被分类。我想在Apache OpenNLP中使用DocumentCategorizer来分类聊天。但为此,我必须有训练数据,聊天已经分类。我是否必须手动分类数百个聊天以准备培训和测试数据?我还可以做些什么?我打算将聊天类别作为与服务相关的问题。这个类别列表将是特定于域的。该数据的提供者是否应该向我提供分类的聊天数据? 提前谢谢。

2 个答案:

答案 0 :(得分:3)

根据定义,没有标记数据就不会出现分类问题。有人标记(至少部分)数据,或者您应该尝试以不同的方式解决问题。

- 编辑添加一些如何在不分类的情况下解决问题的示例:

通常,根据具体任务,您可以尝试通过群集或/和文档或术语匹配来解决“分类”问题。聚类会将与同一主题相关的文档组合在一起,而术语匹配则会观察引用特定术语的文档。如果没有可用的培训数据,但您对该问题有一定了解,则无论是哪种方法,还是它们之间的组合都可能足以满足您的信息需求。

针对您的具体问题,我会开始尝试对聊天进行聚类。

答案 1 :(得分:0)

虽然群集可以让您对文本进行分类并识别其中的主题,但是无监督的方法通常会降低控制分类性能的灵活性,但如果您没有标记数据,它们仍然是最佳工具。

然而,最近零射击和少射击学习的进步可以让你用很少的(100-200训练数据)或根本没有训练数据来建立你的分类器。您的分类器仍然保留了监督分类器的所有好处,并为您提供对类别的所有控制。

我已经构建了一个这样的系统,您可以在自己的类别和数据上试用demo来查看系统的运行情况。

其他资源:

  1. https://www.quora.com/Whats-the-difference-between-one-shot-learning-and-zero-shot-learning
  2. https://arxiv.org/abs/1710.10280