如何从短文本文档中提取类别?

时间:2019-04-02 08:49:28

标签: nlp cluster-analysis text-mining topic-modeling

我的数据包含一个开放式问题的答案:推荐您工作的组织的原因是什么?

我想使用一种算法/技术,利用该数据了解最频繁出现的类别(即原因),并且可以将针对该问题的新答案自动放入这些类别之一。

我最初想到的是主题建模(例如LDA),但是文本文档在此问题上非常短(每个文档通常在1到10个单词之间)。因此,这是否合适?还是有其他适合的模型?也许是集群方法?

注意:文字为荷兰语

1 个答案:

答案 0 :(得分:0)

否,群集的工作效果会更差。

它不能做魔术。

您需要输入其他信息(例如 labels )来解决此问题-使用分类

找到最常见的术语,清楚地表明一个或另一个原因,并开始为帖子加标签。