应用错误收集

如何从短文本文档中提取类别？

时间：2019-04-02 08:49:28

标签： nlp cluster-analysis text-mining topic-modeling

我的数据包含一个开放式问题的答案：推荐您工作的组织的原因是什么？

我想使用一种算法/技术，利用该数据了解最频繁出现的类别（即原因），并且可以将针对该问题的新答案自动放入这些类别之一。

我最初想到的是主题建模（例如LDA），但是文本文档在此问题上非常短（每个文档通常在1到10个单词之间）。因此，这是否合适？还是有其他适合的模型？也许是集群方法？

注意：文字为荷兰语

1 个答案:

答案 0 :(得分：0)

否，群集的工作效果会更差。

它不能做魔术。

您需要输入其他信息（例如 labels ）来解决此问题-使用分类。

找到最常见的术语，清楚地表明一个或另一个原因，并开始为帖子加标签。