我的数据包含一个开放式问题的答案:推荐您工作的组织的原因是什么?
我想使用一种算法/技术,利用该数据了解最频繁出现的类别(即原因),并且可以将针对该问题的新答案自动放入这些类别之一。
我最初想到的是主题建模(例如LDA),但是文本文档在此问题上非常短(每个文档通常在1到10个单词之间)。因此,这是否合适?还是有其他适合的模型?也许是集群方法?
注意:文字为荷兰语
答案 0 :(得分:0)
否,群集的工作效果会更差。
它不能做魔术。
您需要输入其他信息(例如 labels )来解决此问题-使用分类。
找到最常见的术语,清楚地表明一个或另一个原因,并开始为帖子加标签。