什么是对自由格式文本条目进行分类或聚类的好方法?

时间:2015-01-29 16:08:00

标签: machine-learning grouping cluster-analysis

我有一组用户为N项输入的评分,以及为什么他们为该项选择该评级的原因。评级为序数(-2,-1,0,+ 1,+ 2)。 我想提出这些理由的有意义的分组。例如,假设用户评价电影,评级背后的原因可能属于3大类:1)。 '他们是演员',2)的忠实粉丝。 '惊人的故事线',4)。 '缺乏创意'。这只是一个虚拟的例子。

更具体地说,给定一组自由格式文本条目,可以提出这样的分组。我知道主题建模是这样做的一种方式。我可以指定主题K的数量,然后将数据提供给我的主题模型(LDA等),模型将输出K个主题,其中每个主题是该主题中最可能的单词列表。因此,对于这个虚拟示例,主题1可能包含单词和短语,如“'粉丝','演员','伟大的表演'。

还有其他方法可以进行此群集吗?在聚类时我是否需要考虑序数评定量表?我该如何考虑到这一点?

2 个答案:

答案 0 :(得分:1)

Word嵌入可能很有用。 Here是最近相关的斯坦福项目。

答案 1 :(得分:1)

这取决于您希望处理文本的复杂程度。如果仅匹配单个单词(1克)就足够了:

然而,你可能也希望用短语/相关词语做得更好。在这种情况下,有大量的研究和实施来帮助您。 Ngrams是一种相对简单的方法,但是理解语言语义的更高级方法具有更好的统计性能。