围绕主题聚类短语

时间:2011-10-12 07:08:34

标签: text nlp machine-learning

我遇到了一个非常不寻常的问题。我有一组从大型文档中提取的短语(名词短语)。这些短语是> = 2且< = 3个字长。需要对这些短语进行聚类,因为提取的短语数量非常大并且将它们显示为简单列表可能对用户没有用。

我们正在考虑很好的非常简单的聚类方法。是否有一个快速的工具/软件/方法,我可以用它来聚类这些,以便集群内的所有短语属于特定的主题/主题,如果我保持主题的数量最初是固定的?我没有任何训练集或任何其他可用作训练集的集群。

2 个答案:

答案 0 :(得分:3)

主题分类不是一个简单的问题。

用于对长文档(100个单词)进行分类的传统方法通常基于频繁的单词,并且不适用于非常短的消息。我相信你的问题有点类似于推文分类。

两篇非常有趣的论文是:

答案 1 :(得分:1)

如果您希望包含有关这个世界的知识,以便将 cat dog 聚集在一起,您可以使用WordNet的{ {3}}。