通过聚类分析确定文本相似性

时间:2016-05-05 13:53:02

标签: text cluster-analysis similarity

我是CS的高级学士学位,目前正在撰写论文。在本论文中,我编写了一个使用基于密度的聚类方法的程序。更具体地说,OPTICS算法。我知道如何使用它,但我不知道它是否有效。

我想将此算法用于文本分类。文本是集合中必须聚类的点,因此生成的层次结构由文本的类别和子类别组成。例如,一个这样的集合是“科学文献”,由子集“数学”,“生物学”等组成。

我提出这样的想法,即我可以比在整个数据集中更频繁地分析特定文本中遇到的特定单词的文本,也排除介词之类的无关紧要的单词。也许我可以为此目的使用开源自然语言解析器,如斯坦福解析器。之后,程序将来自每个文本的这些“特征词”组合成一组,并且可以从该组中获取一定量的最频繁的词。该量成为聚类的维数,并且特定文本中的每个词的频率用作点的坐标。因此我们可以将它们聚类。

问题是,这个想法是有效的还是完全无稽之谈?一般的聚类和基于密度的聚类是否可以用于这种分类?也许有某种文学可以指出我正确的方向?

1 个答案:

答案 0 :(得分:0)

聚类!=分类。

运行聚类算法,并研究结果。 最有可能的是,是一个集群"科学文献"与科目"数学" - 那你做什么?

此外,群集只会为您提供,这对于相似性搜索来说太粗糙了 - 相反,您需要首先来解决相似性问题< / strong>,然后才能运行OPTICS等集群算法。

&#34;想法&#34;你描述的几乎已经是每个人已经尝试多年了。