根据其含义对网页标题进行聚类

时间:2013-04-26 08:50:39

标签: python nlp cluster-analysis

我经历了这个link。此处给出的代码无法对以下主题进行聚类:

    "Number theory",
    "Finite field",
    "Rational number",
    "Continued fraction representation",
    "Floating point",
    "Mughal architecture"

所有人都在同一个集群中。 我该怎么做才能使数学主题进入一个群集,而其他群集进入各自的群集?

2 个答案:

答案 0 :(得分:0)

您应该将文章文本提供给聚类算法。仅仅标题太稀疏,它们根本没有足够的信息来进行必要的统计。

答案 1 :(得分:0)

假设这些标题是使用您不知道的语言,您将如何进行?

没有其他信息,这就是计算机程序所面临的问题。它没有机会做到这一点!

所以你需要

  • 添加其他信息,例如单词的相似性,例如基于WordNet

  • 添加更多文字,例如完整文章