时间:2010-07-23 17:25:14

标签: fuzzy-comparison

3 个答案:

答案 0 :(得分:9)

答案 1 :(得分:2)

问题可以归结为:

  • 如何表示文章(功能,通常是一包含TF-IDF的文字)
  • 如何计算两篇文章之间的相似性(余弦相似度是最受欢迎的)
  • 如何根据以上
  • 将文章聚集在一起

有两大类聚类算法:批处理和增量。如果您提前收到所有文章,那么批量很棒。由于您正在对新闻进行聚类,因此您可能会逐渐收到文章,因此您无法一次性对其进行聚类。你需要一个增量(也称为顺序)算法,这些算法往往很复杂。

您还可以尝试使用http://www.similetrix.com,快速搜索Google搜索,他们声称可以通过API提供此服务。

答案 2 :(得分:1)