应用错误收集

如何分类但不使用分类或聚类算法？

时间：2011-08-08 08:35:39

标签： algorithm artificial-intelligence cluster-analysis classification similarity

我有一个抓取程序，每天存储来自7家不同新闻机构的体育数据。它每天存储大约1200个体育新闻。我想将最近两天的新闻分类为子类别。因此，每隔两天我就有大约2400条消息，这些消息完全是针对同一事件的。例如：

  70条新闻正在谈论布拉德·凯瑟洛夫斯基500英里的比赛。
     120新闻正在谈论美国游泳运动员尼亚德开始游泳。
     28个新人正在谈论曼联和曼城之间的比赛。

。。

换句话说，我想制作类似Google News的内容。

问题是这种情况不是分类问题，因为我没有特殊的类。例如，我的课程不是游泳，高尔夫，足球等。我的课程是这两年中发生的每个领域的特殊事件。所以我不能使用Naive Bayes等分类算法。

另一方面，我的问题也没有用聚类算法解决。因为我不想强迫他们投入n个集群。也许其中一条消息没有任何类似的消息，也许在一两天内，有12个不同的故事，但在其他两天，有30个不同的问题。所以我不能使用诸如“单链路（最大相似性）”，“完全链路（最小相似性）”，“最大加权匹配”或“组平均（平均帧内相似性）”之类的聚类算法。

我自己有一些想法可以做到这一点，例如，每两个有10个常用词的新闻应该在同一个班级。但是，如果我们不考虑一些参数，如文件的长度，普通和罕见词的影响以及其他一些事情，这将不会很好。

我已阅读this paper，但这不是我的答案。

有没有已知算法可以解决这个问题？

4 个答案:

答案 0 :(得分：2)

这个问题让我感到困惑，因为群集的质量测量值未知。这指向一种无监督的方法，该方法最终基于使用数据中的冗余来检测相关性。也许像principal component analysis或latent semantic analysis这样的东西可能会有用。不同的维度（主成分或奇异向量）将指示不同的主要主题，对应于向量成分的术语有希望是出现在描述中的单词。一个缺点是，无法保证最强的相关性很容易导致合理的描述。

答案 1 :(得分：2)

查看“主题模型”和“潜在Dirichlet分配”。这些很受欢迎，您可以找到各种语言的代码。

答案 2 :(得分：1)

有很多文档聚类算法。例如，查看"Hierarchical document clustering using frequent itemsets"，看看它是否与您想要的相似。如果您使用Java编程，您可能会从S-space package中获得一些里程，其中包括潜在语义分析（LSA）等算法。

答案 3 :(得分：1)

您可以使用层次聚类算法来研究项目之间的关系 - 最接近的项目（具有几乎相同描述的新闻）将位于相同的群集中，而最近的群集（类似新闻的群组）将位于同一个超级群组中集群等此外，有一个非常好的快速算法叫做CLOPE - http://www.google.com.ua/url?sa=t&source=web&cd=11&sqi=2&ved=0CF0QFjAK&url=http%3A%2F%2Fciteseerx.ist.psu.edu%2Fviewdoc%2Fdownload%3Fdoi%3D10.1.1.13.7142%26rep%3Drep1%26type%3Dpdf&rct=j&q=CLOPE&ei=gvo_Tsi4AsKa-gas-uCkAw&usg=AFQjCNGcR9sFqhsEkAJowEjIGbDBwSjeXw&cad=rja