我有一个抓取程序,每天存储来自7家不同新闻机构的体育数据。它每天存储大约1200个体育新闻。 我想将最近两天的新闻分类为子类别。因此,每隔两天我就有大约2400条消息,这些消息完全是针对同一事件的。 例如:
70条新闻正在谈论布拉德·凯瑟洛夫斯基500英里的比赛。 120新闻正在谈论美国游泳运动员尼亚德开始游泳。 28个新人正在谈论曼联和曼城之间的比赛。。 。
换句话说,我想制作类似Google News的内容。
问题是这种情况不是分类问题,因为我没有特殊的类。例如,我的课程不是游泳,高尔夫,足球等。我的课程是这两年中发生的每个领域的特殊事件。所以我不能使用Naive Bayes等分类算法。
另一方面,我的问题也没有用聚类算法解决。因为我不想强迫他们投入n个集群。也许其中一条消息没有任何类似的消息,也许在一两天内,有12个不同的故事,但在其他两天,有30个不同的问题。所以我不能使用诸如“单链路(最大相似性)”,“完全链路(最小相似性)”,“最大加权匹配”或“组平均(平均帧内相似性)”之类的聚类算法。
我自己有一些想法可以做到这一点,例如,每两个有10个常用词的新闻应该在同一个班级。但是,如果我们不考虑一些参数,如文件的长度,普通和罕见词的影响以及其他一些事情,这将不会很好。
我已阅读this paper,但这不是我的答案。
有没有已知算法可以解决这个问题?
答案 0 :(得分:2)
这个问题让我感到困惑,因为群集的质量测量值未知。这指向一种无监督的方法,该方法最终基于使用数据中的冗余来检测相关性。也许像principal component analysis或latent semantic analysis这样的东西可能会有用。不同的维度(主成分或奇异向量)将指示不同的主要主题,对应于向量成分的术语有希望是出现在描述中的单词。一个缺点是,无法保证最强的相关性很容易导致合理的描述。
答案 1 :(得分:2)
查看“主题模型”和“潜在Dirichlet分配”。这些很受欢迎,您可以找到各种语言的代码。
答案 2 :(得分:1)
有很多文档聚类算法。例如,查看"Hierarchical document clustering using frequent itemsets",看看它是否与您想要的相似。如果您使用Java编程,您可能会从S-space package中获得一些里程,其中包括潜在语义分析(LSA)等算法。
答案 3 :(得分:1)
您可以使用层次聚类算法来研究项目之间的关系 - 最接近的项目(具有几乎相同描述的新闻)将位于相同的群集中,而最近的群集(类似新闻的群组)将位于同一个超级群组中集群等 此外,有一个非常好的快速算法叫做CLOPE - http://www.google.com.ua/url?sa=t&source=web&cd=11&sqi=2&ved=0CF0QFjAK&url=http%3A%2F%2Fciteseerx.ist.psu.edu%2Fviewdoc%2Fdownload%3Fdoi%3D10.1.1.13.7142%26rep%3Drep1%26type%3Dpdf&rct=j&q=CLOPE&ei=gvo_Tsi4AsKa-gas-uCkAw&usg=AFQjCNGcR9sFqhsEkAJowEjIGbDBwSjeXw&cad=rja