我正在计划一个应用程序,它将根据主题制作短消息/推文集群。主题数量将受限于体育[NBA,NFL,板球,足球],娱乐[电影,音乐]等...
我可以想到两种方法
我想知道是否有其他方法可以解决这个问题。或者有没有办法改进上述方法?
还提出了一些很好的聚类算法。我认为“K-Nearest Clustering”算法适用于这种情况。
答案 0 :(得分:3)
答案 1 :(得分:2)
使用Bayesian classification。使用一些预定义的语料库训练过滤器,并(可选)为用户提供一种方法,通过标记错误分类的内容来进一步优化它。
答案 2 :(得分:0)
我也在做类似的事情。如果你专门谈论推特,我认为主题标签是一个好方法。你也可以进行一些分类,但应该用维基百科等一些外部知识库来丰富。 无论如何,如果您的解决方案更好,请在此处发布