关于如何实现flickr标签聚类系统的任何想法? (最好是在Rails中)

时间:2009-06-26 04:08:51

标签: ruby-on-rails database-design data-structures tags tagging

我主要只是想讨论如何从分散的,非规范化的,完全开放的用户提交的标签转向,通过将它们组合到他们称之为的语义组中来开始理解所有这些标签。集群”。

真实的人是否需要弄清楚人们使用的标签究竟意味着什么,或者只是通过自动分析标签的组合频率来实现?

那种东西。随意疯狂地阐述:)(另外,如果在其他地方已经讨论过这个问题,我很乐意听到它。)

2 个答案:

答案 0 :(得分:3)

阅读这篇文章:Automated Tag Clustering。它提供了对现有方法的良好概述,并描述了标记聚类的算法。

答案 1 :(得分:1)

Algorithms of the Intelligent Web(Manning)(尤其是第4章)和一本与O'Reilly相似的书涵盖了聚类算法。曼宁的书以天真的SQL方法开始,并转移到K-means,ROCK和DBSCAN。它比仅仅关注标签更通用,但在这种情况下很容易应用。代码以Java形式呈现,但很容易适应Ruby(有时候比调整Java代码更容易解​​决问题)。

第5章介绍了有关构建拓扑的分类,并讨论了贝叶斯算法。