我主要只是想讨论如何从分散的,非规范化的,完全开放的用户提交的标签转向,通过将它们组合到他们称之为的语义组中来开始理解所有这些标签。集群”。
真实的人是否需要弄清楚人们使用的标签究竟意味着什么,或者只是通过自动分析标签的组合频率来实现?
那种东西。随意疯狂地阐述:)(另外,如果在其他地方已经讨论过这个问题,我很乐意听到它。)
答案 0 :(得分:3)
阅读这篇文章:Automated Tag Clustering。它提供了对现有方法的良好概述,并描述了标记聚类的算法。
答案 1 :(得分:1)
Algorithms of the Intelligent Web(Manning)(尤其是第4章)和一本与O'Reilly相似的书涵盖了聚类算法。曼宁的书以天真的SQL方法开始,并转移到K-means,ROCK和DBSCAN。它比仅仅关注标签更通用,但在这种情况下很容易应用。代码以Java形式呈现,但很容易适应Ruby(有时候比调整Java代码更容易解决问题)。
第5章介绍了有关构建拓扑的分类,并讨论了贝叶斯算法。