我一直在查看文档群集的方案,例如clustering using k-means和hierarchical clustering。我试图创建集群的用例来自社交媒体数据,这些数据是无限的并且会不断流入。
我需要根据社交媒体数据创建自动群集。当一个新帖子进入并属于其中一个集群时,它应该附加到集群,如果不存在可以容纳新帖子的集群,它本身应该创建一个新集群。我怎么能接近这个?什么是应该涵盖我正在尝试使用的用例的集群?有没有可用的教程/示例?
答案 0 :(得分:0)
您需要一个在线流聚合器。
这些存在但我不认为它们运作良好。