我实时聚类数据流,更准确地说是Twitter流。当数据点(推文)从流中到达时,将一个点分配给与其最相似的群集。在群集过程中,我会随着时间的推移跟踪所有群集的大小。只要群集的大小超过所有大小的平均值,我就会将此群集声明为重要群集或趋势群集。但是,如果它的大小在一段时间内保持静态,我无法找到将此群集声明为非趋势或无关紧要的方法。因为如果它保持静止意味着人们不会发布关于这个主题的推文,但是它的大小仍然高于平均值,因此即使它不是,它仍将是一个趋势群集。
我想解决这个问题的一种方法是通过声明一个10分钟的周期参数来查看它的大小是否保持不变然后我将其声明为非增加,因此我将其从趋势列表中删除。
我想知道是否有更好的方法来处理这个问题,而不是周期参数甚至如何决定周期参数?
答案 0 :(得分:0)
完全取决于您的应用程序忘记旧群集的适当规则是什么。
我们可以分享一般规则。有些人希望永久保持群集,其他人有元素年龄,并在群集缩小到阈值大小以后解散群集。一旦它不再增长,你显然想忘记它。
取决于你,你想要建模。