我必须使用python实现DBSCAN,并且epsilon估计一直存在问题,因为原始研究论文中已经建议的方法假设blob类似于数据集的分布,在我的情况下它更像是一个治愈的数据集在某些时间间隔跳跃。跳跃导致DBSCAN在跳跃之间的间隔中形成不同的数据集簇(这对我来说足够好),但是对于不同数据集动态的epsilon计算不会产生期望的结果,因为点往往位于直线上许多间隔,并改变' k'值会导致eps值发生相当大的变化。
答案 0 :(得分:1)
尝试使用OPTICS算法,您不需要估算eps。
此外,我建议使用递归回归,您可以使用python的最佳曲线拟合scipy.optimize.curve_fit
来获得最佳曲线,然后找到曲线上所有点的均方根误差。然后删除'n'百分点,并递归重复此操作,直到你的rms误差低于你的阈值。