The original paper和其他资源(维基百科)总是使用诸如 in 之类的表达式根据半径ε(必须大于MinPts
个邻居)来定义核心对象。 直到。这为该半径是否包含在内提供了解释的余地:如果distance(p,q)等于ε,则对象q是否是p的邻居?
这显然非常重要,因为所有定义都基于此...
答案 0 :(得分:1)
原始dbscan paper中对邻域的定义是dist(p,q)<= eps。但是,大多数实现将使用数据库索引支持的任何范围查询。在大多数情况下,这没有什么区别,OmG是正确的,通过将最小的可表示数字添加到eps可以有效地将<更改为<=。
答案 1 :(得分:0)
我认为这根本不重要。因为有多种方法可以找到epsilon
的值,但没有一种方法能精确到此,而且还取决于要聚类的数据的结构。
此外,如果您将epsilon
的值更改为比指定运行机器上的开发语言的精度多一点,则可以解决此问题,并且它们根本不是邻居!因此,由于此问题对那台机器的精度敏感,因此在大多数情况下,它就不会对您的最终结果起至关重要的作用。