Question

我使用sklearn.cluster.DBSCAN时遇到了问题。如果我使用DBSCAN(metric="russellrao")，应该使用哪种数据格式？我尝试了两种方式，都返回pred = [-1 -1 -1 ..., -1 -1 -1]。您可以在下面看到2数据格式。

npy = df2.values
y_pred = DBSCAN(metric="russellrao").fit_predict(npy)

1。 npy = enter image description here

2。 npy = enter image description here

打印y_pred [-1 -1 -1 ...， - -1 -1 -1]

那么，哪种格式是正确的anwser？

Answer 1

您需要适当选择其他DBSCAN参数。

恕我直言，sklearn应该不有默认值。特别是epsilon在很大程度上取决于您的数据集和度量标准，因此默认值几乎总是一个糟糕的选择。它应该强制用户选择参数，而不是提供错误的默认值。