有没有一种简单的方法可以在尺寸大于2的python中使用DBSCAN?

时间:2020-04-17 17:58:12

标签: python scikit-learn cluster-analysis dbscan

我一直在使用集群算法进行机器学习项目,并且我正在根据正在使用的数据研究使用scikit-learn的DBSCAN实现。但是,每当我尝试使用要素数组运行它时,都会引发以下错误:

ValueError: Found array with dim 3. Estimator expected <= 2.

这给我的印象是scikit的DBSCAN仅支持二维功能。我在想这个吗?如果不是,是否有支持高维特征数组的DBSCAN实现?感谢您提供的任何帮助。

编辑

这是我用于DBSCAN脚本的代码。这个想法是从许多不同的CSV中读取数据,将它们保存到数组中,然后将它们转储到pickle文件中,以便模型将来可以加载它们并运行DBSCAN。

def get_clusters(fileList, arraySavePath):
    # Create empty array
    fitting = [];

    # Get values from all files, save to singular array
    for filePath in fileList:
        df = pd.read_csv(filePath, usecols=use_cols);
        fitting.append(df.values.tolist());

    # Save array to it's own csv file    
    with open(arraySavePath, "wb") as fp:
        pickle.dump(fitting, fp);


def predict_cluster(modelPath, predictInput):
    # Load the cluster data
    with open(modelPath, "rb") as fp:
        fitting = pickle.load(fp);

    # DBSCAN fit
    clustering = DBSCAN(eps=3, min_samples=2);
    clustering.fit(fitting);

    # Predict the label
    return clustering.predict_fit(predictInput);

1 个答案:

答案 0 :(得分:1)

我认为问题出在“ min_samples”参数上。您要拟合的数据包含3个特征/尺寸,但您已设置“ min_samples = 2”。 Min_samples必须等于或大于数据集中的要素数量。