Question

我是Python的新手，只想检查，编辑，调整一些基本集群功能的代码。

我有一个约有1000个值的csv文件，该文件分为两列，我想在python环境中导入该文件，并使其与make_blobs（）的输出100％兼容

我导入了数据，并使用以下方法创建了一个数组：

import pandas as pd
import numpy as np
X = pd.read_csv("/data.csv")
X = X.as_matrix()

我可以看到成功地将数据视为数组：

> array([[3.094545, 2.106678],
>        [2.886592, 2.029667],
>        [3.016772, 2.23431 ],
>        [2.739621, 1.883947],
>        [3.202192, 2.009674],
>        [3.295198, 1.346389],
>        [2.769266, 2.041654],
>        [2.867035, 2.222251],
>        [2.963459, 2.22474 ],
>        [3.187592, 2.155406],
>        [2.889698, 1.973654],
>        [3.079113, 2.219817],
>        [3.20275 , 1.833527],
>        [3.008534, 2.005787],
>        [3.16477 , 2.050318],
>        [2.7942  , 1.685328],
>        [3.159495, 2.02407 ],
>        [3.058299, 1.428027],
>        [3.092592, 1.923008],

。问题是使用时：

from sklearn.datasets.samples_generator import make_blobs
centers = [[1, 1], [-1, -1], [1, -1]]
X, labels_true = make_blobs(n_samples = 300, centers=centers, cluster_std=0.5,
                            random_state=0)

另一个名为labels_true的变量包含从0到2的值。

我想知道我该怎么做，使“ data.csv”文件具有与X相同的输出，并且labels_true

Answer 1

您的数据没有标签。

如果有标签，则不需要聚类。

make_blobs是合成的，因此它也可以生成“正确的”标签，但是您不必这样做。

如何将csv数据集100％作为sklearn包的make_blobs（）的输出

1 个答案: