如何将csv数据集100%作为sklearn包的make_blobs()的输出

时间:2019-10-10 03:08:36

标签: python arrays cluster-analysis

我是Python的新手,只想检查,编辑,调整一些基本集群功能的代码。

我有一个约有1000个值的csv文件,该文件分为两列,我想在python环境中导入该文件,并使其与make_blobs()的输出100%兼容

我导入了数据,并使用以下方法创建了一个数组:

import pandas as pd
import numpy as np
X = pd.read_csv("/data.csv")
X = X.as_matrix()

我可以看到成功地将数据视为数组:

> array([[3.094545, 2.106678],
>        [2.886592, 2.029667],
>        [3.016772, 2.23431 ],
>        [2.739621, 1.883947],
>        [3.202192, 2.009674],
>        [3.295198, 1.346389],
>        [2.769266, 2.041654],
>        [2.867035, 2.222251],
>        [2.963459, 2.22474 ],
>        [3.187592, 2.155406],
>        [2.889698, 1.973654],
>        [3.079113, 2.219817],
>        [3.20275 , 1.833527],
>        [3.008534, 2.005787],
>        [3.16477 , 2.050318],
>        [2.7942  , 1.685328],
>        [3.159495, 2.02407 ],
>        [3.058299, 1.428027],
>        [3.092592, 1.923008],

。问题是使用时:

from sklearn.datasets.samples_generator import make_blobs
centers = [[1, 1], [-1, -1], [1, -1]]
X, labels_true = make_blobs(n_samples = 300, centers=centers, cluster_std=0.5,
                            random_state=0)

另一个名为labels_true的变量包含从0到2的值。

我想知道我该怎么做,使“ data.csv”文件具有与X相同的输出,并且labels_true

1 个答案:

答案 0 :(得分:0)

您的数据没有标签。

如果有标签,则不需要聚类。

make_blobs是合成的,因此它也可以生成“正确的”标签,但是您不必这样做。