我是Python的新手,只想检查,编辑,调整一些基本集群功能的代码。
我有一个约有1000个值的csv文件,该文件分为两列,我想在python环境中导入该文件,并使其与make_blobs()的输出100%兼容
我导入了数据,并使用以下方法创建了一个数组:
import pandas as pd
import numpy as np
X = pd.read_csv("/data.csv")
X = X.as_matrix()
我可以看到成功地将数据视为数组:
> array([[3.094545, 2.106678],
> [2.886592, 2.029667],
> [3.016772, 2.23431 ],
> [2.739621, 1.883947],
> [3.202192, 2.009674],
> [3.295198, 1.346389],
> [2.769266, 2.041654],
> [2.867035, 2.222251],
> [2.963459, 2.22474 ],
> [3.187592, 2.155406],
> [2.889698, 1.973654],
> [3.079113, 2.219817],
> [3.20275 , 1.833527],
> [3.008534, 2.005787],
> [3.16477 , 2.050318],
> [2.7942 , 1.685328],
> [3.159495, 2.02407 ],
> [3.058299, 1.428027],
> [3.092592, 1.923008],
。问题是使用时:
from sklearn.datasets.samples_generator import make_blobs
centers = [[1, 1], [-1, -1], [1, -1]]
X, labels_true = make_blobs(n_samples = 300, centers=centers, cluster_std=0.5,
random_state=0)
另一个名为labels_true的变量包含从0到2的值。
我想知道我该怎么做,使“ data.csv”文件具有与X相同的输出,并且labels_true
答案 0 :(得分:0)
您的数据没有标签。
如果有标签,则不需要聚类。
make_blobs
是合成的,因此它也可以生成“正确的”标签,但是您不必这样做。