如何在Sklearn群集中使用我的数据集?

时间:2014-11-14 16:23:11

标签: python scikit-learn

我正在尝试调整Sklearn示例here以使用我自己的数据集,这是一个1000行,4列整数矩阵。我无法看到如何用我的替换其中一个SKlearn数据集。即我该怎么替换

noisy_circles = datasets.make_circles(n_samples=n_samples, factor=.5,
                                  noise=.05)

2 个答案:

答案 0 :(得分:0)

datasets.make_circles函数创建一个具有非常清晰模式的toy dataset。它返回的数据是一个包含X数组特征(n x 2维)和y数组标签(长度为n)的元组。

要将数据传递到群集脚本中,您只需将其置于类似格式中,并使用该格式代替make_circles返回的值。

答案 1 :(得分:0)

将数据加载为二维numpy数组。阅读numpy和scipy的文档,了解如何操作,具体取决于您手头的文件格式。

在运行聚类算法之前,如果整数意味着类别分配而不是数量,则可能需要使用one-hot encoder预处理数据。

如果它们代表数量,您可能需要使用StandardScaler进行预处理。