sk-learn分类器的输入格式是什么?

时间:2018-03-30 02:25:24

标签: python-3.x numpy scikit-learn

我是scikit和numpy / pandas的新手,但我对Python和数据处理很熟悉。我对sk-learn分类器的输入应该是什么格式感到困惑。我已经尝试使用调试器来检查sk-learn教程示例中使用的示例矩阵,但它们有大量的成员,我无法弄清楚哪些是数据,哪些是派生的。

是否有某个参考规范解释了数组必须是什么样子以及如何构造它以使其成为sk-learn分类器的有效输入?

1 个答案:

答案 0 :(得分:3)

Sklearn希望您的要素矩阵X具有以下形式:

ind feat1   feat2
0   2   1
1   1   2

您可以使用pandas Dataframes或numpy数组作为输入。

如果您使用的是分类学习,那么y需要的行数与X一样多。

您可以从sklearn加载数据集,并检查矩阵的维度和形状,因为已经适合与问题相关的算法(在这种情况下,它将是一个受监督的回归问题):

import sklearn.datasets
X,y = sklearn.datasets.load_boston(return_X_y=True)
X.shape[0] == y.shape[0]

输出

True