knn.fit()错误:valueError:找到输入变量的样本数不一致

时间:2019-10-28 19:42:48

标签: machine-learning scikit-learn classification

我正在数据营地上进行有监督的学习课程。并尝试在木星笔记本中复制代码。

我执行以下操作:

url = 'https://assets.datacamp.com/production/repositories/628/datasets/444cdbf175d5fbf564b564bd36ac21740627a834/diabetes.csv'

df2 = pd.read_csv(url)


y = df2['diabetes'].values
X = df2.loc[:,['pregnancies', 'bmi','age']]
X = np.array(X)

X_train, y_train, X_test, y_test = train_test_split(X, y, test_size = 0.4, random_state = 42)

knn = KNeighborsClassifier(n_neighbors=6)
knn.fit(X_train, y_train)

当我执行knn.fit()时,它给了我一个错误: ValueError:找到的输入变量样本数量不一致:[460,308]

我在这里浏览一些解决方案,基本上都是关于X和y的。 数组尺寸,我更改了它们,但没有帮助。

提前谢谢!

print(X.shape, y.shape)
print(type(X), type(y))

(768,3)(768,) 类'numpy.ndarray' 类“ numpy.ndarray”

1 个答案:

答案 0 :(得分:0)

根据sklearn documentationtrain_test_split按照与传递的参数相同的顺序创建训练测试子集。

这将解决您的问题:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.4, random_state = 42)