Question

我正在数据营地上进行有监督的学习课程。并尝试在木星笔记本中复制代码。

我执行以下操作：

url = 'https://assets.datacamp.com/production/repositories/628/datasets/444cdbf175d5fbf564b564bd36ac21740627a834/diabetes.csv'

df2 = pd.read_csv(url)


y = df2['diabetes'].values
X = df2.loc[:,['pregnancies', 'bmi','age']]
X = np.array(X)

X_train, y_train, X_test, y_test = train_test_split(X, y, test_size = 0.4, random_state = 42)

knn = KNeighborsClassifier(n_neighbors=6)
knn.fit(X_train, y_train)

当我执行knn.fit（）时，它给了我一个错误： ValueError：找到的输入变量样本数量不一致：[460，308]

我在这里浏览一些解决方案，基本上都是关于X和y的。数组尺寸，我更改了它们，但没有帮助。

提前谢谢！

print(X.shape, y.shape)
print(type(X), type(y))

（768，3）（768，）类'numpy.ndarray' 类“ numpy.ndarray”

Answer 1

根据sklearn documentation，train_test_split按照与传递的参数相同的顺序创建训练测试子集。

这将解决您的问题：

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.4, random_state = 42)

knn.fit（）错误：valueError：找到输入变量的样本数不一致

1 个答案: