我正在数据营地上进行有监督的学习课程。并尝试在木星笔记本中复制代码。
我执行以下操作:
url = 'https://assets.datacamp.com/production/repositories/628/datasets/444cdbf175d5fbf564b564bd36ac21740627a834/diabetes.csv'
df2 = pd.read_csv(url)
y = df2['diabetes'].values
X = df2.loc[:,['pregnancies', 'bmi','age']]
X = np.array(X)
X_train, y_train, X_test, y_test = train_test_split(X, y, test_size = 0.4, random_state = 42)
knn = KNeighborsClassifier(n_neighbors=6)
knn.fit(X_train, y_train)
当我执行knn.fit()时,它给了我一个错误: ValueError:找到的输入变量样本数量不一致:[460,308]
我在这里浏览一些解决方案,基本上都是关于X和y的。 数组尺寸,我更改了它们,但没有帮助。
提前谢谢!
print(X.shape, y.shape)
print(type(X), type(y))
(768,3)(768,) 类'numpy.ndarray' 类“ numpy.ndarray”
答案 0 :(得分:0)
根据sklearn documentation,train_test_split
按照与传递的参数相同的顺序创建训练测试子集。
这将解决您的问题:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.4, random_state = 42)