Question

我有一个包含 212 个观察值和 4 列的数据集。现在我想使用整个数据集进行训练，该怎么做？

我试过这个-

from sklearn.model_selection import train_test_split

Data_Train,Data_Test,Target_Train,Target_Test = train_test_split(DATA,TARGET,train_size=212,random_state=999)

但错误正在弹出 -> train_size=212 应该是正数并且小于样本数 212 或 (0, 1) 范围内的浮点数

Answer 1

正如 timgeb 指出的那样，一旦您的测试完成并且您想根据在整个数据集上训练的模型来预测看不见的值，您就根本不调用 train_test_split。

假设你正在拟合一个简单的线性回归模型，你需要的可能是这样的

from sklearn import linear_model
reg = linear_model.LinearRegression()
reg.fit(DATA, TARGET)
score = reg.predict(NO_TARGET_DATA)

其中 NO_TARGET_DATA 代表您的实际测试集（您在代码片段中所谓的测试集实际上更像是一个验证集，因为您有它的目标并使用它来计算您的性能指标）。< /p>

在训练和测试拆分中，如何使用整个数据集进行训练？

1 个答案: