Question

我需要将我的训练数据 (80-20) 拆分为验证数据，使拆分的子数据集不是随机的，而是始终相同的。

目前我使用此代码

from sklearn.model_selection import train_test_split
X_train, X_val, Y_train, Y_val = train_test_split(X, Y, test_size=0.2)

但分割的子数据集总是随机的，永远不会相同。我希望它是随机的，但是当我再次运行代码时应该存在相同的值（比如 np.random.seed）

有没有办法做到这一点？

Answer 1

train_test_split() 有一个 random_state 参数。如果给它分配一个整数值，结果将始终相同：

from sklearn.model_selection import train_test_split
X_train, X_val, Y_train, Y_val = train_test_split(X, Y, test_size=0.2, random_state=1)