答案 0 :(得分:2)
在stratify
中将train_test_split
参数设置为目标列。
stratify
将确保每个类均分。 Doc
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y)
答案 1 :(得分:-1)
train_test_split
函数在默认情况下会在拆分之前对数据集进行随机排序,除非您将shuffle
参数值设置为False。而且我认为,如果shuffle
为True,则可以确保训练的数据集部分具有来自所有类别的值。另外,如果您希望train_test_split的结果具有确定性,则可以使用random_state
参数。请参阅documentation了解更多信息。希望对您有所帮助。