test_size
,random_state
和stratify
在python中的列车测试分割中意味着什么?
我的代码如下:
from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y,test_size = 0.25, random_state =0)
knn = KNeighborsClassifier()
knn.fit(X_train, Y_train)
from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y,stratify=Y, random_state=42)
knn = KNeighborsClassifier()
knn.fit(X_train, Y_train)
答案 0 :(得分:0)
test_size : float, int, None, optional
如果浮动,应该在0.0和1.0之间并代表比例 要包含在测试拆分中的数据集。如果是int,则代表 绝对测试样本数。如果为None,则将值设置为 列车大小的补充。默认情况下,该值设置为0.25。 默认值将在版本0.21中更改。它只会在0.25时保持0.25 train_size未指定,否则将补充指定的 train_size。
train_size : float, int, or None, default None
如果浮动,应该在0.0和1.0之间并代表比例 要包含在火车拆分中的数据集。如果是int,则代表 列车样本的绝对数量。如果为None,则自动生成值 设置为测试大小的补充。
random_state : int, RandomState instance or None, optional (default=None)
如果是int,则random_state是随机数生成器使用的种子; 如果是RandomState实例,则random_state是随机数生成器; 如果为None,则随机数生成器是使用的RandomState实例 由np.random。
您可以在http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
的文档中找到所有这些解释