我有2个numpy数组X和Y,形状为X:[4750、224、224、3]和Y:[4750,1]。
X是训练数据集,Y是每个条目的正确输出标签。
我想将数据分为训练和测试,以验证我的机器学习模型。因此,我想随机分割它们,以便在对X和Y进行随机分割后它们都具有正确的顺序。即-X的每一行在分割后正确地保持了其对应的标签不变。
我如何实现上述目标?
答案 0 :(得分:1)
这就是我要做的
def split(x, y, train_ratio=0.7):
x_size = x.shape[0]
train_size = int(x_size * train_ratio)
test_size = x_size - train_size
train_indices = np.random.choice(x_size, size=train_size, replace=False)
mask = np.zeros(x_size, dtype=bool)
mask[train_indices] = True
x_train, y_train = x[mask], y[mask]
x_test, y_test = x[~mask], y[~mask]
return (x_train, y_train), (x_test, y_test)
我只需(随机)选择我的火车组所需的索引数量,其余的将用于测试组。
然后使用遮罩选择火车和测试样品。
答案 1 :(得分:1)
您还可以使用scikit-learn train_test_split
仅使用两行代码来拆分数据:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.33)
答案 2 :(得分:0)
sklearn.model_selection.train_test_split
是一个不错的选择!
但是要手工制作一个
import numpy as np
def my_train_test_split(X, Y, train_ratio=0.8):
"""return X_train, Y_train, X_test, Y_test"""
n = X.shape[0]
split = int(n * train_ratio)
index = np.arange(n)
np.random.shuffle(index)
return X[index[:split]], Y[index[:split]], X[index[split:]], Y[index[split:]]