Question

我有两个文件，我分为训练和测试集。

traindata = load_svmlight_file("training")
testdata = load_svmlight_file("testing")
Xtrain = traindata[0].todense()
ytrain = traindata[1]
Xtest = testdata[0].todense()
ytest = testdata[1]

我想将我的Xtest和ytest分成4个部分：

Xtest1，ytest1 Xtest2，ytest2， Xtest3，ytest3， Xtest4，ytest4

我的直觉是使用sklearn.train_test_split，但我不确定。这样做的最佳方式是什么？

Answer 1

您可以使用np.array_split执行此操作：

import numpy as np
test=np.arange(21)
xtest1,xtest2,xtest3,xtest4 = np.array_split(np.random.permutation(test),4)

我使用np.random.permutation以防您希望数据随机分割。如果您只想将其拆分为连续部分，则可以删除np.random.permutation。

将svmfile矩阵拆分为4个部分

1 个答案: