我一直在R中使用liblinear作为作者属性问题,并且仅使用liblinear中的交叉参数(例如:LiblineaR(data=mydata, labels=factor(mydata[,1]), cost=co, cross=nrow(mydata)
)尝试了LOO交叉验证,并实际迭代了所有行这样我就可以看到哪些文本被错误分类或者其他什么:
for (i in 1:nrow(data)){
x = data[,2:ncol(data)]
y = factor(data[,1])
xTrain = x[-i,]
xTest = x[i,]
yTrain = y[-i]
yTest = y[i]
m=LiblineaR(data=xTrain, labels=yTrain, cost=co)
p=predict(m, xTest)}
似乎我应该从这两种方法得到相同的结果,但对于我的一些数据集,第一个版本给我的方式比第二个更好 - 例如,96%的准确度与50%的准确度(所有工作分类由同一作者)。 有没有人处理过这类事情?