L1惩罚回归无法从模型

时间:2016-06-17 18:54:00

标签: r model-validation model-fitting

这个问题可能过于特定于包,但我会重视输入我在数据集上使用predict函数时可能出错的内容。

我使用的程序如下:

require(penalized)
# neg contains negative data
# pos contains positive data

现在,以下程序旨在构建可比较的(在正面和负面案例中均衡)训练和验证数据集。

# 50% negative training set
negSamp <- neg %>% sample_frac(0.5) %>% as.data.frame()
# Negative validation set
negCompl <- neg[setdiff(row.names(neg),row.names(negSamp)),]
# 50% positive training set 
posSamp <- pos %>% sample_frac(0.5) %>% as.data.frame()
# Positive validation set
posCompl <- pos[setdiff(row.names(pos),row.names(posSamp)),]
# Combine sets
validat <- rbind(negSamp,posSamp)
training <- rbind(negCompl,posCompl)

好的,所以我们现在有两个可比较的集合。

[1] FALSE  TRUE
> dim(training)
[1] 1061  381
> dim(validat)
[1] 1060  381
> identical(names(training),names(validat))
[1] TRUE

我将模型适合训练集而没有问题(我在这里尝试使用一系列Lambda1值)。但是,将模型拟合到验证数据集失败,只有奇怪的错误描述。

> fit <- penalized(VoiceTremor,training[-1],data=training,lambda1=40,standardize=TRUE)
# nonzero coefficients: 13
> fit2 <- predict(fit, penalized=validat[-1], data=validat)
Error in .local(object, ...) : 
  row counts of "penalized", "unpenalized" and/or "data" do not match

只是为了确保这不是由于数据集中的某些NA所致:

> identical(validat,na.omit(validat))
[1] TRUE

奇怪的是,我可能会生成一些与正确数据集相当的新数据:

data.frame(VoiceTremor="NVT",matrix(rnorm(380000),nrow=1000,ncol=380) ) -> neg
data.frame(VoiceTremor="VT",matrix(rnorm(380000),nrow=1000,ncol=380) ) -> pos
> dim(pos)
[1] 1000  381
> dim(neg)
[1] 1000  381

并运行上面的程序,然后第二个适合工作! 怎么会?我的第二个(非培训)数据集可能出现什么问题?

1 个答案:

答案 0 :(得分:0)

确定,

我找到了解决这个问题的方法。问题出在我发现补充数据集上。

neg[setdiff(row.names(neg),row.names(negSamp)),]

没有做正确的事,但是

neg %>% 
rownames_to_column() %>% 
filter(! rowname %in% row.names(negSamp)) %>% 
column_to_rownames() %>% data.frame()

一样。通过此更改,以及使用data.frame代替as.data.frame,这一切都有效。