R rfe功能选择插入符号

时间:2016-01-20 14:35:18

标签: r machine-learning classification r-caret feature-selection

我正在使用R和插入包进行分类任务。对于功能消除,我使用rfe,它有不同的选项,其中,我想要最大化/最小化的指标是什么。

问题在于rfe接受RMSE,kappa之类的指标,并且我想使用不同的指标来最大化,但是我想从Metrics库中最大化ScoreQuadraticWeightedKappa,但我不知道如何做到这一点

我有以下代码:

control <- rfeControl(functions = rfFuncs, method="cv", number=2)
results <- rfe(dataset[, -59], dataset[, 59], 
               sizes = c(1:58), rfeControl = control)

如何编辑它,让rfe最大化ScoreQuadraticWeightedKappa?

1 个答案:

答案 0 :(得分:0)

您需要修改postResample函数,或创建自己类似的函数,然后将其插入rfFuncs$summary。下面是默认的postResample函数:

> postResample
function (pred, obs) 
{
    isNA <- is.na(pred)
    pred <- pred[!isNA]
    obs <- obs[!isNA]
    if (!is.factor(obs) & is.numeric(obs)) {
        if (length(obs) + length(pred) == 0) {
            out <- rep(NA, 2)
        }
        else {
            if (length(unique(pred)) < 2 || length(unique(obs)) < 
                2) {
                resamplCor <- NA
            }
            else {
                resamplCor <- try(cor(pred, obs, use = "pairwise.complete.obs"), 
                  silent = TRUE)
                if (class(resamplCor) == "try-error") 
                  resamplCor <- NA
            }
            mse <- mean((pred - obs)^2)
            n <- length(obs)
            out <- c(sqrt(mse), resamplCor^2)
        }
        names(out) <- c("RMSE", "Rsquared")
    }
    else {
        if (length(obs) + length(pred) == 0) {
            out <- rep(NA, 2)
        }
        else {
            pred <- factor(pred, levels = levels(obs))
            requireNamespaceQuietStop("e1071")
            out <- unlist(e1071::classAgreement(table(obs, pred)))[c("diag", 
                "kappa")]
        }
        names(out) <- c("Accuracy", "Kappa")
    }
    if (any(is.nan(out))) 
        out[is.nan(out)] <- NA
    out
}

更具体地说,由于您正在进行分类,因此您需要修改postResample部分:

    else {
        if (length(obs) + length(pred) == 0) {
            out <- rep(NA, 2)
        }
        else {
            pred <- factor(pred, levels = levels(obs))
            requireNamespaceQuietStop("e1071")
            out <- unlist(e1071::classAgreement(table(obs, pred)))[c("diag", 
                                    "kappa")]
        }
        names(out) <- c("Accuracy", "Kappa")
    }

在您编辑postResample或创建自己的等效函数后,您可以运行:

rfFuncs$summary <- function (data, lev = NULL, model = NULL) {
    if (is.character(data$obs)) 
        data$obs <- factor(data$obs, levels = lev)
    postResample(data[, "pred"], data[, "obs"])
}

只需确保已编辑postResample或将其替换为等效功能的名称。