用导入的数据绘制R中的关键差异

时间:2016-12-07 15:04:25

标签: r machine-learning mlr

用于比较多个数据集(Demšar2006)上的分类器的关键差异(CD)图可以使用mlr包生成,如下所示:

# THIS WORKS
library(mlr)
lrns = list(makeLearner("classif.knn"), makeLearner("classif.svm"))
tasks = list(iris.task, sonar.task)
rdesc = makeResampleDesc("CV", iters = 2L)
meas = list(acc)
bmr = benchmark(lrns, tasks, rdesc, measures = meas)
cd = generateCritDifferencesData(bmr)
plotCritDifferences(cd)

这要求评估结果驻留在相当复杂的BenchmarkResult对象中,尽管数据基本上是一个矩阵(其中M[i, j]保存数据集{{1}的分类i的分数1}})。 我以前在Python工作流中生成了这样的数据,并在j中导入R(因为这些图似乎没有Python包)。

如何根据此数据生成CD图?

我考虑过从data.frame创建BenchmarkResult,但不知道从哪里开始:

data.frame

1 个答案:

答案 0 :(得分:1)

我终于设法创造了情节。有必要只设置少数BenchmarkResult's属性:

    每个分类器
  • leaners idshort.name
  • measures
  • 每个数据集/分类器组合
  • results aggr

然后代码可能如下所示(5个数据集的较小示例):

library(mlr)
# Here I would import results from my experiments instead of using random data
# e.g. scores for 5 classifiers and 30 data sets, each
results <- data.frame(replicate(5, runif(30, 0, 1)))
clf <- c('clf1', 'clf2', 'clf3', 'clf4', 'clf5')
clf.short.name <- c('c1', 'c2', 'c3', 'c4', 'c5')
dataset <- c('dataset1', 'dataset2', 'dataset3', 'dataset4', 'dataset5')
score <- list(acc)

# Setting up the learners: id, short.name
bmr <- list()
for (i in 1:5){
    bmr$learners[[clf[i]]]$id <- clf[i]
    bmr$learners[[clf[i]]]$short.name <- clf.short.name[i]
}

# Setting up the measures
bmr$measures <- list(acc)

# Setting up the results
for (i in 1:5){
  bmr$results$`dataset1`[[clf[i]]]$aggr <- list('acc.test.mean' = results[1, i])
}
for (i in 1:5){
  bmr$results$`dataset2`[[clf[i]]]$aggr <- list('acc.test.mean' = results[2, i])
}
for (i in 1:5){
  bmr$results$`dataset3`[[clf[i]]]$aggr <- list('acc.test.mean' = results[3, i])
}
for (i in 1:5){
  bmr$results$`dataset4`[[clf[i]]]$aggr <- list('acc.test.mean' = results[4, i])
}
for (i in 1:5){
  bmr$results$`dataset5`[[clf[i]]]$aggr <- list('acc.test.mean' = results[5, i])
}

# Set BenchmarkResult class
class(bmr) <- "BenchmarkResult"

# Statistics and plot
cd = generateCritDifferencesData(bmr)
plotCritDifferences(cd)

任何能够更好地教我R以避免这些for循环和代码重复的人仍然会非常受欢迎!