人类可解释的监督机器学习算法

时间:2013-12-20 11:03:09

标签: algorithm machine-learning supervised-learning

我正在寻找一种有监督的机器学习算法,它可以生成透明的规则或定义,可以很容易地被人类解释。

我使用的大多数算法(SVM,随机森林,PLS-DA)都不是很透明。也就是说,您很难在针对非计算机科学家观众的出版物的表格中总结模型。例如,作者通常会做的是根据某些标准发布重要的变量列表(例如,基尼系数或基于RF的平均精度降低),有时通过指出这些变量的差异来改进此列表在有问题的课程之间。

我正在寻找的是一种相对简单的风格输出“if(任何变量V1-V10>中位数或任何变量V11-V20<第一四分位数)和变量V21-V30>第三四分位数,然后是A级“。

周围有这样的事吗?

只是为了约束我的问题:我正在使用高度多维数据集(数万到数十万个常常的共线变量)。因此,例如回归树不是一个好主意(我认为)。

2 个答案:

答案 0 :(得分:2)

你听起来像是在描述决策树。为什么回归树不是一个好选择?也许不是最优的,但它们有效,而且这些是最直接可解释的模型。任何适用于连续值的东西都适用于序数值。

想要一个准确的分类器,想要一个简单且可解释的模型之间存在紧张关系。您可以构建随机决策林模型,并以多种方式对其进行约束以使其更具可解释性:

  • 小最大深度
  • 高度最低信息增益
  • 修剪树
  • 只训练“可理解的”功能
  • 量化/回合决定threhsolds

模型不一定好。

答案 1 :(得分:0)

在Google Brain的Been Kim所做的理解AI方法中,您会发现有趣的research