来自R的xgboost的人类可读规则

时间:2017-03-09 14:43:56

标签: r xgboost

我尝试在R中使用xgboost从我的数据中获取规则(gbtree),因此我可以在其他系统中使用这些规则(而不是使用' predict'来预测数据)。输入数据有appr。包含二进制,稀疏数据的1500列和40 Mio行,Label也是二进制列。

HTTP/1.1 400 Bad Request
Date: Thu, 09 Mar 2017 13:49:14 GMT
Content-Type: application/json
Transfer-Encoding: chunked
Connection: keep-alive
Server: Artifactory/4.16.0
X-Artifactory-Id: <removed>
X-Artifactory-Node-Id: <removed>

{
  "errors" : [ {
    "status" : 400,
    "message" : "There are too many folder download requests currently running, try again later."
  } ]
}

我将数据可视化为xgb.dump或xgb.plot.tree。但我需要以下列形式的数据:

rule1:feat_01 == 1&amp; feat_02 == 1&amp; feat_03 == 0 - &gt;标签= 1

rule2:feat_01 == 0&amp; feat_03 == 1&amp; feat_04 == 1 - &gt;标签= 0

这是可能的还是我走错了路?

此致 的Heiko

编辑:添加了示例并试图让问题更好

1 个答案:

答案 0 :(得分:0)

一方面,我认为您可以使用重要性矩阵来获取每个要素的覆盖率和排名。另一方面,xgboost使用一套弱学习者使用套袋,规则应该是罕见的