lightgbm的箱是什么意思?

时间:2018-09-27 03:30:23

标签: machine-learning decision-tree lightgbm

最近我正在使用lightgbm进行预测竞赛,这是我第一次使用此决策树模型,并且我是机器学习的初学者,当我训练模型以适合数据时,我得到了结果如下:

SELECT
    COUNT(city) - COUNT(DISTINCT city) AS diff
FROM station;

从第一行可以看到,Bins在lightgbm中是什么意思,我在哪里可以获取详细信息,请转到paper fo lightgbm?

非常感谢!

3 个答案:

答案 0 :(得分:1)

作为初学者,我认为您不需要对max_bin参数考虑太多。

LightGBM根据参数max_bin的二进制功率来优化数据集存储。 例如,max_bin = 255允许使用8位存储单个值。 max_bin = 63仅需要6位,而max_bin = 15仅需要4位。 这种优化允许以较小的内存占用空间训练大型数据集,例如仅使用611MB RAM在GPU上具有63个bin的Higgs 10M。 默认值为255(GPU默认值为16)。

答案 1 :(得分:1)

Binning 是一种在离散视图(直方图)中表示数据的技术。 Lightgbm 使用基于直方图的算法来找到最佳分割点,同时创建弱学习器。因此,每个连续的数字特征(例如视频的观看次数)都应拆分为离散的 bin。在此处输入图片说明

enter image description here

此外,在此 GitHub 存储库中,您可以找到一些全面的实验,它们完全解释了更改 max_bin 对 CPU 和 GPU 的影响。在此处输入图片说明

enter image description here

如果您定义 max_bin 255,这意味着每个特征最多可以有 255 个唯一值。那么小的 max_bin 会导致更快的速度,大的值会提高准确性。

答案 2 :(得分:0)

它实际上是指参数max_bin。该参数控制在学习之前如何将数据划分为bin。默认值为255,建议您最后调整此参数。此参数有待进一步说明,但与您的问题无关。

您要询问的详细信息只是在训练模型之前简单地告诉您有多少数据仓。