我找不到在lightgbm纸中如何构造bin映射的详细描述。 我对bin映射有几个疑问。
是静态的还是动态的?也就是说,在节点增长期间,bin映射会改变吗?
每个要素维的箱数是否相等?例如,对于一项热门功能,箱数是否等于2?
对于实值特征,垃圾箱的分割点是否均匀分布?还是找到垃圾箱分裂点的任何原则?
答案 0 :(得分:0)
1:容器是预处理的一种形式:在优化之前,每个变量都会转换为离散值。它是针对您的训练数据的,不会改变。
2:有一个参数可以调整以设置最大纸槽数。但是,当然,如果您的功能只有5个不同的值,则只会有5个bin。因此,每个功能可以具有不同数量的垃圾箱。
3:箱的分割点未按相等的宽度选择,而是由频率选择:如果设置100个箱,则将选择分割点,例如每个箱包含大约所有训练点的1%(可能会或多或少取决于您是否具有相等的值)。此过程类似于pandas qcut函数。
希望我能解决您的问题。