以下问题使我非常困惑。可以帮我吗?(最好是找到一些学术参考。)
我们通常使用base-2对数函数来计算决策树中的熵,这是因为大多数节点仅允许二进制分支吗?
如果我想要一个具有许多分支的节点,log2在理论上仍然有效吗?
例如,在Xgboost中,训练集输入应采用矩阵形式,我认为这意味着我们只能将数值作为输入。
非常感谢您!
答案 0 :(得分:1)
对数的基数2几乎可以肯定是因为我们喜欢以位为单位来测量熵。这只是一个约定,有些人使用基数e(用nat代替位)。
我不能谈论Xgboost,但是对于离散决策问题,熵作为一种性能指标而发挥作用,而不是直接由于树结构而产生。您可以仅根据熵的定义来计算任何拆分的信息增益(使用任何分支因子)。
如果您正在寻找一本有关信息论和概率的书,我强烈推荐MacKay(提供完整的PDF)。他涵盖了相当多的机器学习和统计知识。但是,决策树并未涵盖。