数字或分类分裂?

时间:2017-12-01 14:24:23

标签: split classification decision-tree information-retrieval information-gain

我正在构建决策树分类器,我找到了这种计算信息增益的方法。  这可能是一个愚蠢的问题,但我想知道这种方法中的分裂是用于数字还是  分类属性?我很困惑,因为我认为数字使用了一个阈值(中位数)  split,但此方法使用String值。

感谢任何帮助。

以下是代码:

    public static double getInfoGain(int f, ArrayList<String[]> dataSubset) {
            double entropyBefore = getEntropy(dataSubset); //Entropy before split
            if(entropyBefore != 0){ // Calculate information gain if entropy is not 0
                String threshold = thresholdMap.get(f); // Get threshold value of the feature
                ArrayList<String[]> leftData = new ArrayList<String[]>();
                ArrayList<String[]> rightData = new ArrayList<String[]>();
                for(String[] d : dataSubset) {
                    if(d[f].equals(threshold)) {
                        leftData.add(d); // If feature value of data == threshold, add it to leftData
                    } else {
                        rightData.add(d); // If feature value of data != threshold, add it to leftData
                    }
                }
                if(leftData.size() > 0 && rightData.size() > 0) {
                    double leftProb = (double)leftData.size()/dataSubset.size(); 
                    double rightProb = (double)rightData.size()/dataSubset.size();
                    double entropyLeft = getEntropy(leftData); //Entropy after split - left
                    double entropyRight = getEntropy(rightData); //Entropy after split - right
                    double gain = entropyBefore - (leftProb * entropyLeft) - (rightProb * entropyRight);
                    return gain;
                } else { // If entropy = 0 on either subsets of data, return 0
                    return 0;
                }
            } else { // If entropy = 0 before split, return 1
                return -1;
            }
        }

1 个答案:

答案 0 :(得分:0)

虽然您指向的代码使用阈值术语,但如果您查看注释,则会以分类或二进制方式使用它们。

if(d[f].equals(threshold)) {
   leftData.add(d); // If feature value of data == threshold, add it to leftData
} else {
   rightData.add(d); // If feature value of data != threshold, add it to leftData
}

我强烈建议您查看教科书中的算法或Wikipedia作为参考,而不是直接转到代码。或者,如果您发现自己需要代码示例,我会在Github上寻找更高质量(三维)的存储库。

  1. 您想学习具有明确许可证的代码。在许多地方,没有许可证就相当于专有权,尽管Github隐含了开源性质,但这在法律上并不准确。
  2. 您想要学习人们使用的代码。在github上还有更多的决策树算法实现,它们具有超过零星和问题。
  3. 如果做不到这一点,你想学习有测试的代码(一个指示和一个机会来测试它是否真的适合你自己)。
  4. 理想情况下,您需要许多信任迹象。如果我去github,搜索决策树,检查Java,按大多数星标排序,我自己查看sanity/quickmlsaebyn/java-decision-tree之一。