标签: python scikit-learn decision-tree
我有一个特定于数据集的问题,我需要使用除gini_index以外的拆分函数。这需要我从头开始重新编写决策树。我有一个工作模型,但是效率很低。
要进行拆分,我当前遍历每个功能,然后遍历该数据集中每个节点的每个唯一数据点(节点总数 x 功能 x 唯一级别的基尼评价)。我的DT在300k X 145数据集上的原因已经运行了2天。
如何减少拆分评估的数量或加快程序的速度。我在Sklean的代码中阅读了Fisher Yates算法,但我不理解其逻辑。任何帮助将不胜感激。