表示决策树归纳的数据结构

时间:2013-01-12 05:47:53

标签: java machine-learning data-mining decision-tree entropy

目前,我参与了一些与数据挖掘相关的项目。并且,我将使用GINIsplit作为分裂标准的决策树归纳将给定数据集(.csv格式)分类到不同的类中。所有这些我一直在java平台上做,不使用任何工具,例如WEKA,ORANGE ......等。

我的查询是 - 什么是最好的数据结构来表示决策树,以便分类快速有效?并且,是否有任何属性方面的优化技术,我的意思是,如果属性是名义或数字或序数的特定技术?

提前致谢!

1 个答案:

答案 0 :(得分:2)

好吧,如果您真的想拥有最佳分类速度,请将决策树输出到... .class。即生成树的代码片段,并进行编译。这样,可以使用Java Hotspot JRE的本机速度执行评估。

因为可以在程序逻辑中编码决策树:

if (attribute_x < 0.1) {
    switch(attribute_c) {
        case BANANA: {
            ...

主要问题是,希望进行此优化的程度。