目前,我参与了一些与数据挖掘相关的项目。并且,我将使用GINIsplit作为分裂标准的决策树归纳将给定数据集(.csv格式)分类到不同的类中。所有这些我一直在java平台上做,不使用任何工具,例如WEKA,ORANGE ......等。
我的查询是 - 什么是最好的数据结构来表示决策树,以便分类快速有效?并且,是否有任何属性方面的优化技术,我的意思是,如果属性是名义或数字或序数的特定技术?
提前致谢!
答案 0 :(得分:2)
好吧,如果您真的想拥有最佳分类速度,请将决策树输出到... .class
。即生成树的代码片段,并进行编译。这样,可以使用Java Hotspot JRE的本机速度执行评估。
因为可以在程序逻辑中编码决策树:
if (attribute_x < 0.1) {
switch(attribute_c) {
case BANANA: {
...
主要问题是,希望进行此优化的程度。