我在数据集上运行J48算法,在输出中我得到这样的结果:
J48 pruned tree
------------------
attribute1 = n: class1 (253.41/3.75)
attribute1 = y
| attribute2 = n: class2 (145.71/4.0)
| attribute2 = n: class1 (40.68/3.0)
我想知道括号中的内容是什么意思。我在某处读到第一个值是正确分类的实例,因为那个选择,第二个值是多少错误。但这怎么可能是十进制数?你如何正确地分类0.41?
答案 0 :(得分:1)
我在这里找到了答案: http://weka.wikispaces.com/What+do+those+numbers+mean+in+a+J48+tree%3F
基本上它将实例与缺失值分开,并且在所有树中都算作一个小数实例。
答案 1 :(得分:0)
对于示例数据集:https://www.cs.vassar.edu/~cs366/data/weka_files/vote.arff Weka中的Vote.arff
决策树结果:医师费用冻结= n:民主党人(253.41 / 3.75)。
第一个数字表示到达该节点的正确事物的数量。 (在该民主党人中),“ /”后面的第二个数字表示到达该节点的不正确物体的数量(在本例中为共和党人)
实例总数:435 没有的总数(也是正确的东西的整数):253 没有的概率:253/435 = 0.58
丢失的数据总数:11 出现“否”的总次数:8 概率:8/11 = 0.72
丢失数据可能为空的总概率:0.58 X 0.72 = 0.42
正确的总数:253 + 0.42 = 253.42〜253.41
“ /”后面的数字表示到达该节点的错误物体的数量。现在,如果您看到此数据,则有五个不正确的实例,其中结果是“共和党”,而“医师冻结费”是“ n”(或“?”)
这五个可以分为以下几类: “ n”个不正确实例总数:2 带有“?”的错误实例总数:3
类似公式:
2+(253/435)* 3 = 3.75