我已经学习了决策树,但是现在我想使用该决策树来预测新数据 已知班级
我有:
Tid : 1 2 3 4 5 6 7 8 9 10
Refund : Yes No No Yes No No Yes No No No
MaritalStatus : Single Maried Single Maried Divorced
Maried Divorced Single Maried Single
TexableIncome : 125K 100K 70K 120K 95K 60K 220K 85K
75K 90K
Cheat (this attribute is class) : No No No No Yes No No Yes
No Yes
在上面的训练决策树中使用了这些数据后,我得到了一棵树,但是在此之后,我有了数据,我不知道要使用的树,所以我要预测一个树
Tid : 11 12 13 14 15
Attrib1 : No Yes Yes No No
Attrib2 : Small Medium Large Small Large
Attrib3 : 55k 80k 110k 95k 67k
Class : ? ? ? ? ? (I want to predict this by my first tree)
答案 0 :(得分:0)
在训练集的所有可用属性上训练决策树模型。导致标签(类)预测的所有决策均基于这些特定属性。因此,您的预训练模型只能应用于至少包含训练集所有属性的示例集(请注意,学习算法会忽略具有“ id”等特殊角色的属性)。
在您的示例中,模型依赖于Refund
,MaritalStatus
和TexableIncome
(拼写?),但是要为其预测标签的第二个数据集具有属性Attrib1
,Attrib2
和Attrib3
。即使简单的重命名也不可行,因为MaritalStatus
:Divorced, Single, Maried
(还是拼写?)和Attrib2
:Small, Medium, Large
之间可能的值类型不同。