我的Weka OneR模型都返回了看似过度套装的东西,最后带有问号,导致某些结果如此:
FollowersMeanCoords_Col:
< 0.33340000000000003 -> False
>= 0.33340000000000003 -> True
? -> False
(114357/163347 instances correct)
这个OneR只是说“我找不到任何东西,所以我们假设其余的都是假的”?但是,为什么日期有明显的减少(0.33以下的一切都是假,高于或等于是真)?有没有办法防止这种情况?
提前致谢!
答案 0 :(得分:1)
?
指的是缺失值 - 您的训练数据必须在某些情况下缺少FollowersMeanCoords_Col
个值。
问题中的模型表示,如果实例(数据点)的FollowersMeanCoords_Col
小于0.3334 ...,或缺失,则会将实例归类为{{ 1}},否则会将其归类为False
。
OneR是一种非常简单的分类算法,它通过从训练数据中找到一个属性来工作,该属性在用于制定分类规则时给出的误差最小。对于OneR to overfit ,需要有一个属性恰好对训练数据进行分类,但并未对未来的测试数据进行推广。 OneR更有可能为您提供稳健但不准确的模型。