Question

我的Weka OneR模型都返回了看似过度套装的东西，最后带有问号，导致某些结果如此：

FollowersMeanCoords_Col:
    < 0.33340000000000003   -> False
    >= 0.33340000000000003  -> True
    ?   -> False
(114357/163347 instances correct)

这个OneR只是说“我找不到任何东西，所以我们假设其余的都是假的”？但是，为什么日期有明显的减少（0.33以下的一切都是假，高于或等于是真）？有没有办法防止这种情况？

提前致谢！

Answer 1

?指的是缺失值 - 您的训练数据必须在某些情况下缺少FollowersMeanCoords_Col个值。

问题中的模型表示，如果实例（数据点）的FollowersMeanCoords_Col小于0.3334 ...，或缺失，则会将实例归类为{{ 1}}，否则会将其归类为False。

OneR是一种非常简单的分类算法，它通过从训练数据中找到一个属性来工作，该属性在用于制定分类规则时给出的误差最小。对于OneR to overfit ，需要有一个属性恰好对训练数据进行分类，但并未对未来的测试数据进行推广。 OneR更有可能为您提供稳健但不准确的模型。