Weka的不同测试选项意味着什么?

时间:2016-11-30 19:19:27

标签: machine-learning classification weka cross-validation training-data

所以我最近开始使用Weka,并且在使用例如J48构建树时有几个测试选项。以下是选项,包括我的未知选项:

  1. 使用训练集 - 我知道它非常乐观,并不一定有用。即使Weka's documentation at 2.1.5也不是太具体。
  2. 提供的测试集 - 非常不言自明,您可以为它提供测试集。
  3. 交叉验证 - 我通过阅读this简短示例了解到这一点。
  4. 百分比分割 - 我认为这意味着将数据集划分为两组特定百分比,一组用于培训,一组用于测试。
  5. 我想知道的是训练集(第一个选项)到底是什么以及它做了什么。它从哪里获得这个训练集以及它准确测试了哪些数据?如果你能纠正我对其他人的理解,如果这是错的。

2 个答案:

答案 0 :(得分:1)

第一个选项仅表示"使用加载的所有数据运行此算法"。你选择这个

  • 尝试一下,
  • 首先查看输出中的结果部分
  • 检查性能/运行持续时间,
  • 检查Weka的输出是否与不同软件的相同算法的实现匹配,例如R或Matlab。
  • ...

答案 1 :(得分:1)

选项一是:

测试集=训练集

由此产生的分数当然容易过度拟合,这就是为什么它“非常乐观而且不一定有用”。