我怀疑。我理解交叉验证和拆分概念,分类器将从训练数据中学习并测试分析测试数据。
如果我首先使用“使用训练数据”运行分类,然后在分类选项卡中跟进“已提供的测试集”选项并再次运行,是否会发生同样的事情。
为了在分类标签中更清楚,我运行了两次...首先在预处理选项卡上上传训练数据集,然后运行在分类选项卡“提供的测试集”optoin中上传的测试集。因此,在执行测试数据时,模型是否使用之前完成的培训?
我使用了朴素贝叶斯分类器。另外我怀疑所有的分类器是从训练数据中学习还是只是像神经网络这样的分类器,决策树呢?
答案 0 :(得分:2)
您在“分类标签”中提到的选项允许您选择如何评估已构建的模型。每次在分类选项卡中按“开始”时,都会构建一个新的分类器。对于您列出的选项,此分类器将使用“预处理”选项卡中的整个当前数据集。 无论您提供测试数据集,还是使用培训数据,都将构建相同的分类器。在构建新分类器时,Weka不会使用先前构建的分类器中的任何信息,至少以您描述的方式。
两个测试选项之间的区别如下:
“使用训练数据”将使用构造的分类器来预测训练实例。此选项通常会对分类器的未来表现给出过于乐观的估计。
“提供的测试集”将使用独立的测试集。鉴于此测试集是以公平的方式构建的,您应该对分类器的未来性能进行无偏估计。
为了解决您的上一个问题,大多数分类器尝试从训练数据中引出模型。这通常被认为是学习。但是,某些分类器(如IBk)不会导致模型,而是使用训练数据本身来进行未来预测。这些都是相当精确的点,最好只说所有 Weka分类器根据训练数据做出预测。