如何将数据集划分为火车和测试集?

时间:2017-05-02 21:39:12

标签: java hadoop mapreduce classification data-mining

我尝试使用朴素贝叶斯分类算法和map-reduce框架对数据集进行分类。 我的问题是如何将数据集划分为训练和测试集来计算校正和错误分类实例的准确度?

1 个答案:

答案 0 :(得分:0)

您可以使用RemovePercentage过滤器 训练集: 1.加载完整数据集 2.在预处理面板中选择RemovePercentage过滤器 3.设置拆分的正确百分比 4.应用过滤器 5.将生成的数据保存为新文件

测试集: 1.加载完整数据集(或只使用撤消将更改还原为数据集) 2.如果尚未选择,请选择RemovePercentage过滤器 3.将invertSelection属性设置为true 4.应用过滤器 5.将生成的数据保存为新文件