分析WEKA上的数据集

时间:2018-01-03 10:08:29

标签: classification weka training-data

我是WEKA的新手,如果有人能帮我理解我是否正确使用WEKA,我会问你。

1)我有一个Dat set,包括11377记录,分类如下:

  1. 11111条记录有类YES
  2. 266条记录有NO类
  3. (出于某种原因,我只能使用J48算法进行分类) 当我为分类选择J48算法时,模型将类别“NO”错误地分类,因为类分布是不平衡的。 我该怎么做才能以正确的方式解决这个问题?

    2)在平衡了类之后,我必须将数据集划分为测试集和训练集,但是WEKA上最好/右边的过滤器是做什么的?

    3)当数据通过预处理阶段后,一旦选择了Classify表格中的J48算法,我应该测试什么?训练或测试集? 我有多少次重复测试?

    提前致谢!

1 个答案:

答案 0 :(得分:0)

这是一种方法。 在“预处理”选项卡中,使用ClassBalancer过滤器(在“受监督的实例”下)。 这将使用权重,以便您的YES和NO具有相同的权重。

在“分类”选项卡中,选择“训练”和“测试”之间的百分比分割。默认值为66%训练,34%测试。这将随机选择。

(如果您想查看结果是否取决于完全随机分割,您可以使用不同的随机开始多次运行 - 在百分比分割下,您将看到“更多选项”按钮。单击那里和您将看到Random Seed设置为默认值1.将其更改为任何其他正整数。)

您应该能够从多种算法中进行选择,而不仅仅是J48。不确定为什么会这样。

请注意,一旦得到结果,这些将反映加权实例,您可能需要进行转换(即采用该混淆矩阵并将其转换回实际的YES和NO数)。