Weka决策树

时间:2014-12-08 19:58:40

标签: csv tree dataset weka

我正在尝试使用weka来分析一些数据。我有一个包含3个变量和1000多个实例的数据集。

数据集引用了电影重拍和

  • 它们有多相似(0.0-1.0)
  • 电影和重拍之间的年份差异
  • 最后如果他们是由同一个工作室制作(是或否)

我正在尝试制作一个决策树来分析数据。使用J48(因为这是我曾经使用过的)我只得到一片叶子。我假设我做错了什么。任何帮助表示赞赏。

以下是数据集的摘录:

Similarity  YearDifference  STUDIO TYPE
    0.5         36              No
    0.5         9               No
    0.85        18              No
    0.4         10              No
    0.5         15              No
    0.7         6               No
    0.8         11              No
    0.8         0               Yes
    ...

如果有兴趣,可以将数据下载为csv http://s000.tinyupload.com/?file_id=77863432352576044943

1 个答案:

答案 0 :(得分:0)

您的数据集不均衡,因为几乎是其中的5倍"否"那么"是"对于class属性。这就是为什么J48是树,实际上只是一片叶子将所有东西归类为" NO"。你可以做以下事情之一:

  1. 对您的数据集进行采样,以使您具有相同数量的“否”和“是”
  2. 尝试使用更好的分类算法,例如随机森林(它位于Weka explorer GUI中J48下面的几个空间)