Question

我正在尝试使用weka来分析一些数据。我有一个包含3个变量和1000多个实例的数据集。

数据集引用了电影重拍和

它们有多相似（0.0-1.0）
电影和重拍之间的年份差异
最后如果他们是由同一个工作室制作（是或否）

我正在尝试制作一个决策树来分析数据。使用J48（因为这是我曾经使用过的）我只得到一片叶子。我假设我做错了什么。任何帮助表示赞赏。

以下是数据集的摘录：

Similarity  YearDifference  STUDIO TYPE
    0.5         36              No
    0.5         9               No
    0.85        18              No
    0.4         10              No
    0.5         15              No
    0.7         6               No
    0.8         11              No
    0.8         0               Yes
    ...

如果有兴趣，可以将数据下载为csv http://s000.tinyupload.com/?file_id=77863432352576044943

Answer 1

您的数据集不均衡，因为几乎是其中的5倍＆＃34;否＆＃34;那么＆＃34;是＆＃34;对于class属性。这就是为什么J48是树，实际上只是一片叶子将所有东西归类为＆＃34; NO＆＃34;。你可以做以下事情之一：

对您的数据集进行采样，以使您具有相同数量的“否”和“是”
尝试使用更好的分类算法，例如随机森林（它位于Weka explorer GUI中J48下面的几个空间）

Weka决策树

1 个答案: