我正在尝试使用weka来分析一些数据。我有一个包含3个变量和1000多个实例的数据集。
数据集引用了电影重拍和
我正在尝试制作一个决策树来分析数据。使用J48(因为这是我曾经使用过的)我只得到一片叶子。我假设我做错了什么。任何帮助表示赞赏。
以下是数据集的摘录:
Similarity YearDifference STUDIO TYPE
0.5 36 No
0.5 9 No
0.85 18 No
0.4 10 No
0.5 15 No
0.7 6 No
0.8 11 No
0.8 0 Yes
...
如果有兴趣,可以将数据下载为csv http://s000.tinyupload.com/?file_id=77863432352576044943
答案 0 :(得分:0)
您的数据集不均衡,因为几乎是其中的5倍"否"那么"是"对于class属性。这就是为什么J48是树,实际上只是一片叶子将所有东西归类为" NO"。你可以做以下事情之一: