在Weka中使用聚类进行预测

时间:2013-04-28 14:22:17

标签: algorithm user-interface attributes cluster-analysis weka

我可以使用聚类(例如使用k-means)在Weka中进行预测吗?

我有一些基于总统选举研究的数据。我有问卷(数字属性)的答案,我有一个属性是问题的答案你打算投票?(1,2或3)

我在Weka中使用一些分类器(例如Bayes)进行预测。我的结果基于答案(投票意向),我有大约60%的回忆率(正确预测率)。

我知道聚类是另一回事,但是我可以使用聚类来进行预测吗?我已经尝试过,但我已经意识到聚类总是选择自己的质心,并且它不会使用我的投票意向问题。

2 个答案:

答案 0 :(得分:3)

Explain results of K-means

必须是你的同事。他似乎使用相同的数据集,如果我们都可以查看数据,那将会很有帮助。

通常,聚类不是分类或预测。

但是,您可以尝试使用从群集中获取的信息来改进分类。两种这样的技术:

  • 将您的数据集替换为集群中心,并将其用于分类(至少如果您的集群对于类标签来说是相当纯净的话!)
  • 在每个群集上训练一个单独的分类器,并从中构建一个整体(特别是,如果你的群集是不均匀的)

但我相信你对分类或聚类的理解还不足以试验这些。您需要仔细处理它们,并且非常了解您的数据。

答案 1 :(得分:0)

是。您可以使用Weka界面通过群集进行预测。首先,使用预处理选项卡上传您的培训数据。然后,转到分类标签,在分类器下,点击选择,然后在下,选择 ClassificationViaClustering < / strong>即可。 weka使用的默认聚类算法是SimpleKMean,但您可以通过单击选项字符串(即选择按钮旁边的文本)更改它,weka将显示一个消息框,单击选择,将列出一组聚类算法供选择(例如EM)。之后,您可以像使用weka进行分类时一样单击set来进行交叉验证或上传测试数据。

希望这可以帮助任何有同样问题的人!