应用错误收集

在Weka中使用聚类进行预测

时间：2013-04-28 14:22:17

标签： algorithm user-interface attributes cluster-analysis weka

我可以使用聚类（例如使用k-means）在Weka中进行预测吗？

我有一些基于总统选举研究的数据。我有问卷（数字属性）的答案，我有一个属性是问题的答案你打算投票？（1,2或3）

我在Weka中使用一些分类器（例如Bayes）进行预测。我的结果基于答案（投票意向），我有大约60％的回忆率（正确预测率）。

我知道聚类是另一回事，但是我可以使用聚类来进行预测吗？我已经尝试过，但我已经意识到聚类总是选择自己的质心，并且它不会使用我的投票意向问题。

2 个答案:

答案 0 :(得分：3)

Explain results of K-means

必须是你的同事。他似乎使用相同的数据集，如果我们都可以查看数据，那将会很有帮助。

通常，聚类不是分类或预测。

但是，您可以尝试使用从群集中获取的信息来改进分类。两种这样的技术：

将您的数据集替换为集群中心，并将其用于分类（至少如果您的集群对于类标签来说是相当纯净的话！）
在每个群集上训练一个单独的分类器，并从中构建一个整体（特别是，如果你的群集是不均匀的）

但我相信你对分类或聚类的理解还不足以试验这些。您需要仔细处理它们，并且非常了解您的数据。

答案 1 :(得分：0)

是。您可以使用Weka界面通过群集进行预测。首先，使用预处理选项卡上传您的培训数据。然后，转到分类标签，在分类器下，点击选择，然后在元下，选择 ClassificationViaClustering < / strong>即可。 weka使用的默认聚类算法是SimpleKMean，但您可以通过单击选项字符串（即选择按钮旁边的文本）更改它，weka将显示一个消息框，单击选择，将列出一组聚类算法供选择（例如EM）。之后，您可以像使用weka进行分类时一样单击set来进行交叉验证或上传测试数据。

希望这可以帮助任何有同样问题的人！