应用错误收集

如何用weka做预测

时间：2015-03-16 10:56:01

标签： weka k-means prediction

我正在使用weka进行一些文本挖掘，我有点困惑所以我在这里问我怎么能（有一组评论在某种程度上归类为：笔记，工作状态，不符合，警告）预测新评论是否属于特定类，所有评论（9551）我已经使用过滤器＆＃34; stringtowordvector＆＃34;完成了预处理过程。一个标记的向量，然后我使用简单的kmeans来获得一些集群。所以问题是：如果用户发布新评论我可以用这些数据预测它是否属于评论类别吗？对不起，如果我的问题有点困惑，但我也是。谢谢

1 个答案:

答案 0 :(得分：1)

琐碎的培训 - 验证 - 测试

从标记的实例中创建两个数据集。一个是训练集，另一个是验证集。训练集将包含约60％的标记数据，验证将包含40％的标记数据。这种分裂没有硬性规定，但60-40分割是一个不错的选择。
在训练数据上使用K-means（或任何其他聚类算法）。开发模型。在训练集上记录模型的错误。如果错误很低且可以接受，那你很好。保存模型。
目前，您的验证集将是您的测试数据集。应用您在验证集上保存的模型。记录错误。训练错误和验证错误有什么区别？如果它们都很低，那么该模型的推广“看似”很好。
准备一个测试数据集，其中包含训练和测试数据集的所有功能，但类/群集未知。
将模型应用于测试数据。

十倍交叉验证

使用所有标记的数据实例执行此任务。
使用10倍CV设置应用K-means（或您选择的任何其他算法）。
记录训练错误和CV错误。他们低吗？错误之间的区别是低吗？如果是，则保存模型并将其应用于类/集群未知的测试数据。

注意：训练/测试/验证错误及其差异将为您提供模型过度拟合/不合适的“非常初步”的想法。他们是健全测试。您需要执行其他测试，例如学习曲线，以查看您的模型是否过度或不合适或完美。如果出现过度拟合和难以接合的问题，您需要尝试许多不同的技术来克服它们。