如何用weka做预测

时间:2015-03-16 10:56:01

标签: weka k-means prediction

我正在使用weka进行一些文本挖掘,我有点困惑所以我在这里问我怎么能(有一组评论在某种程度上归类为:笔记,工作状态,不符合,警告)预测新评论是否属于特定类,所有评论(9551)我已经使用过滤器" stringtowordvector"完成了预处理过程。一个标记的向量,然后我使用简单的kmeans来获得一些集群。 所以问题是:如果用户发布新评论我可以用这些数据预测它是否属于评论类别吗? 对不起,如果我的问题有点困惑,但我也是。 谢谢

1 个答案:

答案 0 :(得分:1)

琐碎的培训 - 验证 - 测试

  1. 从标记的实例中创建两个数据集。一个是训练集,另一个是验证集。训练集将包含约60%的标记数据,验证将包含40%的标记数据。这种分裂没有硬性规定,但60-40分割是一个不错的选择。
  2. 在训练数据上使用K-means(或任何其他聚类算法)。开发模型。在训练集上记录模型的错误。如果错误很低且可以接受,那你很好。保存模型。
  3. 目前,您的验证集将是您的测试数据集。应用您在验证集上保存的模型。记录错误。训练错误和验证错误有什么区别?如果它们都很低,那么该模型的推广“看似”很好。
  4. 准备一个测试数据集,其中包含训练和测试数据集的所有功能,但类/群集未知。
  5. 将模型应用于测试数据。
  6. 十倍交叉验证

    1. 使用所有标记的数据实例执行此任务。
    2. 使用10倍CV设置应用K-means(或您选择的任何其他算法)。
    3. 记录训练错误和CV错误。他们低吗?错误之间的区别是低吗?如果是,则保存模型并将其应用于类/集群未知的测试数据。
    4. 注意:训练/测试/验证错误及其差异将为您提供模型过度拟合/不合适的“非常初步”的想法。他们是健全测试。您需要执行其他测试,例如学习曲线,以查看您的模型是否过度或不合适或完美。如果出现过度拟合和难以接合的问题,您需要尝试许多不同的技术来克服它们。