我正在使用weka进行一些文本挖掘,我有点困惑所以我在这里问我怎么能(有一组评论在某种程度上归类为:笔记,工作状态,不符合,警告)预测新评论是否属于特定类,所有评论(9551)我已经使用过滤器" stringtowordvector"完成了预处理过程。一个标记的向量,然后我使用简单的kmeans来获得一些集群。 所以问题是:如果用户发布新评论我可以用这些数据预测它是否属于评论类别吗? 对不起,如果我的问题有点困惑,但我也是。 谢谢
答案 0 :(得分:1)
琐碎的培训 - 验证 - 测试
十倍交叉验证
注意:训练/测试/验证错误及其差异将为您提供模型过度拟合/不合适的“非常初步”的想法。他们是健全测试。您需要执行其他测试,例如学习曲线,以查看您的模型是否过度或不合适或完美。如果出现过度拟合和难以接合的问题,您需要尝试许多不同的技术来克服它们。