您好我一直在做一个关于预测给定(查询,答案)对是否匹配的机器学习项目(如果它是一个好的匹配,则将该对标记为1,否则为0)。但问题是,在训练集中,所有项目都标有1.所以我感到困惑,因为我不认为训练集具有强大的判别力。更具体地说,现在我可以提取一些功能,如: 1.查询和答案之间的文本相似性 2.一些属性,如发布日期,创建者,哪个方面等等。
也许我应该尝试半监督学习(从未研究过它所以不知道它是否会起作用)?但是有了这样的训练集,我甚至无法进行验证....
答案 0 :(得分:0)
实际上,你可以训练一个只有正面例子的数据集; 1级SVM就是这样做的。然而,这假定在原始数据集“足够”之外的任何东西都是负数据,“足够外部”主要受伽马(允许的错误率)和k(核函数的程度)的影响。
问题的解决方案取决于您拥有的数据。如果给出代表性的负面例子,模型训练得更好是完全正确的。您提供的说明强烈建议您做知道匹配不足。
你需要对比赛进行严格的+/-得分吗?大多数应用程序只是对它们进行排名:匹配强度是分数。这会将您的问题从分类更改为预测案例。如果你确实需要一个严格的+/-分区(分类),那么我建议你略微改变你的训练集:只包括明显的例子:扔出任何得分接近你的舒适阈值来宣布比赛。
仅使用这些输入,训练您的模型。你会在好的和坏的比赛之间有一个明确的“小巷”,模型将“决定”判断测试和生产中间案例的方式。