机器学习-使用算法检查文档有效还是无效

时间:2019-08-23 07:51:22

标签: python machine-learning

我是机器学习的新手。我需要预测文档是否有效。在这里,我只有10000个有效文件(没有任何无效文件)。我看到了一些算法,例如:朴素的Byes,SVM等。这里的概念是训练模型,我们必须提供两种类型的文档(有效和无效),然后只能通过与两种经过训练的文档进行比较来预测文档。

是否有任何流程或算法,使用此流程我们可以说仅使用有效文档就是文档有效或无效(可能以百分比显示,例如40%有效和60%无效)?

1 个答案:

答案 0 :(得分:0)

一种方法可以是进行一个班级分类。在机器学习中,尝试一类分类(OCC) 通过学习来识别特定类别的对象 仅包含该类对象的训练集。的 OCC的任务是在 正(目标)类,以便它接受与 来自积极阶层的机会,同时将机会降到最低 否定(异常)对象的接受。这是一个对休息 分类,在训练过程中未观察到其余部分。在您的情况下,模型将学习对有效文档进行分类和识别,其余均为无效文档。

相关问题