我有一个数据集,其中包含糖尿病患者和未患糖尿病患者。使用这些数据,我想训练一个模型来计算糖尿病状态未知的人的风险概率。我知道大多数在培训中未被诊断患有糖尿病的人没有患糖尿病,但其中一些人可能患有未确诊的糖尿病。
这似乎呈现出第22个局面。我想确定那些处于危险中或可能患有未确诊糖尿病的人,但我知道我的训练数据集中的一些人被错误地标记为没有患有糖尿病,因为他们尚未被诊断出来。有人遇到过这样的问题吗?如果只有一小部分数据可用,那么仍然可以根据可能存在一些标记错误的数据进行处理吗?
答案 0 :(得分:1)
可能有几种方法可以解决您的问题。
首先 - 毕竟它可能不是问题。如果错误标记的数据占您训练集的一小部分,则可能无关紧要。实际上,在某些情况下,添加错误标记的数据或只是随机噪声可以提高分类器的稳健性和泛化能力。
第二 - 您可能希望使用训练集来训练分类器,然后检查分类器给出错误分类的数据点。分类器可能实际上是正确的,并将您引导到标记不正确的数据。如果可能的话,可以随后手动检查这些数据。
第三 - 您可以使用共识过滤器等方法预先过滤数据。本文可能是开始研究此主题的好方法:Identifying Mislabeled Training Data - C.E. Brody and M.A. Friedl。