图像上的机器学习-通过创建当前数据集图像的旋转副本来扩展数据集是个好主意吗?

时间:2018-06-26 04:15:04

标签: image matlab image-processing machine-learning deep-learning

我有不同类别的医学X射线图像,但数量不相等。每个类别中的图像数量从十到数千不等。如果我无法在每个类中获取更多图像,那么通过在当前数据集中创建图像的旋转副本来扩展当前数据集是个好主意吗?

1 个答案:

答案 0 :(得分:0)

您是否需要每个类别中的图像数量相等?从我对训练图像处理算法的了解有限,您拥有的图像越多,您的算法就可以适用于各种测试图像的信心就越大。因此,如果您要在人体的不同部位上测试算法,并且人体的每个部位都有不同数量的图像,那么对于算法在人体不同部位上的表现效果,您将获得不同的置信度。身体(训练图像越少,您对算法对于各种输入图像的鲁棒性的信心就越低。)

测试图像的多样性是关键概念。您已提出旋转图像以使算法更具多样性。这可能有效,但也可能会引起问题,因为轮换可能会在数据中产生artifacts /人为错误,这些错误在原始原始数据中从未出现过。这可能会错误地训练您的算法(当这些特征永远不会出现在原始的未旋转数据中时,它可能会开始将这些伪像识别为特征)。

总而言之,我的建议是找到获取更多图像的方法,而不是操纵当前的有限集合并可能不正确地训练算法。