如何清理大型图像数据集以进行深度学习?

时间:2018-08-14 11:54:17

标签: python deep-learning dataset data-cleaning

我有477个类别的大型图像数据集(约500,000张图像)。每个类别都包含一些不相关的图像,因此在模型上进行训练时,模型的准确性是不可接受的。关于类的数量,在人工帮助下花费大量时间手动清理数据集。有什么方法可以自动删除此类图像? (例如机器学习方法或算法)

2 个答案:

答案 0 :(得分:0)

一种可能的方法是使用分类器从数据集中删除不需要的图像,但是这种方法仅对大型数据集有用,并且不如常规方法(手动清理)可靠。例如,可以训练SVM classifier从每个类中提取图像。测试此方法后,将添加更多详细信息。

答案 1 :(得分:0)

我认为,目前最好的(最可靠的)清洁图像数据集的方法是手动操作。可能会有一些技术可以应用。目前,Azure和Amazon ML之类的服务有一些清除数据的方法,但是,我不知道它们是否将其应用于图像(https://docs.microsoft.com/en-us/azure/machine-learning/team-data-science-process/prepare-data)。可以肯定的是,有些公司拥有完善的方法。 也许您会从本文中得到启发:https://stefan.winklerbros.net/Publications/icip2014a.pdf