如何在训练网络时防止图像数据冗余?

时间:2017-03-08 13:10:11

标签: python image-processing tensorflow neural-network deep-learning

我有大量不同和随机大小的图像。

我想确保这一点 - 我的训练集不是多余的 - 我的测试集中的数据都不同(来自测试集和训练集中的其他数据)

通过不冗余,我的意思是基本上检查图像是否不是另一个图像的裁剪版本(或最大范围内的相同图像)。

在网上工作时,您如何处理此类案件? 某种方式可能已准备好以某种方式插入Tensorflow?

感谢您的帮助

ķ。

2 个答案:

答案 0 :(得分:1)

你要做什么:

将第一张图像添加到集合(A)中,然后逐个解析剩余图像,并将这些图像仅添加到(A)(A)中所有图像的DIFFERS。继续迭代到最后一张图像。现在使用set(A)图像进行训练和测试说80%的(A)用于训练休息以进行测试

如何确定:冗余?

简单来说,两个缩放的方形图像相同或多余,因为它们都具有四个直角(或特征)。如果裁剪了一个方形图像,那么它也会有至少2个匹配的角(或匹配的特征)。

因此,为了确定冗余图像,您需要查找图像的本地特征,然后计算匹配的特征数量

这可以通过 SIFT(尺度不变特征变换)和其他技术来实现,例如 SURF局部特征检测器。使用this文章来获得基本的理解。

答案 1 :(得分:0)

好像http://geeqie.sourceforge.net/正在做的伎俩

谢谢@ThomasPinetz

ķ。