python - 如何在训练网络时防止图像数据冗余？

时间：2017-03-08 13:10:11

标签： python image-processing tensorflow neural-network deep-learning

我有大量不同和随机大小的图像。

我想确保这一点 - 我的训练集不是多余的 - 我的测试集中的数据都不同（来自测试集和训练集中的其他数据）

通过不冗余，我的意思是基本上检查图像是否不是另一个图像的裁剪版本（或最大范围内的相同图像）。

在网上工作时，您如何处理此类案件？某种方式可能已准备好以某种方式插入Tensorflow？

感谢您的帮助

ķ。

答案 0 :(得分：1)

你要做什么：

将第一张图像添加到集合（A）中，然后逐个解析剩余图像，并将这些图像仅添加到（A）（A）中所有图像的DIFFERS。继续迭代到最后一张图像。现在使用set（A）图像进行训练和测试说80％的（A）用于训练休息以进行测试

如何确定：冗余？

简单来说，两个缩放的方形图像相同或多余，因为它们都具有四个直角（或特征）。如果裁剪了一个方形图像，那么它也会有至少2个匹配的角（或匹配的特征）。

因此，为了确定冗余图像，您需要查找图像的本地特征，然后计算匹配的特征数量。

这可以通过 SIFT（尺度不变特征变换）和其他技术来实现，例如 SURF局部特征检测器。使用this文章来获得基本的理解。

答案 1 :(得分：0)

谢谢@ThomasPinetz

ķ。