我有一个图像(例如60x60),里面有多个项目。项目采用方形盒子形状,尺寸为4x4,并且随机放置在图像中。框(项)本身是使用随机模式创建的,一些随机像素已打开而其他像素已关闭。因此,它可能是图像中重复两次(或多于2个项目的情况下更多)的相同框,或者可能完全不同。
我正在寻找创建一个深度学习模型,可以接收原始图像(60x60)并输出图像中的所有补丁。
这就是我现在所拥有的一切,但我可以在讨论开始时分享更多细节。我有兴趣权衡可以帮助我实现这一目标的不同选择。感谢。
答案 0 :(得分:1)
我会使用对象检测来解决这个问题。首先,我将训练一个网络,通过剪切这些对象的补丁来检测那些像盒子一样的对象。然后我会在它上面运行更快的R-CNN或类似的东西。
您可能想看一下关于检测的斯坦福讲座(幻灯片在这里:http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf)。