我有一组“goob”和“bad”图像,呈现为灰度数组。我想从这些图像中提取“好”和“坏”的特征并填充字典。 这是我的高级算法来完成这项任务:
img_mtx [ img_mtx.shape = (10, 255, 255)
] image.PatchExtractor
优先于img_mtx
获取每张图片的1000个补丁,总计10000 7x7像素patches
[patches.shape = (10000, 49)]
patches
矩阵就像一个单词包,我想为每个图像创建一个稀疏的补丁矩阵,并为每个图像设置“好”或“坏”类。 / LI>
但我在这里遇到了一些问题:
......或者我采取了完全错误的方法来完成这项任务?
答案 0 :(得分:1)
您应该首先考虑一下您的任务有哪些好的功能。此外,您应该考虑图像是否始终是相同的形状并对齐。 如果您认为描述补丁是个好主意,您可能需要查看标准图像功能,如SIFT或SURF或BRIEF - 可能会查看scikit-image,opencv或mahotas - 尽管只有原始补丁可能是第一步。 如果你想使用补丁描述符并想要抛弃空间排列(这将是单词方法的包),你需要聚集描述符,然后在“单词”上构建直方图。然后,您可以训练直方图并获得整个图像的单一预测。关于此,有大量的文献,不知道什么是一个好的开始点。也许看看Szeliski在Computer Vision上的书。