应用错误收集

我的目标是识别航拍照片上的建筑物的足迹。听说过机器视觉（ImageNet大规模视觉识别挑战）的最新进展，我虽然可以（至少）尝试使用神经网络来完成这项任务。

任何人都可以告诉我这个网络的拓扑结构应该是什么？我猜它应该有尽可能多的输出作为输入（这意味着图片中的所有像素），因为我想要识别建筑物的轮廓，并在图片上放置（至少是近似的）位置。

我猜输入图片应该是标准尺寸，每个像素标准化为灰度或YUV色彩空间（每种颜色1个值），并且可能是标准化分辨率（每个像素应该代表实际的固定尺寸）。我不确定在输入网络之前是否可以以任何其他方式对图片进行预处理，可能先通过提取边缘进行处理？

棘手的部分是如何表示输出以及如何训练网络。仅使用例如对于建筑物足迹内的像素，输出= 0，对于其外的像素，输出为1，可能不是最佳选择。也许我应该教网络识别建筑物的边缘，这样代表建筑物边缘的像素应该为剩下的像素分别为1和0？

有人可以提出一些有关网络拓扑/输入/输出格式的建议吗？或许这个任务很难完成，我有机会解决它？

我认为我们需要更好地定义＆＃34;建筑物＆＃34;。如果你想建立＆＃34;检测＆＃34;，即检测任何形状/大小的建筑物的存在，这对于级联分类器来说是困难的。不过，您可以尝试以下方法：

现在，您可以再次对图像进行分区，并使用训练有素的分类器来获得结果。结果必须结合起来识别建筑物。

这仍然需要一些测试才能获得参数（直方图的大小，SVM分类器的参数等）。

我用这种方法来检测食物＆＃34;图像上的区域。准确度低于70％，但我的猜测是它对建筑物会更好。