所以我正在研究一个学校项目,我们要做的是教一个神经网络来识别非建筑物的建筑物。我现在遇到的问题是在表单中表示数据,分类器函数可以“读取”。
训练数据是一堆图片+ .wkt文件,其中包含图片上建筑物的坐标。到目前为止,我们已经能够重新调整多边形,但有点卡在那里。
您能否提供任何关于如何将这一切以适当的形式提出的提示或想法?
修改:我不需要为我编写的代码,指向类似主题或图书的文章的链接更多是我正在寻找的内容。
答案 0 :(得分:0)
你没有提到你正在使用的框架,但我会给出一个caffe的答案。
您的问题非常接近于检测图像中的对象。你有完整的图像与对象(在你的情况下建立)边界框。
最简单的方法是通过python数据层读取图像和存储该图像坐标的文件,然后将其输入网络。有关如何使用它的教程可以在这里找到:https://github.com/NVIDIA/DIGITS/tree/master/examples/python-layer 要加速该过程,您可能希望在自定义lmdb数据库中存储图像,坐标对。
最后,可以在Faster-RCNN库中找到一个完整的caffe实现的良好工作示例:https://github.com/rbgirshick/caffe-fast-rcnn/ 您应该检查自定义caffe分支中的roi_pooling_layer.cpp和roi_data_layer,了解数据如何输入网络。