我对这个深度学习领域很陌生。虽然我理解它是如何工作的,但我设法在Caffe Library上运行了一些教程,我仍然有一些问题,我无法找到一些令人满意的答案。
我的问题如下:
考虑AlexNet,它采用227 x 227图像大小作为caffe的输入(我认为在原始论文中它是224),FC7产生4096-D特征向量。现在,如果我想检测一个人说使用尺寸(32 x 64)的滑动窗口,那么在通过AlexNet之前,每个窗口都将升迁到227 x 227。这是一个很大的计算。有没有更好的方法来处理这个(32 x 64)窗口?
我对这个32 x 64窗口探测器的方法是构建我自己的网络,只有很少的卷积,池,ReLus和FC。虽然我理解如何构建体系结构,但我担心我将训练的模型可能会出现过度拟合等问题。我的一位朋友告诉我使用AlexNet预先训练我的网络,但我不知道该怎么做这个?我不能抓住他现在要求,但有人认为他说的是可行的吗?我很迷惑。我正在考虑使用ImageNet并训练我的网络,它将采用32 x 64输入。由于这只是功能提取器,我觉得使用imageNet可能会为我提供各种各样的图像以便学习好吗?如果我错了,请纠正我,如果可能的话,请指导我进入正确的道路。
这个问题只是关于Caffe。假设我使用HOG计算功能,我想使用神经网络的GPU版本来训练分类器。那可能吗?我想用HDF5层读取猪的特征向量并传递完全连接的层进行训练?这可能吗?
我会感谢任何帮助或链接到论文等可能有助于我理解Convnets的想法。
答案 0 :(得分:4)
对于包含完全连接层的CNN,无法更改输入大小。如果网络是在224x224图像上训练的,则输入大小必须为224x224。看看这个question。
从头开始培训自己的网络需要大量数据。 AlexNet接受了一百万张图片的培训。如果您有大量的培训数据(可以下载ImageNet培训数据),那么请继续。否则,您可能需要查看finetuning。
是的,您可以使用HDF5图层来读取HOG特征向量进行训练。