neural-network - 使用小输入大小训练深度Convnet

我对这个深度学习领域很陌生。虽然我理解它是如何工作的，但我设法在Caffe Library上运行了一些教程，我仍然有一些问题，我无法找到一些令人满意的答案。

我的问题如下：

考虑AlexNet，它采用227 x 227图像大小作为caffe的输入（我认为在原始论文中它是224），FC7产生4096-D特征向量。现在，如果我想检测一个人说使用尺寸（32 x 64）的滑动窗口，那么在通过AlexNet之前，每个窗口都将升迁到227 x 227。这是一个很大的计算。有没有更好的方法来处理这个（32 x 64）窗口？
我对这个32 x 64窗口探测器的方法是构建我自己的网络，只有很少的卷积，池，ReLus和FC。虽然我理解如何构建体系结构，但我担心我将训练的模型可能会出现过度拟合等问题。我的一位朋友告诉我使用AlexNet预先训练我的网络，但我不知道该怎么做这个？我不能抓住他现在要求，但有人认为他说的是可行的吗？我很迷惑。我正在考虑使用ImageNet并训练我的网络，它将采用32 x 64输入。由于这只是功能提取器，我觉得使用imageNet可能会为我提供各种各样的图像以便学习好吗？如果我错了，请纠正我，如果可能的话，请指导我进入正确的道路。
这个问题只是关于Caffe。假设我使用HOG计算功能，我想使用神经网络的GPU版本来训练分类器。那可能吗？我想用HDF5层读取猪的特征向量并传递完全连接的层进行训练？这可能吗？

我会感谢任何帮助或链接到论文等可能有助于我理解Convnets的想法。