我有一个输入图像416x416。如何创建4 x 10的输出,其中4是列数,10是行数?
我的标签数据是包含4列10行的2D数组。
我知道reshape()
方法,但它要求结果形状与输入具有相同数量的元素。
使用416 x 416输入大小和最大池层,我可以获得最大13 x 13
输出。
有没有办法在不丢失数据的情况下实现4x10
输出?
我的输入标签数据类似于
[[ 0 0 0 0]
[ 0 0 0 0]
[ 0 0 0 0]
[ 0 0 0 0]
[ 0 0 0 0]
[ 0 0 0 0]
[ 0 0 0 0]
[116 16 128 51]
[132 16 149 52]
[ 68 31 77 88]
[ 79 34 96 92]
[126 37 147 112]
[100 41 126 116]]
这表示我想要检测的图像上有6个对象,第一个值是xmin,第二个ymin,第三个xmax,第四个ymax。
我的网络的最后一层看起来像
(None, 13, 13, 1024)
答案 0 :(得分:1)
首先展平1 + min(z + 127 -i, i-z)
层
for
它将给出(None, 13, 13, 1024)
一维张量
然后添加一个密集层
model.add(Flatten())
,它将输出为40
这会将您的3D形状转换为1D
然后只需调整大小即可满足您的需求
13*13*1024=173056
这将起作用,但绝对会破坏数据的空间性质
答案 1 :(得分:0)
我认为,将预测形状与所需输出相符合的最简单方法是@Darlyn提出的解决方案。假设到目前为止已经宣布了网络(输出形状为(13, 13, 1024)
的张量):
x = Input(shape=(416, 416, 3))
y = Conv2D(32, activation='relu')(x)
...
y = Conv2D(1024, activation='relu')(y)
您只需要添加一个回归图层来尝试预测这些框,然后将这些框重新整形为(10, 4)
:
from keras.layers import Flatten, Dense, Reshape
samples = 1
boxes = 10
y = Flatten(name='flatten')(model.outputs)
y = Dense(boxes * 4, activation='relu')(y)
y = Reshape((boxes, 4), name='predictions')(y)
model = Model(inputs=model.inputs, outputs=y)
x_train = np.random.randn(samples, 416, 416, 3)
p = model.predict(x_train)
print(p.shape)
(1,10,4)
这有效,但我并不完全安全,直接回归这些值会产生良好的效果。我经常看到物体检测模型使用注意力,区域或显着性来确定物体的位置。您可以尝试一些对象检测keras实现:
classes = ["dog", "cat", "hooman"]
backbone = keras_rcnn.models.backbone.VGG16
model = keras_rcnn.models.RCNN((416, 416, 3), classes, backbone)
boxes, predictions = model.predict(x)
from keras_retinanet.models.resnet import resnet_retinanet
x = Input(shape=(416, 416, 3))
model = resnet_retinanet(len(classes), inputs=x)
_, _, boxes, _ = model.predict_on_batch(inputs)