deep-learning - 多网格 CNN 架构

我正在阅读这篇论文：Multi-Grid Neural Architectures。它提出了传统 CNN 的替代架构，其中在每个深度都有一个金字塔，底部网格由于更精细的空间分辨率（可用于语义分割任务）而查看精细特征，顶部网格提供粗略特征（可用于用于物体检测任务）。

我的疑问是关于架构

在这里我们看到，在特定深度，金字塔结构的较低网格具有更多数量的特征图，而较高级别网格具有较少数量的特征图。我觉得这很奇怪，因为随着网络的深入，CNN 架构通常将空间特征封装到通道中，因此较低的空间分辨率层往往具有更多数量的特征图。有人可以为金字塔中从上到下增加特征图的数量提供任何直觉吗。