我最近阅读了关于CNN语言建模的以下论文。
使用门控卷积网络进行语言建模 https://arxiv.org/abs/1612.08083
在本文中,他们使用下面的图片作为他们的模型。但我不确定Convolution
数字(第三层)。通常,要将CNN应用于文本嵌入,过滤器大小为(filter_h, embedding_size)
。因此卷积后的数据大小为(seq_len-filter_h+1, 1)
stride==1
。见底图。
但是在这个图中,卷积后的数据大小的高度仍然很大(我的意思是大于1)。因此,如果我尝试实现它,它需要许多填充来扩展列。
实际上我在github找到了an reproduced code。是的,看起来他们也使用padding=SAME
的列来填充这么多的填充。
为什么他们使用这么多填充物?许多填充物对我来说没有意义..