大家好我正在尝试通过应用CNN + Dense + CTC来解决TIMIT任务
所以基本上这是我的模特:
1)一些ConvLayers2D。
2)形状转换
3)密集
4)CTC所以改造是:
在CNN之后我得到一个形状输出(Batch_size,number_of_feature_maps,41,sequence_length) 41是Mel滤波器组/能量
我将其转换为(Batch_size,sequence_length,41 * number_of_feature_maps)以获得3的昏暗:
请注意,sequence_length为None,因为每个mini_batch都有所不同,所以我们有类似(None,None,X)的东西
和
我基本上没有得到这两种方法的行为。第一个使用TimeDistributed正常工作,损失和音素错误率降低。问题是第二个也有效! 。 Dense层在(无,无,X)张量上做了什么?
谢谢!
答案 0 :(得分:0)
退房:Keras LSTM dense layer multidimensional input
在keras的情况下< 2.0:您需要使用TimeDistributed包装器,以便按顺序将其应用于序列。 在keras> = 2.0的情况下:默认情况下,以元素方式应用密集层。