目前,我的任务是在输入两个句子的情况下, 输出两个句子的短语同义词的两个标签。 例如我[开心],我[玩得开心]
但是,我永远无法使我的致密层输出所需的尺寸,即[批量大小,max_sentence_length,num_classes]。
我看过其他一些文章,说密集层只允许将“ units”参数设为1D,因此我应该先将标签弄平,然后再穿过密集层,然后相应地重塑标签矩阵损失函数的计算,但是我不知道这是否真的是处理它的合适方法。
我当前的模型是这样的:
两个输入:(无,58) GLoVE嵌入:(无,58,300) BiLSTM(无返回序列):(无,256) 密集:(无,290)
我也尝试过让它运行,但是性能太差了,所以我在问自己是否做错了什么……
我的预期结果最初是具有密集层输出维度(无,58、5),因为我有58个句子长度和5个不同的标签,因此290为密集:58 * 5 = 290。