应用错误收集

目前，我的任务是在输入两个句子的情况下，输出两个句子的短语同义词的两个标签。例如我[开心]，我[玩得开心]

但是，我永远无法使我的致密层输出所需的尺寸，即[批量大小，max_sentence_length，num_classes]。

我看过其他一些文章，说密集层只允许将“ units”参数设为1D，因此我应该先将标签弄平，然后再穿过密集层，然后相应地重塑标签矩阵损失函数的计算，但是我不知道这是否真的是处理它的合适方法。

我当前的模型是这样的：

两个输入：（无，58） GLoVE嵌入：（无，58，300） BiLSTM（无返回序列）：（无，256）密集：（无，290）

我也尝试过让它运行，但是性能太差了，所以我在问自己是否做错了什么……

我的预期结果最初是具有密集层输出维度（无，58、5），因为我有58个句子长度和5个不同的标签，因此290为密集：58 * 5 = 290。