应用错误收集

下图中显示了一个简单的深度学习体系结构，该体系结构能够学习句子和图像的嵌入。

此外，使用pairs (sentence, image)数据集（其中句子是图像的描述），可以训练句子的编码器和图像的另一个编码器，这两个编码器均表示图像中的两个不同的对象。相同的嵌入空间。

我一直在寻找实现此架构的方法。但是，我还没有找到一种清晰而冗长的形式。尤其是当不同的模型放在一起时（例如，LSTM的{{1}}和Encoder 1的{{1}}）。

有人可以给我一些指导，例如在TensorFlow，Keras或PyTorch等现代框架中实现此体系结构的指导（也许是示例或演练）吗？