下图中显示了一个简单的深度学习体系结构,该体系结构能够学习句子和图像的嵌入。
此外,使用pairs (sentence, image)
数据集(其中句子是图像的描述),可以训练句子的编码器和图像的另一个编码器,这两个编码器均表示图像中的两个不同的对象。相同的嵌入空间。
我一直在寻找实现此架构的方法。但是,我还没有找到一种清晰而冗长的形式。尤其是当不同的模型放在一起时(例如,LSTM
的{{1}}和Encoder 1
的{{1}})。
有人可以给我一些指导,例如在TensorFlow,Keras或PyTorch等现代框架中实现此体系结构的指导(也许是示例或演练)吗?