目前我和我的三个朋友正在研究一个项目,根据特定图像中的对象生成图像描述(当图像被赋予系统时,必须根据对象和关系生成新的描述。他们)。因此,只需一个人计划识别图像中的对象并使用基于快速区域的CNN(FRCNN)对其进行标记。在我的部分,我必须通过考虑它们之间的关系,基于那些图像标签(FRCNN的输出计划作为我的RNN的输入)实现有意义的描述。
目前,我计划实施一个递归神经网络(RNN)来生成描述。但是我怀疑是否可以在给出一组单词(图像标签名称)作为输入时使用RNN生成描述。因为RNN主要用于具有序列的用例,如果我只给出标签名称,它是否能够通过考虑它们之间的关系来生成描述?
如果没有人可以请告诉我实施此方法的最佳方式是什么?
PS:我对机器学习非常陌生,希望能有一个明确的想法来找到更好的解决方案。答案 0 :(得分:0)
其实我现在也在学习RNN。我相信,如果图像有意义,可以从一张图片中生成一个句子来描述它。
我将与您分享一些我认为有用的材料