应用错误收集

嘿，我一直在寻找训练带有医学图像的图像字幕模型，并且大多数图像字幕都由COCO或Flickr8k训练

我只有图像和图像的相应标题，获得了png图像的数据集和相同的重复xml文件，现在我可以在这些图像上进行训练，而不论可可或Flickr上的传统训练如何

我尝试使用Facebook https://github.com/facebookresearch/pythia来训练自己的数据集，但它无法训练模型，有人可以建议我使用相同架构进行图像字幕的其他选择，但可以在我自己的具有图像的数据集上进行训练和字幕。