我正在尝试训练网络以检测图像中的文本。对于训练数据集,我使用了单个字母。如果我要提供该角色图像的图像,则可以完美地显示该角色图像的边界框。我想进一步扩展它以检测图像中的多个文本区域。所以我的问题是
1-我需要准备哪种类型的数据集以检测多个文本区域。对于训练数据集,我必须准备具有多个边界框的图像的数据集吗?
2-我在网上读到,通常要做的是将图像划分为一个网格,并将该网格提供给该网格的预测功能,然后我们将这些网格合并以获得带有多个边界框的图像,因此我们如何检测覆盖多个网格的文本。这种类型的对象的IOU如何完成?