应用错误收集

我正在尝试训练网络以检测图像中的文本。对于训练数据集，我使用了单个字母。如果我要提供该角色图像的图像，则可以完美地显示该角色图像的边界框。我想进一步扩展它以检测图像中的多个文本区域。所以我的问题是

1-我需要准备哪种类型的数据集以检测多个文本区域。对于训练数据集，我必须准备具有多个边界框的图像的数据集吗？

2-我在网上读到，通常要做的是将图像划分为一个网格，并将该网格提供给该网格的预测功能，然后我们将这些网格合并以获得带有多个边界框的图像，因此我们如何检测覆盖多个网格的文本。这种类型的对象的IOU如何完成？