应用错误收集

我有一些看起来像这样的图像：

它们存在4个可能的字符（A-D），长度为4。

现在，我想运行一个神经网络，该网络可以识别图片中的每个字符。这是一个多标签（我认为是这样）还是一个多类别的图像识别问题或其他问题？然后我应该如何处理标签？

为解决此问题，我对标签进行了如下编码：

encoded = my_onehot_encoded('ABAC')

print(encoded)
[[1, 0, 0, 0], [0, 1, 0, 0], [1, 0, 0, 0], [0, 0, 1, 0]]

这是正确的吗？我的目标显然不仅是神经网络能够识别两个As，一个B和一个C，而且还能识别正确的位置。

编辑：这个问题可能是序列标记问题吗？