应用错误收集

我正在建立一个ML平台，以训练它识别法律文档中的某些短语/段落。通常，会有一个训练过程，向模型显示我们关心的字符串的各种示例，并教给模型如何标记每个短语。我现在想弄清楚的是，是否有一种方法可以通过从已经OCR标记，加书签和突出显示的PDF中提取文本和标签来以编程方式训练模型。

这些解决方案旨在输出当前突出显示的字符串列表。不过，我要弄清楚的是突出显示数据的存储位置（字符串中的位置/位置）。

所以-总结一下：

这是我在这里的第一篇文章，所以请让我知道我是否可以提供进一步帮助以解释我要解决的问题。