我正在建立一个ML平台,以训练它识别法律文档中的某些短语/段落。通常,会有一个训练过程,向模型显示我们关心的字符串的各种示例,并教给模型如何标记每个短语。我现在想弄清楚的是,是否有一种方法可以通过从已经OCR标记,加书签和突出显示的PDF中提取文本和标签来以编程方式训练模型。
我已经阅读了很多有关此问题的文章,看来人们已经编写了许多解决方案,在这里讨论:https://superuser.com/questions/620880/how-do-i-extract-highlighted-text-only-from-pdf-files-in-adobe-acrobat-pro-versi
这些解决方案旨在输出当前突出显示的字符串列表。不过,我要弄清楚的是突出显示数据的存储位置(字符串中的位置/位置)。
所以-总结一下:
有一堆带注释和书签的PDF
想了解书签/突出显示数据的存储位置和存储方式
最终目的是找出一种将每个突出显示的字符串映射到书签标题的方法
然后这些文本/书签对可用于训练ML模型
这是我在这里的第一篇文章,所以请让我知道我是否可以提供进一步帮助以解释我要解决的问题。