应用错误收集

我试图通过主题从PDF中提取文本。为了做到这一点我试图识别PDF中的标签\标题。

到目前为止，我已将PDF转换为xml文件，以便更轻松地获取文本数据，然后使用每个的font \ size来定义行是否为标签。这种方式的主要问题是，每个PDF都可以有自己的构建，而不一定适用于一个PDF将适用于另一个。

如果有人知道如何克服这个问题，我会很高兴能够在不依赖PDF的情况下提取标签（按科目提供文本）（我使用的大多数PDF都是文章\书籍）受试者提取文本的不同方式也受到欢迎。

（正如标签所示，我试图在Python中这样做）

编辑：

目前我正在做两件事：

我的结论是：普通文本的字体数量最多（使用此字体的行数超过所有其他文本的x10行），如果查看文本大小的中位数，则会是大小常规文本。从第一个我可以删除所有常规文本，从第二个我可以采取更大的所有文本，所有标签将在此列表中。

现在的问题是只从这个列表中提取标签，因为通常文本比常规文本大但不是标签。我试图使用每个字体在文本中显示的时间来识别标签字体，但没有太大的成功。对于每个PDF，金额可能会有所不同。

我正在寻找如何解决这个问题的想法，或者是否有人知道可以更轻松地完成这项工作的工具。