我试图通过主题从PDF中提取文本。 为了做到这一点我试图识别PDF中的标签\标题。
到目前为止,我已将PDF转换为xml文件,以便更轻松地获取文本数据,然后使用每个的font \ size来定义行是否为标签。 这种方式的主要问题是,每个PDF都可以有自己的构建,而不一定适用于一个PDF将适用于另一个。
如果有人知道如何克服这个问题,我会很高兴能够在不依赖PDF的情况下提取标签(按科目提供文本)(我使用的大多数PDF都是文章\书籍) 受试者提取文本的不同方式也受到欢迎。
(正如标签所示,我试图在Python中这样做)
编辑:
目前我正在做两件事:
检查每一行的字体
检查每行文字大小
我的结论是:普通文本的字体数量最多(使用此字体的行数超过所有其他文本的x10行),如果查看文本大小的中位数,则会是大小常规文本。 从第一个我可以删除所有常规文本,从第二个我可以采取更大的所有文本,所有标签将在此列表中。
现在的问题是只从这个列表中提取标签,因为通常文本比常规文本大但不是标签。 我试图使用每个字体在文本中显示的时间来识别标签字体,但没有太大的成功。对于每个PDF,金额可能会有所不同。
我正在寻找如何解决这个问题的想法,或者是否有人知道可以更轻松地完成这项工作的工具。
答案 0 :(得分:1)
我建议学习很多pdf并写下每个pdf标签文字大小。然后,您可以平均前5个最高字体并平均前5个最低字体。现在,您可以在它们之间创建范围,并检查文本是否在该文本大小范围内。 这种方法不会一直有效,但是,它将涵盖大多数pdfs。
(你学习的pdf越多越好)