我正在寻找可以应用于文本PDF的布局分析库或工具(最好是开源),以识别主要文本内容与侧边栏,章节标题,章节标题(可能甚至是具有装饰/阴影和下划线的奇特)等我遇到了像OCRopus这样的工具,它们使用OCR和图像识别来识别布局。是否存在可以在没有OCR的情况下执行相同操作的库?可以从文本PDF中提取文本和图像,并提供包含文本和图像位置的输入到工具中;对这些文件使用OCR会相当迂回。
答案 0 :(得分:1)
我也不知道这样的独立(如不依赖于OCR或图像处理)库,但您应该能够使用OCRopus或OCRFeeder(https://live.gnome.org/OCRFeeder)的布局检测部分。你看过后者吗?显然,它设计用于几乎任何标准的OCR引擎,这意味着可以通过创建自己的“虚拟OCR”来使用布局分析部分,该虚拟OCR根据您的自定义逻辑(而不是任何真实的图像处理)提取数据并传递到OCRFeeder。