使用tesseract提取输出文本中引用的文本和图片(照片,图表和表格)

时间:2018-11-24 13:26:03

标签: image pdf tesseract asciidoc asciidoctor

我有一个由扫描图像组成的pdf,包括图片和文字。 用图片表示,我的意思是照片,图表和表格。

作为最终输出,我希望有一个可从电子阅读器读取的epub,以便:

  • 可以选择文本,并且突出显示的字体是可缩放的,我可以应用注释(如果设备支持),有TOC引用
  • 保留图片图像

要处理TOC引用和文本属性, 我获得了一个好的文本,可以手动编辑并应用标记,然后最终将其处理到Epub中。

对于图片图像,我找不到一种方法来维护它们,例如将它们提取到图像目录中并在txt中引用它们

我要避免手动创建和引用图像,而是要使其自动化:我是否在tesseract文档中缺少对属性的使用?

  • 我可以使用tesseract提取和引用图片吗?
  • 作为替代方案,可以使用以下步骤-或脚本(Python的首选项)或工具-提取和 图片参考,来自使用tesseract创建的可搜索pdf?

我查看了tesseract文档,但找不到此用例:

https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc

tesseract mybook.tif mybookImages get.images

未生成图像。


STEPS

  1. 使用ghostscript将源pdf处理为tiff

gs -q -r600x600 -dNOPAUSE -sDEVICE=tiffg4 -dBATCH -sOutputFile=mybook.tif sourcePDF.pdf -c quit

  1. 处理txt中的tiff:我可以将标记应用于txt并对其进行编辑,但是我丢失了图片图像!

tesseract -o -l eng mybook.tif mybook

  1. 在可搜索的pdf中处理tiff:可搜索pdf,但是字体呈现为嘈杂的声音,我无法编辑文本和应用标记

tesseract -o -l eng mybook.tif mybook pdf

  1. 最终使用asciidoc进行精简处理来编辑文本上的标记和图像引用,然后转换为epub ...但是如何从tiff或可搜索的pdf中提取图像,并将引用保留在最终的txt中?

https://asciidoctor.org/docs/asciidoctor-epub3/#working-with-images

0 个答案:

没有答案