Question

我有一个由扫描图像组成的pdf，包括图片和文字。用图片表示，我的意思是照片，图表和表格。

作为最终输出，我希望有一个可从电子阅读器读取的epub，以便：

要处理TOC引用和文本属性，我获得了一个好的文本，可以手动编辑并应用标记，然后最终将其处理到Epub中。

对于图片图像，我找不到一种方法来维护它们，例如将它们提取到图像目录中并在txt中引用它们

我要避免手动创建和引用图像，而是要使其自动化：我是否在tesseract文档中缺少对属性的使用？

我查看了tesseract文档，但找不到此用例：

tesseract mybook.tif mybookImages get.images

未生成图像。

STEPS

gs -q -r600x600 -dNOPAUSE -sDEVICE=tiffg4 -dBATCH -sOutputFile=mybook.tif sourcePDF.pdf -c quit

tesseract -o -l eng mybook.tif mybook

tesseract -o -l eng mybook.tif mybook pdf

最终使用asciidoc进行精简处理来编辑文本上的标记和图像引用，然后转换为epub ...但是如何从tiff或可搜索的pdf中提取图像，并将引用保留在最终的txt中？