我有一个由扫描图像组成的pdf,包括图片和文字。 用图片表示,我的意思是照片,图表和表格。
作为最终输出,我希望有一个可从电子阅读器读取的epub,以便:
要处理TOC引用和文本属性, 我获得了一个好的文本,可以手动编辑并应用标记,然后最终将其处理到Epub中。
对于图片图像,我找不到一种方法来维护它们,例如将它们提取到图像目录中并在txt中引用它们
我要避免手动创建和引用图像,而是要使其自动化:我是否在tesseract文档中缺少对属性的使用?
我查看了tesseract文档,但找不到此用例:
https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc
tesseract mybook.tif mybookImages get.images
未生成图像。
STEPS
gs -q -r600x600 -dNOPAUSE -sDEVICE=tiffg4 -dBATCH -sOutputFile=mybook.tif sourcePDF.pdf -c quit
tesseract -o -l eng mybook.tif mybook
tesseract -o -l eng mybook.tif mybook pdf
https://asciidoctor.org/docs/asciidoctor-epub3/#working-with-images