Tesseract多种输出格式

时间:2018-11-06 12:36:01

标签: ocr tesseract

我的环境

我正在使用tesseract从图像中提取文本。

我正在生成一个 .tsv 来检索提取的文本并对其执行一些正则表达式,并生成一个 .pdf 以具有可搜索的pdf。

我的方法是打电话给tesseract 2次:

  • 有人要求提供.tsv
  • 有人要求提供.pdf

但是我觉得这不是很有效(相同的计算必须进行两次)

我想要的

我希望使计算速度更快。我的想法是只调用一次tesseract,但指定两种输出格式

有可能吗?如果可以,怎么办?

1 个答案:

答案 0 :(得分:3)

您可以尝试以下命令:

pip install sphinx pip install setuptools