我的环境
我正在使用tesseract从图像中提取文本。
我正在生成一个 .tsv 来检索提取的文本并对其执行一些正则表达式,并生成一个 .pdf 以具有可搜索的pdf。
我的方法是打电话给tesseract 2次:
但是我觉得这不是很有效(相同的计算必须进行两次)
我想要的
我希望使计算速度更快。我的想法是只调用一次tesseract,但指定两种输出格式
有可能吗?如果可以,怎么办?
答案 0 :(得分:3)
您可以尝试以下命令:
pip install sphinx
pip install setuptools