在Windows 7上安装了tesseract-ocr v3.02.02,并通过命令行使用它:
1)将png文本输出到文本文件:tesseract image.png txtfile 2)将png文本输出到html文件:tesseract image.png htmlfile hocr
我需要它能够在输出文本或html文件中标记任何斜体文本。我该怎么做(最好是在命令行 - 从未在API模式下使用过它?)
答案 0 :(得分:0)
Tesseract的hocr
输出仅包括单词坐标和置信度值,而不包括与字体相关的信息。因此,您需要修改源代码以输出命令行模式所需的内容,或使用其API。