我想使用tesserocr(tesseract 3.05.00版本)中的WordFontAttributes方法返回单词属性(粗体,字体大小等)
下面的代码显示使用tesserocr进行文本识别,但无法使用WordFontAttributes返回每个单词的属性。 tesseract版本是
tesseract 3.05.00
leptonica-1.74.4 libjpeg 8d(libjpeg-turbo 1.5.2):libpng 1.6.34:libtiff 4.0.9:zlib 1.2.11
from tesserocr import PyTessBaseAPI
with PyTessBaseAPI() as api:
api.SetImageFile('page_0.jpg')
print(api.GetUTF8Text())
print(api.AllWordConfidences())
api.Recognize()
iterator = api.GetIterator()
print(iterator.WordFontAttributes())
应为每个单词返回以下属性-(bool isBold,bool isItalic,bool isUnunderlined,bool isMonospace,bool isSerif,bool isSmallCaps,int pointSize,int fontId)