Tesseract中有没有一种方法可以将文本元数据与文本一起捕获?

时间:2020-09-09 06:59:10

标签: python-3.x tesseract python-tesseract

我正在尝试确定是否可以使用Tesseract捕获文本元数据,例如字体大小,字体系列,粗体/斜体等。以下是我尝试使用的代码,但没有用,并返回了“无” 。使用 Tesseract版本= 4.1.1,Tesseract-OCR引擎版本= 5.0.0

const { Hits, hits } = data;
console.log("Hits:", Hits, hits)
setMovies(Hits)

当前,使用Tesseract,我能够正确捕获文本,但不能捕获元数据。我已经附上了示例图像文件和示例预期输出。

enter image description here

预期输出: [字体:“ some_font”,字体家族:“ some_font_family”,粗体,字体大小:“ some_font_size] GCEO评论

[字体:“ some_font”,字体家族:“ some_font_family”,粗体,字体大小:“ some_font_size]尊敬的股东,

[字体:“ some_font”,字体家族:“ some_font_family”,粗体,字体大小:“ some_font_size]正在翻转...。

[字体:“ some_font”,字体家族:“ some_font_family”,粗体,字体大小:“ some_font_size]我们在核心程序中表现出色,并获得了移动用户的分享.........

因此,基本上,无论元数据发生什么变化,我们都应该能够捕获信息并将该信息放在该句子之前。

0 个答案:

没有答案