Question

我正在尝试确定是否可以使用Tesseract捕获文本元数据，例如字体大小，字体系列，粗体/斜体等。以下是我尝试使用的代码，但没有用，并返回了“无” 。使用 Tesseract版本= 4.1.1，Tesseract-OCR引擎版本= 5.0.0

const { Hits, hits } = data;
console.log("Hits:", Hits, hits)
setMovies(Hits)

当前，使用Tesseract，我能够正确捕获文本，但不能捕获元数据。我已经附上了示例图像文件和示例预期输出。

预期输出： [字体：“ some_font”，字体家族：“ some_font_family”，粗体，字体大小：“ some_font_size] GCEO评论

[字体：“ some_font”，字体家族：“ some_font_family”，粗体，字体大小：“ some_font_size]尊敬的股东，

[字体：“ some_font”，字体家族：“ some_font_family”，粗体，字体大小：“ some_font_size]正在翻转...。

[字体：“ some_font”，字体家族：“ some_font_family”，粗体，字体大小：“ some_font_size]我们在核心程序中表现出色，并获得了移动用户的分享.........

因此，基本上，无论元数据发生什么变化，我们都应该能够捕获信息并将该信息放在该句子之前。