Question

我正在使用Tesseract从图像中提取词汇表。

列表由2种不同的语言组成。不幸的是，lang1和lang2之间只有空格（可能有3或4个空白字符）。

有没有办法定义哪个字符串可以将两者相互分开。

列表可能如下所示：

房子，建筑Haus，Gebäude 树鲍姆 ...

我也有问题在每个单词对之后获得换行符。

谢谢！

编辑：我运行这个命令

tesseract bilder/screenshot1.png output/screenshot1 -l swe+deu

从这张图片中提取所有条目

如您所见，值之间没有明确的分隔符。作为输出，我得到了这个

nej nein

jaha aha

Vad talar du för språk? Welche Sprachen sprichst du?
vad för welche, was für

tala (talar, talade, talat) sprechen

språk (-et, —, -en) Sprache

japanska japanisch

engelska englisch

Du då? Und du?

då da, dann, damals, als

bara nur

lite ein bisschen

verb (-et, —, en) Verb

position (—en, -er, -erna) Stellung, Position
OBS (= observera) NB, Achtung!

fråga (-n, -or, -orna) Frage

这是安静的好。但由于缺少可用的分隔符，我不知道如何在两个字符串中分隔每一行的字符串。

Answer 1

您可以使用Tesseract API并尝试通过调用类WordFontAttributes的方法ResultIterator来分隔单词，以确定一个单词是否为粗体。 This GitHub要点显示了该方法的使用方法。

OCR Tesseract配置

1 个答案: