我正在使用Tesseract从图像中提取词汇表。
列表由2种不同的语言组成。不幸的是,lang1和lang2之间只有空格(可能有3或4个空白字符)。
有没有办法定义哪个字符串可以将两者相互分开。
列表可能如下所示:
房子,建筑Haus,Gebäude 树鲍姆 ...
我也有问题在每个单词对之后获得换行符。
谢谢!
编辑: 我运行这个命令
tesseract bilder/screenshot1.png output/screenshot1 -l swe+deu
从这张图片中提取所有条目
如您所见,值之间没有明确的分隔符。作为输出,我得到了这个
nej nein
jaha aha
Vad talar du för språk? Welche Sprachen sprichst du?
vad för welche, was für
tala (talar, talade, talat) sprechen
språk (-et, —, -en) Sprache
japanska japanisch
engelska englisch
Du då? Und du?
då da, dann, damals, als
bara nur
lite ein bisschen
verb (-et, —, en) Verb
position (—en, -er, -erna) Stellung, Position
OBS (= observera) NB, Achtung!
fråga (-n, -or, -orna) Frage
这是安静的好。但由于缺少可用的分隔符,我不知道如何在两个字符串中分隔每一行的字符串。
答案 0 :(得分:0)
您可以使用Tesseract API并尝试通过调用类WordFontAttributes
的方法ResultIterator
来分隔单词,以确定一个单词是否为粗体。 This GitHub要点显示了该方法的使用方法。