OCR Tesseract配置

时间:2016-10-11 12:52:20

标签: ocr tesseract

我正在使用Tesseract从图像中提取词汇表。

列表由2种不同的语言组成。不幸的是,lang1和lang2之间只有空格(可能有3或4个空白字符)。

有没有办法定义哪个字符串可以将两者相互分开。

列表可能如下所示:

房子,建筑Haus,Gebäude 树鲍姆 ...

我也有问题在每个单词对之后获得换行符。

谢谢!

编辑: 我运行这个命令

tesseract bilder/screenshot1.png output/screenshot1 -l swe+deu

从这张图片中提取所有条目

Swedish - German wordlist

如您所见,值之间没有明确的分隔符。作为输出,我得到了这个

nej nein

jaha aha

Vad talar du för språk? Welche Sprachen sprichst du?
vad för welche, was für

tala (talar, talade, talat) sprechen

språk (-et, —, -en) Sprache

japanska japanisch

engelska englisch

Du då? Und du?

då da, dann, damals, als

bara nur

lite ein bisschen

verb (-et, —, en) Verb

position (—en, -er, -erna) Stellung, Position
OBS (= observera) NB, Achtung!

fråga (-n, -or, -orna) Frage

这是安静的好。但由于缺少可用的分隔符,我不知道如何在两个字符串中分隔每一行的字符串。

1 个答案:

答案 0 :(得分:0)

您可以使用Tesseract API并尝试通过调用类WordFontAttributes的方法ResultIterator来分隔单词,以确定一个单词是否为粗体。 This GitHub要点显示了该方法的使用方法。