在Tess-Two上获取单词列表

时间:2013-05-16 00:23:13

标签: android tesseract

我正在开发一款在Android上使用OCR的应用。 tess-two样本工作得非常好,我可以获得完整的OCR文本,但我想知道如何在Tesseract实际输出的框内获得单个单词。我可以使用getWords()。getBoxRects()来获取边界框的列表,似乎getWords()函数做了我想要的但它返回了一个Pixa对象,我不知道如何一个单词列表(无论如何)将从中获得单词内的单词。

我正在寻找的输出是一个带有以下键值的地图:

Word:边界框

任何提示都会很棒。

1 个答案:

答案 0 :(得分:1)

您可以解析hOCR输出以获取单词及其坐标。请参阅Export HOCR output for tesseract OCR in android

如果ResultIterator支持,则使用tess-two API。