Question

我有一个带有返回对象的TessBaseAPI（）对象。我想提取带有边界框的单词，但似乎无法使其正常工作。

val Text = tesseract.getUTF8Text()

给我文本。

val Words = tesseract.getWords.boxRects

给了我可以循环通过的边界框，但它们与getUTF8Text（）不匹配。

在tesseract.getWords中遍历数据对象，然后尝试将其转换为字符串，这使我变得有些困惑。

val Words = tesseract.getWords
for(i in Words) {
    Log.i(TAG, i.data.toString())
}

我发现使用.getHOCRText并在产生的内容上进行正则表达式来获取文本和框，这是一个非常糟糕的解决方法。

val result = tesseract.getHOCRText(0)

val BoxPattern = Pattern.compile("(?<=title='bbox ).*?(?=; x_wconf)")
val BoxMatch = BoxPattern.matcher(result)
while(BoxMatch.find()) {
    Log.i(TAG, BoxMatch.group().toString())
}

val TextPattern = Pattern.compile("(?<='>).*?(?=<\\/span>)")
val TextMatch = TextPattern.matcher(result)
while(TextMatch.find()) {
    Log.i(TAG, TextMatch.group().toString())
}

那么，如何正确地从tess-two中提取text和boxRects？

Answer 1

我解决了！

// As before
val tesseract = TessBaseAPI()
tesseract.init("/storage/emulated/0/com.ubft/", "eng")
tesseract.setImage(bm)

// Call utF8Text. Otherwise iterator returns null
tesseract.utF8Text

// Initiate an iterator
val iterator = tesseract.getResultIterator()

iterator.begin()
do {
    val text = iterator.getUTF8Text(TessBaseAPI.PageIteratorLevel.RIL_TEXTLINE)
    val boundingBox = iterator.getBoundingRect(TessBaseAPI.PageIteratorLevel.RIL_TEXTLINE)

    // Do what you want with the result...

    } while (iterator.next(TessBaseAPI.PageIteratorLevel.RIL_TEXTLINE))

iterator.delete()

可以将TessbaseAPI.PageIteratorLevel指定为要返回的文本结构的类型（段落，单词，行或按字符）。

我如何正确地从tess-two中提取文本和boxRects？

1 个答案: