Tesseract:在hOCR文件中获得单词置信度(x_wconf)

时间:2013-09-23 11:21:51

标签: java ocr tesseract

我目前正在使用Java通过命令行调用Tesseract,输出模式设置为hOCR。我几乎不知道任何与C编程相关的内容,但我可以阅读源代码,但这就是它。

我希望能够在hOCR文件中获得单词置信度信息。我在网上找到了一些“答案”。从设置文件中的值设置变为更改和重新编译源。

我正在使用最新版本的Tesseract,我如何从Java中获得置信度(x_wconf)?

1 个答案:

答案 0 :(得分:0)

hOCR是HTML,因此您需要一个HTML解析器来提取所需的属性。试试jsoupHtmlCleanerHTML Parser