标签: java ocr tesseract
我目前正在使用Java通过命令行调用Tesseract,输出模式设置为hOCR。我几乎不知道任何与C编程相关的内容,但我可以阅读源代码,但这就是它。
我希望能够在hOCR文件中获得单词置信度信息。我在网上找到了一些“答案”。从设置文件中的值设置变为更改和重新编译源。
我正在使用最新版本的Tesseract,我如何从Java中获得置信度(x_wconf)?
答案 0 :(得分:0)
hOCR是HTML,因此您需要一个HTML解析器来提取所需的属性。试试jsoup,HtmlCleaner或HTML Parser。