将hOCR格式的文本转换为Json

时间:2017-06-30 15:26:01

标签: json tesseract hocr

尝试实现一个java类,将hOCR输出从Tesseract转换为JSON格式的数据。 目前我们使用Abbey进行OCR服务,并返回OCR'd图像上Words位置的JSON格式数据。但Tesseract只返回hOCR。所以需要转换tesseracts输出以匹配Abbey的输出。

0 个答案:

没有答案