标签: json tesseract hocr
尝试实现一个java类,将hOCR输出从Tesseract转换为JSON格式的数据。 目前我们使用Abbey进行OCR服务,并返回OCR'd图像上Words位置的JSON格式数据。但Tesseract只返回hOCR。所以需要转换tesseracts输出以匹配Abbey的输出。