应用错误收集

时间：2016-12-19 03:52:01

标签： node.js ocr tesseract image-recognition text-recognition

我需要输入图像和坐标。必须将输入坐标中的文本作为输出读取。如何使用node-tesseract执行此操作？

答案 0 :(得分：2)

您需要查看从Tesseract返回的.hocr文件（您可以先获取google hocr以获取更多信息）。 .hocr包括文本的所有边界框（x，y，宽度，高度，语言等）。然后计算位于输入坐标内的所有框。

<强> 更新：

我为你做了一些研究。在这里，您可以在Github上找到Javascript中的“最佳”（大多数明星）github回购

https://github.com/search?utf8=✓＆安培; Q = +的tesseract语言％3Ajavascript

最好的一个是tesseract.js超过10000颗星，最近还有提交

我突出显示的部分是.hocr（tesseract.js将其命名为html）

答案 1 :(得分：0)

我知道这是一个老线程，但我有同样的要求，无法找到解决方案，所以我修改了模块并发布到Git上：