应用错误收集

时间：2019-06-07 06:56:47

标签： node.js tesseract tesseract.js

我有一个用例，可以从PAN卡中读取文本。理想情况下，应用程序应具有扫描PAN卡的屏幕，并应从那里提取文本。提取的文本将在其他屏幕上自动填充。

我已经阅读了有关tesseract npm模块的信息，但是仍然不知道从哪里开始，因为互联网上没有针对该用例的竞争博客。还尝试了npm模块-okrabyte，这没有给出100％的结果。需要任何指导或帮助。

我也尝试了AWS Textract服务。由于提取的结果完全不同，因此无法解析PAN CARD。

答案 0 :(得分：1)

您需要使用OCR来实现。有多种选项可以执行此操作。 Tesseract是开源的。希望this博客可以帮助您开始使用Nodejs上的tesseract。

您也可以使用来自不同云提供商的OCR api来实现此目的。例如：Microsoft Cognitive Services Vision API，Abbyy Cloud等。

此外，提高图像质量有助于更准确地提取文本。就个人而言，我已经看到200 dpi图像与600 dpi图像之间的巨大差异。

希望这会有所帮助！