应用错误收集

自动检测节点中需要OCR识别的pdf文档

时间：2014-01-29 21:51:10

标签： node.js pdf tesseract

我一直在使用node pdfutils包将文本从一些pdf文档中提取到文本文件中。有时输出是一个空白文本文件，因为pdf文档被扫描为不可编辑的文件，在这种情况下，我使用node-tesseract来提取文本。我根据需要在两种策略之间手动切换。有谁知道如何自动检测差异？

0 个答案:

没有答案