自动检测节点中需要OCR识别的pdf文档

时间:2014-01-29 21:51:10

标签: node.js pdf tesseract

我一直在使用node pdfutils包将文本从一些pdf文档中提取到文本文件中。有时输出是一个空白文本文件,因为pdf文档被扫描为不可编辑的文件,在这种情况下,我使用node-tesseract来提取文本。我根据需要在两种策略之间手动切换。 有谁知道如何自动检测差异?

0 个答案:

没有答案