标签: node.js pdf tesseract
我一直在使用node pdfutils包将文本从一些pdf文档中提取到文本文件中。有时输出是一个空白文本文件,因为pdf文档被扫描为不可编辑的文件,在这种情况下,我使用node-tesseract来提取文本。我根据需要在两种策略之间手动切换。 有谁知道如何自动检测差异?