如何在node.js中导入现有的PDF文件

时间:2017-05-06 14:27:37

标签: node.js pdf import

我正在处理节点的导入例程,到目前为止我可以使用pdf2json从PDF导入文本节点,这很有效,但不适用于基于图像且不包含文本的PDF。

所以我下载了pdf2img,但是这个模块存在很多问题,我现在拥有的是运行它后,我得到了很多0字节的png文件,没有内容和错误信息:

    /docfire/node_modules/gm/lib/command.js:228
        proc.stdin.once('error', cb);
                  ^

    TypeError: Cannot read property 'once' of undefined
        at gm._spawn (/docfire/node_modules/gm/lib/command.js:228:15)
        at /docfire/node_modules/gm/lib/command.js:140:19
        at series (/docfire/node_modules/array-series/index.js:11:36)
        at gm._preprocess         

(/ docfire / node_modules /克/ LIB / command.js:177:5)             在gm.stream(/docfire/node_modules/gm/lib/command.js:138:10)             at convertPdf2Img(/docfire/node_modules/pdf2img/lib/pdf2img.js:93:6)             在/docfire/node_modules/pdf2img/lib/pdf2img.js:67:9             在/docfire/node_modules/async/lib/async.js:246:17             在/docfire/node_modules/async/lib/async.js:122:13             at _each(/docfire/node_modules/async/lib/async.js:46:13)

我已尝试在GIT网站上发布该模块的问题,但看起来很多人都遇到了完全相同的问题,并且似乎没有任何针对任何修复的活动。

我理想的是从节点的PDF中提取文本和图像的方法。

我在运行macOS Sierra v10.12.4的iMAC上运行 节点版本为7.8.0,pdf2img为0.2.0,gm为1.23.0

1 个答案:

答案 0 :(得分:0)

您可以尝试使用pdf-image npm包。

https://www.npmjs.com/package/pdf-image

希望这有帮助。