我有一个PDF文件我想从PDF中提取某些字段并将它们转换为.json文件。我看了几个NPM软件包,比如pdfjs,pdf2json。我在搜索过程中尝试了很多方法。我无法弄清楚如何将PDF转换为json文件。任何人都告诉我如何弄清楚这一点。如果有人能告诉PDF的功能,我可以将文本转换为json文件对我也有帮助的文本..
答案 0 :(得分:0)
https://www.npmjs.com/package/pdf-to-text
像这样使用:
var pdfUtil = require('pdf-to-text');
var pdf_path = "absolute_path/to/pdf_file.pdf";
//option to extract text from page 0 to 10
var option = {from: 0, to: 10};
pdfUtil.pdfToText(upload.path, option, function(err, data) {
if (err) throw(err);
console.log(data); //print text
});
//Omit option to extract all text from the pdf file
pdfUtil.pdfToText(upload.path, function(err, data) {
if (err) throw(err);
console.log(data); //print all text
});
https://www.npmjs.com/package/text-2-json
从命令行运行命令。例如:
node index.js --i=test/test.txt --o=test/output.json --h