如何使用node.js将pdf转换为.txt和.txt到json

时间:2017-07-26 02:35:22

标签: javascript

我有一个PDF文件我想从PDF中提取某些字段并将它们转换为.json文件。我看了几个NPM软件包,比如pdfjs,pdf2json。我在搜索过程中尝试了很多方法。我无法弄清楚如何将PDF转换为json文件。任何人都告诉我如何弄清楚这一点。如果有人能告诉PDF的功能,我可以将文本转换为json文件对我也有帮助的文本..

1 个答案:

答案 0 :(得分:0)

PDF to TXT

https://www.npmjs.com/package/pdf-to-text

像这样使用:

var pdfUtil = require('pdf-to-text');
var pdf_path = "absolute_path/to/pdf_file.pdf";

//option to extract text from page 0 to 10 
var option = {from: 0, to: 10};

pdfUtil.pdfToText(upload.path, option, function(err, data) {
  if (err) throw(err);
  console.log(data); //print text     
});

//Omit option to extract all text from the pdf file 
pdfUtil.pdfToText(upload.path, function(err, data) {
  if (err) throw(err);
  console.log(data); //print all text     
});

TXT到JSON

https://www.npmjs.com/package/text-2-json

从命令行运行命令。例如:

node index.js --i=test/test.txt --o=test/output.json --h