使用nodejs将具有表格的pdf转换为xlsx / xls

时间:2018-02-28 05:59:42

标签: node.js

我的pdf包含一张表并有数据。

我想将它转换为xlsx / xls,我尝试了很多方式,即pdf到json和json到xlsx / xls但是我没有得到我想要的结果, 我想要键和值对中的json数据

代码 让fs = require('fs'),         PDFParser = require(“pdf2json”);

let pdfParser = new PDFParser();

pdfParser.on("pdfParser_dataError", errData => console.error(errData.parserError) );
pdfParser.on("pdfParser_dataReady", pdfData => {
    fs.writeFile("./pdf2.json", JSON.stringify(pdfData),(error) => { 
                if(error)
                {
                    console.log(error);
                }
         });
});

pdfParser.loadPDF("./Sample Data.pdf");

my pdf look like this

1 个答案:

答案 0 :(得分:1)

您可以使用pdf2table或pdfreader从pdf文件中读取数据,并将该数据整形为所需的json格式。

添加样本代码以供参考

// pdf2table

var pdf2table = require('pdf2table');
var fs = require('fs');

fs.readFile('./tests.pdf', function (err, buffer) {
    if (err) return console.log(err);

    pdf2table.parse(buffer, function (err, rows, rowsdebug) {
        if(err) return console.log(err);
        console.log(rows);
    });
});

// pdfreader

var pdfreader = require('pdfreader');
var table = new pdfreader.TableParser();

new pdfreader.PdfReader().parseFileItems('tests.pdf', function(err, item){
  if( err ) {
      console.log( err )
  } else {
      console.log( item.text)
     //create json as you want
  }
});