从pdf中提取表格数据

时间:2020-08-02 09:17:18

标签: javascript node.js

我有一个这样的pdf文件:pdf

我正在使用pdf2json提取文本。结果是这样的:

`QUANT
ITY
ITEM CODEDESCRIPTIONUNIT PRICE
(inc-GST)
DISC %TOTAL PRICE(inc-GST)
0.2SPISALT1TATA SALT 1 KG *25 PC$20.00$4.00
----------------Page (0) Break----------------
"`

但是使用此方法,我无法找到pdf表中哪个文本属于哪个列。如何提取正确格式的文本

使用该库提取的代码:

    let pdfParser = new PDFParser(this, 1);
      pdfParser.loadPDF('./uploads/filename.pdf');
      pdfParser.on('pdfParser_dataError', errData => console.error(errData.parserError));
      pdfParser.on('pdfParser_dataReady', pdfData => {
    const raw = pdfParser.getRawTextContent();
    fs.writeFile('./uploads/fields.json', raw, function() {
      console.log('written?');
    });
    res.json({ raw });

0 个答案:

没有答案