我正在使用pdf2json提取文本。结果是这样的:
`QUANT
ITY
ITEM CODEDESCRIPTIONUNIT PRICE
(inc-GST)
DISC %TOTAL PRICE(inc-GST)
0.2SPISALT1TATA SALT 1 KG *25 PC$20.00$4.00
----------------Page (0) Break----------------
"`
但是使用此方法,我无法找到pdf表中哪个文本属于哪个列。如何提取正确格式的文本
使用该库提取的代码:
let pdfParser = new PDFParser(this, 1);
pdfParser.loadPDF('./uploads/filename.pdf');
pdfParser.on('pdfParser_dataError', errData => console.error(errData.parserError));
pdfParser.on('pdfParser_dataReady', pdfData => {
const raw = pdfParser.getRawTextContent();
fs.writeFile('./uploads/fields.json', raw, function() {
console.log('written?');
});
res.json({ raw });