如何使用pentaho从PDF文件读取文本?
是否有仅使用内置Java库的解决方案?
答案 0 :(得分:3)
只需添加带有以下代码的步骤JavaScript Modified Values
:
var reader = new com.lowagie.text.pdf.PdfReader("c:\\temp\\mypdf.pdf") // OR JUST PUT THE COLUMN NAME IN THE FLOW;
var pdfTE = new com.lowagie.text.pdf.parser.PdfTextExtractor(reader);
var noOfPages = reader.getNumberOfPages();
var textPDF = "";
for (var i = 1; i <= noOfPages; i++) {
textPDF += pdfTE.getTextFromPage(i);
}