如何使用pentaho从pdf提取文本?

时间:2019-04-23 14:28:38

标签: javascript java pentaho

如何使用pentaho从PDF文件读取文本?

是否有仅使用内置Java库的解决方案?

1 个答案:

答案 0 :(得分:3)

只需添加带有以下代码的步骤JavaScript Modified Values

var reader = new com.lowagie.text.pdf.PdfReader("c:\\temp\\mypdf.pdf") // OR JUST PUT THE COLUMN NAME IN THE FLOW;
var pdfTE = new com.lowagie.text.pdf.parser.PdfTextExtractor(reader);
var noOfPages = reader.getNumberOfPages();
var textPDF = "";
for (var i = 1; i <= noOfPages; i++) {
    textPDF += pdfTE.getTextFromPage(i);
}