iText - 从pdf生成带有中文字符的文本文件

时间:2016-02-26 03:34:15

标签: java pdf itext

我正在使用iText从PDF中提取数据。我的应用程序能够读取带有英文字符的PDF,但我们发现了一个带有中文字符的新文件。当我尝试提取该数据时,出现错误:

ExceptionConverter: com.itextpdf.text.DocumentException: Font 'STSong-Light' with 'UniGB-UCS2-H' is not recognized.

所以我添加了itext-asian.jar。现在我没有收到错误,但getTextFromPage() 返回一个空字符串。我错过了什么吗?

PdfReader pr = new PdfReader(inputPdf);
// get the number of pages in the document
PdfTextExtractor pte =
    new PdfTextExtractor(pr, new CustomLocationAwarePdfRenderListener(scanDepth));
int pNum = pr.getNumberOfPages();

String text = "";
// extract text from each page and write it to the output text file
for (int page = 1; page <= pNum; page++) {
    text = text.concat("\n").concat(pte.getTextFromPage(page));
}

0 个答案:

没有答案