我正在使用iText从PDF中提取数据。我的应用程序能够读取带有英文字符的PDF,但我们发现了一个带有中文字符的新文件。当我尝试提取该数据时,出现错误:
ExceptionConverter: com.itextpdf.text.DocumentException: Font 'STSong-Light' with 'UniGB-UCS2-H' is not recognized.
所以我添加了itext-asian.jar
。现在我没有收到错误,但getTextFromPage()
返回一个空字符串。我错过了什么吗?
PdfReader pr = new PdfReader(inputPdf);
// get the number of pages in the document
PdfTextExtractor pte =
new PdfTextExtractor(pr, new CustomLocationAwarePdfRenderListener(scanDepth));
int pNum = pr.getNumberOfPages();
String text = "";
// extract text from each page and write it to the output text file
for (int page = 1; page <= pNum; page++) {
text = text.concat("\n").concat(pte.getTextFromPage(page));
}