PDFTextStripper提取不正确的泰语文本

时间:2019-03-04 10:25:41

标签: java pdf pdfbox true-type-fonts

我有一个问题pdfTextStripper以错误的编码方式读取了我的pdf(或者可能是希腊字符)。而且我不知道如何设置它。有什么帮助吗?

PDDocument my_document = PDDocument.load(pdfFile.getInputStream(), password);
PDFTextStripper pdfTextStripper = new PDFTextStripper();
pdfTextStripper.setWordSeparator("|");
pdfTextStripper.setShouldSeparateByBeads(false);
return pdfTextStripper.getText(my_document);

谢谢。

0 个答案:

没有答案