我正在使用com.itextpdf:itextg:5.5.10
在Android中同时读取包含波斯语和英语字符的PDF文件。
因此,我使用了以下代码:
try {
String parsedText="";
PdfReader reader = new PdfReader(getAssets().open("pdffile.pdf"));
int n = reader.getNumberOfPages();
for (int i = 0; i <n ; i++) {
parsedText = parsedText+ PdfTextExtractor.getTextFromPage(reader, i+1, new SimpleTextExtractionStrategy()).trim()+"\n";
}
Log.v("content: ",parsedText);
reader.close();
} catch (Exception e) {
e.printStackTrace();
}
英语部分还可以,但是波斯部分被提取为镜像形式(即从左到右)。例如,此文本:“ book =کتاب”被提取到“ book =باتک”
请帮助我解决问题。