操作PDF文件我发现通过Aspose.Pdf等其他工具读取的相同程序文件读取iTextSharp(版本5.4.5.0),Aspose的结果在打破行时更准确。
iTextSharp读取的某些行而不是返回'\n'
(回车),它返回' \n'
(由于每行的字符限制而应该换行 - 应该用一个空格替换)。
我的代码:
PdfReader pdfreader = new PdfReader(pathNmArq);
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
extractText = PdfTextExtractor.GetTextFromPage(pdfreader, page, new LocationTextExtractionStrategy());
示例:
iTextSharp: "\n3ª Camara \nApelação 0713141\n"
Aspose.Pdf: "\n3ª Camara\nApelação 0713141\n"
有谁知道为什么iTextSharp误解了这个? 我怎么能避免这个?
PS:Aspose.Pdf工具有点贵(不免费)