我有一个PDF页面包含1列,其他页面包含2或3列。
如何正确阅读每一页?
使用下面的代码我发现它无法正常工作:
PdfReader pdfreader = new PdfReader(nmfile);
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
for (int page = 1; page <= pdfreader.NumberOfPages; page++)
{
extractText = PdfTextExtractor.GetTextFromPage(pdfreader, page, strategy);
extractText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(extractText)));
//...
}