我使用iTextSharp
使用以下代码从PDF文件中提取文本:
PdfReader arqPDF = new PdfReader(arqPdf);
int qtdPgs = arqPDF.NumberOfPages;
string textoPDF = "";
for (int i = 1; i <= qtdPgs; i++)
{
textoPDF += PdfTextExtractor.GetTextFromPage(arqPDF, i, new LocationTextExtractionStrategy());
}
return textoPDF;
一切都很好。
但最近我用Photoshop创建了一个PDF来测试,我的输出变成了一些汉字:
琀 攀 砀 琀 漀 ⤀ 䄀 爀 焀 甀 椀 瘀 漀 瀀 搀 昀
原文为葡萄牙文。
谢谢!