我在visual studio 2005的.net项目中使用了iTextSharp 5.5版,并试图从PDF文件中检索一些文本,但它不起作用。
该程序适用于其他一些PDF。
最后我发现它是由postscript字体引起的,iTextSharp不起作用。然而,非常旧的版本iTextSharp像版本2,它可以使用postscript字体。
如果我将字体更改为真实字体,则两个iTextSharp版本都可以正常工作。 我的代码非常简单,如下面的
Dim reader As PdfReader
reader = New PdfReader(pdf)
Dim textExtract As String = String.Empty
textExtract = PdfTextExtractor.GetTextFromPage(reader, 1)
textExtract 得到一个空的新行,没有" Hello World" PDF文档中的文字。
您可以从此处https://drive.google.com/file/d/0B8PvEMuJQOSyUEJ6SVFkX3NHQlU/edit?usp=sharing
下载PDF文件