我的需求非常简单,我需要一个工具或库(库将是完美的),将PDF文件转换为HTML文件,尽可能多地保留信息,除了任何图像或样式,只有语义信息。
我已经查看了iTextPdf,但我没有找到类似的内容。任何帮助都会很好。
提前致谢
答案 0 :(得分:4)
使用iTextSharp。它是免费的,你只需要“itextsharp.dll”。
http://sourceforge.net/projects/itextsharp/
这是一个简单的函数,用于从PDF中读取文本。
Public Shared Function GetTextFromPDF(PdfFileName As String) As String
Dim oReader As New iTextSharp.text.pdf.PdfReader(PdfFileName)
Dim sOut = ""
For i = 1 To oReader.NumberOfPages
Dim its As New iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy
sOut &= iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(oReader, i, its)
Next
Return sOut
End Function