我正在开发一个需要用PDF实现功能的项目
我想在我的c#.net项目中阅读PDF文件的文本。
有谁知道这样做的方法是什么?
答案 0 :(得分:3)
答案 1 :(得分:1)
也许可以使用pdfLib。
PDFlib TET PDF IFilter(Windows上的企业版PDF搜索)从PDF文档中提取文本和元数据,并使其可用于Windows上的搜索和检索软件。
答案 2 :(得分:1)
试试这个库,非常易于使用,正是您需要的:
http://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET
答案 3 :(得分:1)
我非常想使用PdfTextStripper的getText()方法。要实现这一点,你可以查看下面的url:
http://naspinski.net/post/ParsingReading-a-PDF-file-with-C-and-AspNet-to-text.aspx
http://www.codeproject.com/Articles/12445/Converting-PDF-to-Text-in-C
答案 4 :(得分:0)
简短的回答,除非您正在生成pdf并正确地执行,否则。
Pdf文件的生成方式与发送到打印机的方式类似。并非所有文本都是可读的,并且可以任意存储有关文本的信息。此外,某些程序可能会以矢量或位图格式保存文本。