如何从c#.net web应用程序中的pdf文件中读取文本

时间:2012-03-05 08:34:40

标签: c# asp.net .net pdf

我正在开发一个需要用PDF实现功能的项目

我想在我的c#.net项目中阅读PDF文件的文本。

有谁知道这样做的方法是什么?

5 个答案:

答案 0 :(得分:3)

看看以下链接:

How to read pdf files using C# .NET

Reading PDF in C#

希望他们可以引导您找到正确的方向。

答案 1 :(得分:1)

也许可以使用pdfLib。

来自pdfLib homepage

  

PDFlib TET PDF IFilter(Windows上的企业版PDF搜索)从PDF文档中提取文本和元数据,并使其可用于Windows上的搜索和检索软件。

答案 2 :(得分:1)

试试这个库,非常易于使用,正是您需要的:

http://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET

答案 3 :(得分:1)

我非常想使用PdfTextStripper的getText()方法。要实现这一点,你可以查看下面的url:

http://naspinski.net/post/ParsingReading-a-PDF-file-with-C-and-AspNet-to-text.aspx

http://www.codeproject.com/Articles/12445/Converting-PDF-to-Text-in-C

答案 4 :(得分:0)

简短的回答,除非您正在生成pdf并正确地执行,否则。

Pdf文件的生成方式与发送到打印机的方式类似。并非所有文本都是可读的,并且可以任意存储有关文本的信息。此外,某些程序可能会以矢量或位图格式保存文本。