使用C#或经典ASP(VBScript)从PDF中提取文本的好方法是什么?

时间:2008-09-05 20:55:40

标签: pdf text-extraction pdf-scraping

是否有一个用于从PDF中提取文本的好库?如果必须,我愿意为此付出代价。

适用于C#或经典ASP(VBScript)的东西是理想的,我还需要能够将页面与PDF分开。

This question有一些有趣的东西,特别是pdftotext,但如果可以,我想避免调用外部命令行应用程序。

5 个答案:

答案 0 :(得分:4)

您可以使用Windows内置的IFilter界面从任何支持的文件类型中提取文本和属性(作者,标题等)。它是一个COM接口,因此您可以使用.NET互操作设施。

您还必须从Adobe下载免费的PDF IFilter驱动程序。

答案 1 :(得分:0)

这是一个很好的清单: Open Source Libs for PDF/C#

其中大部分都是为了创建PDF,但它们也应该具有读取功能。

还有这个:iText

之前我只玩过iText。没什么大不了的。

答案 2 :(得分:0)

我们使用Aspose效果很好。

答案 3 :(得分:0)

Docotic.Pdf library可用于从PDF文档中提取格式化或纯文本。

图书馆可以阅读任何版本的PDF文档(最新发布的标准)。库也支持页面提取。

示例代码的链接:

免责声明:我为图书馆的供应商工作。

答案 4 :(得分:0)

除了批准的答案之外:还有其他商业解决方案可替代Adobe IFilter进行文本索引(提供类似的API,但也提供额外的高级功能):

  1. Foxit PDF IFilter:与Adobe的插件相比,提供了更快的文本索引。
  2. PDFLib PDF iFilter:包括对损坏的PDF文档的支持以及运行您自己查询的其他API。
  3. 如果您正在寻找可以从托管.NET应用程序和传统编程语言(如经典ASP或VB6)使用的单一工具,那么这就是商业ByteScout PDF Extractor SDK适合的地方,因为它提供了.NET和ActiveX / COM API。

    免责声明:我为ByteScout工作