pdf - 使用C＃或经典ASP（VBScript）从PDF中提取文本的好方法是什么？

时间：2008-09-05 20:55:40

标签： pdf text-extraction pdf-scraping

是否有一个用于从PDF中提取文本的好库？如果必须，我愿意为此付出代价。

适用于C＃或经典ASP（VBScript）的东西是理想的，我还需要能够将页面与PDF分开。

This question有一些有趣的东西，特别是pdftotext，但如果可以，我想避免调用外部命令行应用程序。

答案 0 :(得分：4)

您可以使用Windows内置的IFilter界面从任何支持的文件类型中提取文本和属性（作者，标题等）。它是一个COM接口，因此您可以使用.NET互操作设施。

您还必须从Adobe下载免费的PDF IFilter驱动程序。

答案 1 :(得分：0)

这是一个很好的清单： Open Source Libs for PDF/C#

其中大部分都是为了创建PDF，但它们也应该具有读取功能。

还有这个：iText

之前我只玩过iText。没什么大不了的。

答案 2 :(得分：0)

我们使用Aspose效果很好。

答案 3 :(得分：0)

Docotic.Pdf library可用于从PDF文档中提取格式化或纯文本。

图书馆可以阅读任何版本的PDF文档（最新发布的标准）。库也支持页面提取。

示例代码的链接：

免责声明：我为图书馆的供应商工作。

答案 4 :(得分：0)

除了批准的答案之外：还有其他商业解决方案可替代Adobe IFilter进行文本索引（提供类似的API，但也提供额外的高级功能）：

如果您正在寻找可以从托管.NET应用程序和传统编程语言（如经典ASP或VB6）使用的单一工具，那么这就是商业ByteScout PDF Extractor SDK适合的地方，因为它提供了.NET和ActiveX / COM API。

免责声明：我为ByteScout工作