是否有一个用于从PDF中提取文本的好库?如果必须,我愿意为此付出代价。
适用于C#或经典ASP(VBScript)的东西是理想的,我还需要能够将页面与PDF分开。
This question有一些有趣的东西,特别是pdftotext,但如果可以,我想避免调用外部命令行应用程序。
答案 0 :(得分:4)
您可以使用Windows内置的IFilter界面从任何支持的文件类型中提取文本和属性(作者,标题等)。它是一个COM接口,因此您可以使用.NET互操作设施。
您还必须从Adobe下载免费的PDF IFilter驱动程序。
答案 1 :(得分:0)
答案 2 :(得分:0)
我们使用Aspose效果很好。
答案 3 :(得分:0)
Docotic.Pdf library可用于从PDF文档中提取格式化或纯文本。
图书馆可以阅读任何版本的PDF文档(最新发布的标准)。库也支持页面提取。
示例代码的链接:
免责声明:我为图书馆的供应商工作。
答案 4 :(得分:0)
除了批准的答案之外:还有其他商业解决方案可替代Adobe IFilter进行文本索引(提供类似的API,但也提供额外的高级功能):
如果您正在寻找可以从托管.NET应用程序和传统编程语言(如经典ASP或VB6)使用的单一工具,那么这就是商业ByteScout PDF Extractor SDK适合的地方,因为它提供了.NET和ActiveX / COM API。
免责声明:我为ByteScout工作