应用错误收集

从PDF文档中提取文本 - C＃

时间：2010-02-19 15:04:14

标签： .net asp.net pdf

是否有可靠的方法从PDF中提取文本？首先想到的是PDF可能有多列，提取机制需要以某种方式知道逻辑结构。我知道有些PDF文档被“标记”但我需要支持几乎任何PDF文档。

这里有救援的第三方组件吗？

2 个答案:

答案 0 :(得分：5)

请参阅：Extracting text from PDFs in C#

答案 1 :(得分：2)

有些PDF是扫描，因此需要OCR（不容易，至少可以说）。

有些PDF是压缩的，有些（很少见）是裸PDF。

PDF文件格式本身已有详细记录，但是当从简单的单列文档中提取正确的“结构”时，您需要一个很高的订单。 PDF在内部表示如果每行文本都以绝对定位位于DIV中，HTML的外观如何。