应用错误收集

时间：2010-12-10 20:50:28

标签： parsing pdf

我需要解析MS Reporting Services生成的PDF报告，并将解析后的数据存储到数据库中。不要问为什么，这是要求。：=）

这些不是需要OCR的图像PDF，因此有更简单的方法来解析这些文件吗？是否有任何可用于此目的的免费或商业工具？

文件包含报告标题和包含一些数据的表。重点是解析表和标题中的一些字段（客户ID，名称等）。

答案 0 :(得分：3)

iText（Java）＆amp; iTextSharp（c＃）可以使用PdfTextParser获取原始文本。它甚至会告诉你每个单词的位置和当前的图形状态（主要是颜色）。主干版本属于AGPL。 MPL版本的iTextSharp没有解析器包。

将数据作为“表格”通常非常困难。您必须根据页面上的行和文本来区分其格式/位置。

很少有标记内容实际定义表格，行等等，但我还没有遇到过一个（我没有自己创建）。

你有一个我们可以看到的样本，所以我们可以给你一个更详细的答案吗？