解析由MS Reporting Services生成的PDF文件 - 无OCR

时间:2010-12-10 20:50:28

标签: parsing pdf

我需要解析MS Reporting Services生成的PDF报告,并将解析后的数据存储到数据库中。不要问为什么,这是要求。 :=)

这些不是需要OCR的图像PDF,因此有更简单的方法来解析这些文件吗?是否有任何可用于此目的的免费或商业工具?

文件包含报告标题和包含一些数据的表。重点是解析表和标题中的一些字段(客户ID,名称等)。

1 个答案:

答案 0 :(得分:3)

iText(Java)& iTextSharp(c#)可以使用PdfTextParser获取原始文本。它甚至会告诉你每个单词的位置和当前的图形状态(主要是颜色)。主干版本属于AGPL。 MPL版本的iTextSharp没有解析器包。

将数据作为“表格”通常非常困难。您必须根据页面上的行和文本来区分其格式/位置。

很少有标记内容实际定义表格,行等等,但我还没有遇到过一个(我没有自己创建)。

你有一个我们可以看到的样本,所以我们可以给你一个更详细的答案吗?