从PDF中的嵌套表中提取数据

时间:2010-08-20 05:55:56

标签: c# pdf ms-word text-extraction

  1. 我有一些从word或excel文件创建的pdf文件。

  2. 我需要获取表格中的信息。

  3. 文档中的文字不是图像,因此我可以使用pdfbox等工具提取文本。

  4. 当我有文字时,我无法知道它所属的表格中的哪些单元格,因为我不知道表格边框的位置。

  5. 我尝试了一些桌面工具,如abby或固体pdf转换器,他们能够将文件转换成漂亮的word文档,但这不符合我的需要,因为我希望能够做到这一点在C#中编程。

  6. 有些表格有嵌套表格,我认为这会让这更加困难。

  7. 感谢您的帮助

1 个答案:

答案 0 :(得分:1)

这里的困难是因为PDF中的文本不包含在任何表格中。它可能看起来像是,但在表面下,它不是。

所以我可以想到几个选项。但是他们中的任何一个都不会像你想的那样令人满意。

  1. 有些公司提供用于PDF到Excel / Word转换的SDK。 Investintech和Iceni就是几个例子。但这些解决方案并非免费。
  2. 如果您知道从中提取表格数据所需的PDF文件的确切布局,那么您可以使用任何SDK,它可以从PDF中提取文本,并告诉您提取的文本的确切坐标。使用此方法,您需要事先知道文本的位置,以便您可以从页面上的特定区域提取文本。如果你需要处理任何随机文件,它显然是行不通的。
  3. 这是一项艰巨的任务,但希望这会给你一个起点。