将pdf文件转换为excel表格

时间:2013-09-29 12:58:46

标签: c# asp.net excel pdf

我是.net的新手,我有一个包含三个表的pdf(带购买详情)我的任务是从pdf中提取所有3个表并使用c#将每个表转换为excel表(三个excel表)代码。,我google'd for 3days,所有我能找到的代码从pdf中提取文本(但没有任何格式),我不能购买任何第三方工具,我需要一种方法至少提取正确的表格格式的文本,然后我将使用互操作将其转换为excel,或者直接转换为excel的代码,无论解决方案是什么,我急需,请帮助。

2 个答案:

答案 0 :(得分:2)

itextpdf支持c#从pdf中提取信息,但要回答我们可以提取的表格:

  

如上所述:您无法从PDF中获取看起来像的字段   表格,如果PDF不是技术观点的表格;您   如果是表格,则无法从看起来像表格的PDF中获取表格   PDF中缺少结构(使用标签)。

我从support panel

获得的

答案 1 :(得分:1)

我建议你看看xpdf。 它有一个命令行界面,您可以从pdf获取文本文件。 最重要的是,在列的情况下,xpdf会生成间隔良好的文本文件,因此您可以使用Substring()或在最坏的情况下使用正则表达式轻松读取数据。 在最简单的情况下,您可以将pdf输出直接导入Excel作为带有“固定宽度字段”的文本文件。