导入和阅读PDF的一部分

时间:2014-10-25 16:21:39

标签: c# pdf

所以我一直在寻找有关如何在C#中读取/导入PDF的最新解决方案,以便我可以从中提取一些数据并以另一种格式存储。

我还没有找到任何最近或能够做到的答案/资源?

所以简而言之,我会有一个包含大量无用文本的PDF,但是它的某些部分显示为一个表(EXCEL一样),在那些表中我需要获取1个数据单元以便我可以创建这些价值观的列表/词典。

可悲的是,我无法发布数据,因为它是保密的。

任何能以类似于C#的XML文档的方式工作的好库?

1 个答案:

答案 0 :(得分:0)

如果您正在寻找资源来从C#中读取PDF文档中的数据,我会使用PDFClown

话虽如此,即使PDF中的数据看起来“类似于excel”,根据我的经验,数据和“表格”结构也存储在PDF文档的两个不同的,基本上不相关的部分中。因此,我不希望您能够找到现成的解决方案来仅提取“表格”数据。

在这种情况下,您要么必须解析所有文本并以其他方式处理它,要么尝试匹配所有单独线段创建的框,然后仅提取属于这些边界的文本。