所以我一直在寻找有关如何在C#中读取/导入PDF的最新解决方案,以便我可以从中提取一些数据并以另一种格式存储。
我还没有找到任何最近或能够做到的答案/资源?
所以简而言之,我会有一个包含大量无用文本的PDF,但是它的某些部分显示为一个表(EXCEL一样),在那些表中我需要获取1个数据单元以便我可以创建这些价值观的列表/词典。
可悲的是,我无法发布数据,因为它是保密的。
任何能以类似于C#的XML文档的方式工作的好库?
答案 0 :(得分:0)
如果您正在寻找资源来从C#中读取PDF文档中的数据,我会使用PDFClown。
话虽如此,即使PDF中的数据看起来“类似于excel”,根据我的经验,数据和“表格”结构也存储在PDF文档的两个不同的,基本上不相关的部分中。因此,我不希望您能够找到现成的解决方案来仅提取“表格”数据。
在这种情况下,您要么必须解析所有文本并以其他方式处理它,要么尝试匹配所有单独线段创建的框,然后仅提取属于这些边界的文本。