应用错误收集

时间：2014-10-25 16:21:39

标签： c# pdf

所以我一直在寻找有关如何在C＃中读取/导入PDF的最新解决方案，以便我可以从中提取一些数据并以另一种格式存储。

我还没有找到任何最近或能够做到的答案/资源？

所以简而言之，我会有一个包含大量无用文本的PDF，但是它的某些部分显示为一个表（EXCEL一样），在那些表中我需要获取1个数据单元以便我可以创建这些价值观的列表/词典。

可悲的是，我无法发布数据，因为它是保密的。

任何能以类似于C＃的XML文档的方式工作的好库？

答案 0 :(得分：0)

如果您正在寻找资源来从C＃中读取PDF文档中的数据，我会使用PDFClown。

话虽如此，即使PDF中的数据看起来“类似于excel”，根据我的经验，数据和“表格”结构也存储在PDF文档的两个不同的，基本上不相关的部分中。因此，我不希望您能够找到现成的解决方案来仅提取“表格”数据。

在这种情况下，您要么必须解析所有文本并以其他方式处理它，要么尝试匹配所有单独线段创建的框，然后仅提取属于这些边界的文本。