应用错误收集

将PDF转换为任何可解析的格式

时间：2016-05-05 07:13:43

标签： python html xml pdf text

我有一个PDF文件，其中包含可以分布在不同页面中的表格，并且可以在其间包含文本。可以找到它的一个例子here。我能够将PDF转换为任何格式，但输出文件不以任何方式解析，即我无法从中分离出数据。以下是使用pdftotext和pdftohtml创建的输出文件的链接。

有没有办法以更合适的方式提取数据？提前谢谢。

2 个答案:

答案 0 :(得分：1)

一般的答案是否定的。 pdf是一种用于视觉呈现和打印的格式，并且无法保证内容将以任何特定顺序排列，更不用说以任何方式构建为表格，而不是将pdf呈现在纸张上或一个屏幕。有时甚至会故意混淆，以防止任何人做你正在尝试的事情。

在这种情况下，似乎可以剪切和粘贴每个表元素的内容。对于少数类似的文件，这几乎肯定是最快的事情。打开屏幕左侧的pdf，右侧的电子表格或数据输入程序，然后剪切并粘贴。中等数量 - 几十，几百？ - 雇用临时工做驴工作可能是最便宜的。对于大量 - 数千？ - 可以创建一个程序来自动化这个过程，但绝对不容易。我可能会考虑通过鼠标使用人工输入来识别桌子的角落和水平/垂直分区，然后通过控制人机接口设备生成剪切和粘贴操作。别问我怎么样。我必须知道我是否必须这样做，而我宁愿不这样做。这是一个WOMBAT。

您对pdf内容所做的任何形式的分析肯定不会推广到使用不同软件的不同组织创建的其他pdf，甚至可能不是使用相同过程的同一组织，而仅仅是同一软件的后续版本。

答案 1 :(得分：1)

在@ nigel222的行中，它实际上取决于PDF如何以一种有用的方式轻松获取数据。

最好是PDF结构化（具有文档结构，在编写PDF时创建）。在这种情况下，您可以访问该结构，并且您已完成设置。

由于结构是可访问PDF的基本必需品，您可以尝试按摩＆＃34;该文件通过应用各种＆＃34;使访问＆＃34;公用事业浮动;绝对值得关注。