应用错误收集

将PDF刮成更友好的东西

时间：2012-12-07 23:54:18

标签： pdf text

我有几份PDF格式的文件几乎都是成绩单。我正在寻找一种方法来搜索这些成绩单（并自动化它），并基本上刮取对话/标题/等。原始数据（例如“X说Y多少次？”）

有没有办法可以将PDF转换为更友好的格式（例如，HTML或伪HTML），在那里我可以看到究竟发生了什么？

我目前正在使用一个将所有包含的文本转换为txt文件的刮刀，这很有用，除了它抛出格式化（粗体语句等），这将使生活更容易。

任何通过Python以这种方式查看PDF的方法也会受到赞赏。

1 个答案:

答案 0 :(得分：1)

您可以查看我们的开源库PDF2JSON。它将所有文本数据转换为JSON或XML，以便您更轻松地检查它

http://code.google.com/p/pdf2json