将PDF刮成更友好的东西

时间:2012-12-07 23:54:18

标签: pdf text

我有几份PDF格式的文件几乎都是成绩单。我正在寻找一种方法来搜索这些成绩单(并自动化它),并基本上刮取对话/标题/等。原始数据(例如“X说Y多少次?”)

有没有办法可以将PDF转换为更友好的格式(例如,HTML或伪HTML),在那里我可以看到究竟发生了什么?

我目前正在使用一个将所有包含的文本转换为txt文件的刮刀,这很有用,除了它抛出格式化(粗体语句等),这将使生活更容易。

任何通过Python以这种方式查看PDF的方法也会受到赞赏。

1 个答案:

答案 0 :(得分:1)

您可以查看我们的开源库PDF2JSON。它将所有文本数据转换为JSON或XML,以便您更轻松地检查它

http://code.google.com/p/pdf2json