我有几份PDF格式的文件几乎都是成绩单。我正在寻找一种方法来搜索这些成绩单(并自动化它),并基本上刮取对话/标题/等。原始数据(例如“X说Y多少次?”)
有没有办法可以将PDF转换为更友好的格式(例如,HTML或伪HTML),在那里我可以看到究竟发生了什么?
我目前正在使用一个将所有包含的文本转换为txt文件的刮刀,这很有用,除了它抛出格式化(粗体语句等),这将使生活更容易。
任何通过Python以这种方式查看PDF的方法也会受到赞赏。
答案 0 :(得分:1)
您可以查看我们的开源库PDF2JSON。它将所有文本数据转换为JSON或XML,以便您更轻松地检查它