用于从PDF搜索文本的脚本

时间:2012-07-19 22:51:06

标签: python macos parsing pdf tcl

问题

在Mac OS X平台上,我想用Python或Tcl编写脚本来搜索PDF文件中的文本并提取相关部分。我感谢任何帮助。

背景

我正在编写脚本来查看PDF以确定它是一个账单,来自哪个公司,以及在什么时期。根据这些信息,我重命名PDF并将其移动到适当的目录。例如,Statement_03948293929384.pdf等文件可能会变为2012-07-15 Water Bill.pdf并移至我的Utilities文件夹。

到目前为止我做了什么?

  • 我搜索了PDF到纯文本工具,但还没找到任何内容
  • 我查看了Tcl wiki并找到了一个示例,但无法使其工作(我在PDF中搜索文本,但未找到)。
  • 我正在研究Didier Stevens的pdf-parser.py
  • 我听说过一个名为pyPdf的Python包,接下来会看一下。

更新

我找到了一个名为pdftotext的命令行工具,由Glyph& Cog,LLC;由Carsten Bluem构建和打包。这个工具很简单,它解决了我的问题。我仍在寻找那些可以直接搜索PDF的工具,而不必转换为文本文件。

1 个答案:

答案 0 :(得分:1)

我已成功使用PyODConverter转换为PDF文件(还有更强大的Java版本)。将PDF转换为文本后,进行搜索应该是微不足道的。另外我相信iText应该能够做类似的事情,但我还没有测试过。