应用错误收集

用于从PDF搜索文本的脚本

时间：2012-07-19 22:51:06

标签： python macos parsing pdf tcl

问题

在Mac OS X平台上，我想用Python或Tcl编写脚本来搜索PDF文件中的文本并提取相关部分。我感谢任何帮助。

背景

我正在编写脚本来查看PDF以确定它是一个账单，来自哪个公司，以及在什么时期。根据这些信息，我重命名PDF并将其移动到适当的目录。例如，Statement_03948293929384.pdf等文件可能会变为2012-07-15 Water Bill.pdf并移至我的Utilities文件夹。

到目前为止我做了什么？

我搜索了PDF到纯文本工具，但还没找到任何内容
我查看了Tcl wiki并找到了一个示例，但无法使其工作（我在PDF中搜索文本，但未找到）。
我正在研究Didier Stevens的pdf-parser.py
我听说过一个名为pyPdf的Python包，接下来会看一下。

更新

我找到了一个名为pdftotext的命令行工具，由Glyph＆amp; Cog，LLC;由Carsten Bluem构建和打包。这个工具很简单，它解决了我的问题。我仍在寻找那些可以直接搜索PDF的工具，而不必转换为文本文件。

1 个答案:

答案 0 :(得分：1)

我已成功使用PyODConverter转换为PDF文件（还有更强大的Java版本）。将PDF转换为文本后，进行搜索应该是微不足道的。另外我相信iText应该能够做类似的事情，但我还没有测试过。