在Mac OS X平台上,我想用Python或Tcl编写脚本来搜索PDF文件中的文本并提取相关部分。我感谢任何帮助。
我正在编写脚本来查看PDF以确定它是一个账单,来自哪个公司,以及在什么时期。根据这些信息,我重命名PDF并将其移动到适当的目录。例如,Statement_03948293929384.pdf
等文件可能会变为2012-07-15 Water Bill.pdf
并移至我的Utilities
文件夹。
pdf-parser.py
我找到了一个名为pdftotext的命令行工具,由Glyph& Cog,LLC;由Carsten Bluem构建和打包。这个工具很简单,它解决了我的问题。我仍在寻找那些可以直接搜索PDF的工具,而不必转换为文本文件。
答案 0 :(得分:1)
我已成功使用PyODConverter转换为PDF文件(还有更强大的Java版本)。将PDF转换为文本后,进行搜索应该是微不足道的。另外我相信iText应该能够做类似的事情,但我还没有测试过。