我有一个大约1200个查询(部件号)的列表,这些查询是在100页PDF中的某个地方指定的。我需要做的就是记录每个查询在PDF中出现的页面。我想不出一个聪明的方法。我需要花5到20个小时才能通过搜索进行搜索,所以如果有人能在5小时之前给我一个好主意,那就太棒了!
答案 0 :(得分:2)
假设您可以从纯文本中以编程方式确定上下文中的“查询”(例如,使用正则表达式):
您可以使用pdftk
将PDF拆分为不同的文件(每页1个文件)http://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/
然后使用pdf-to-text实用程序将这些文件转换为文本,如下所示:
http://www.fileguru.com/PDF-To-TXT-Converter/download
或者这个
最后使用您喜欢的编程语言编写一个简单的脚本,以确定哪些文件包含“查询”(无论看起来如何)。