通过搜索PDF来记录页码的有效方法

时间:2011-10-06 14:33:54

标签: excel search adobe-reader

我有一个大约1200个查询(部件号)的列表,这些查询是在100页PDF中的某个地方指定的。我需要做的就是记录每个查询在PDF中出现的页面。我想不出一个聪明的方法。我需要花5到20个小时才能通过搜索进行搜索,所以如果有人能在5小时之前给我一个好主意,那就太棒了!

1 个答案:

答案 0 :(得分:2)

假设您可以从纯文本中以编程方式确定上下文中的“查询”(例如,使用正则表达式):

您可以使用pdftk

将PDF拆分为不同的文件(每页1个文件)

http://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/

然后使用pdf-to-text实用程序将这些文件转换为文本,如下所示:

http://www.fileguru.com/PDF-To-TXT-Converter/download

或者这个

http://www.pdf2text.com/

最后使用您喜欢的编程语言编写一个简单的脚本,以确定哪些文件包含“查询”(无论看起来如何)。