如何在pdf文件中搜索特定文本

时间:2011-02-16 05:09:36

标签: search pdf

可以使用哪种工具搜索PDF文件。 (例如代数)

我们需要在Windows平台上搜索文件。

2 个答案:

答案 0 :(得分:2)

指定您要执行的操作系统和搜索类型(单词,精确短语,PDF元数据?)可能会有所帮助。某些内置搜索系统(如OS X的Spotlight)将自动搜索帐户中所有PDF文件的多个单词。

在Linux上,我可能暂时使用'pdftotext'实用程序将PDF文件转换为ASCII,然后使用'grep'搜索每个文件:

find /start/path -name '*.pdf' -print \
-exec pdftotext {} /tmp/tmp.txt \; \
-exec grep -i "search words" /tmp/tmp.txt \;

答案 1 :(得分:2)

我认为您需要从每个PDF文件中提取文本并在提取的文本中搜索子字符串。

您可以尝试Docotic.Pdf library进行文本提取(免责声明:我为Bit Miracle工作)。 请使用Docotic.Pdf库查看how to search text in PDF的示例。

当然,您可以为提取的文本构建索引并在应用程序中使用该索引。

Lucene.Net这样的集成解决方案可能会用于您的任务。