在没有任何应用程序的情况下在终端linux中搜索pdf中的单词

时间:2014-07-03 21:46:05

标签: linux shell file pdf binary-data

是否可以使用grep或其他命令和/或regex来搜索PDF文件中的特定模式?

3 个答案:

答案 0 :(得分:2)

如果安装了pdftotext实用程序,则可以使用以下命令搜索PDF文件的文本:

pdftotext myfile.pdf - | grep 'pattern'

您必须使用某些实用程序(例如pdftotext)将PDF文件转换为文本,然后再将其转换为grep(否则grep会很难理解原始PDF文件),但执行此操作的任何实用程序都应该有效。

在Ubuntu和Debian上,pdftotextpoppler-utils包的一部分。

答案 1 :(得分:1)

简短:是(对二进制文件使用标记-b )。

但是很有可能你会找到你想要的东西。 PDF文件通常是二进制文件,压缩文件和大量编码文件 - 甚至连Acrobat Reader都无法复制敏感文本。

答案 2 :(得分:1)

尝试:

cat file.pdf | strings | grep 'pattern'