是否可以使用grep
或其他命令和/或regex
来搜索PDF文件中的特定模式?
答案 0 :(得分:2)
如果安装了pdftotext
实用程序,则可以使用以下命令搜索PDF文件的文本:
pdftotext myfile.pdf - | grep 'pattern'
您必须使用某些实用程序(例如pdftotext
)将PDF文件转换为文本,然后再将其转换为grep
(否则grep
会很难理解原始PDF文件),但执行此操作的任何实用程序都应该有效。
在Ubuntu和Debian上,pdftotext
是poppler-utils
包的一部分。
答案 1 :(得分:1)
简短:是(对二进制文件使用标记-b
)。
但是很有可能你会不找到你想要的东西。 PDF文件通常是二进制文件,压缩文件和大量编码文件 - 甚至连Acrobat Reader都无法复制敏感文本。
答案 2 :(得分:1)
尝试:
cat file.pdf | strings | grep 'pattern'