pdfgrep \d{3}-\d{2}-\d{4}
vs [0-9]{3}[-]?[0-9]{2}[-]?[0-9]{4}
1)完成这两个但只得到第二个表达式的结果。 2)第二个甚至没有捕捉到所有的结果,当我做一些抽查时它错过了一些。有什么想法?所有SSN都是xxx-xx-xxx格式。
整个命令:
find . -iname '*.pdf' -exec pdfgrep expression {} +
更新: 1)见下文 2)某些pdf无法搜索/未正确编码
答案 0 :(得分:1)
这是 bug 。使用
pdfgrep -P "\\w+" *.pdf
将返回与\w
范围对应的结果,而对\\d+
执行相同操作则不起作用。