Question

我正在研究一个需要我从pdf中提取文本的问题。我正在使用pdfbox这样做。所以，我在终端（linux ubuntu）中运行这个命令：

java -jar pdfbox-app-1.8.7.jar ExtractText [path leading to file here]

一切正常。但是，我想以递归方式对特定目录中的数千个文件执行此操作，因此我不必每次都手动插入pdf路径。我很感激任何来自终端或脚本的解决方案。

Answer 1

使用find命令：

find /path/to/directory -type f -exec java -jar pdfbox-app-1.8.7.jar ExtractText {} \;