我正在研究一个需要我从pdf中提取文本的问题。我正在使用pdfbox这样做。所以,我在终端(linux ubuntu)中运行这个命令:
java -jar pdfbox-app-1.8.7.jar ExtractText [path leading to file here]
一切正常。但是,我想以递归方式对特定目录中的数千个文件执行此操作,因此我不必每次都手动插入pdf路径。我很感激任何来自终端或脚本的解决方案。
答案 0 :(得分:4)
使用find
命令:
find /path/to/directory -type f -exec java -jar pdfbox-app-1.8.7.jar ExtractText {} \;