有没有办法从bash中提取pdf的内容?

时间:2012-12-10 04:39:36

标签: bash

有没有办法从bash中提取pdf的内容? (我有一个很大的学术论文文件夹,遗憾地有像“1010.3423.pdf”这样的标签。我想写一个bash脚本来更明智地命名它们,这涉及到谷歌搜索前几行。)

3 个答案:

答案 0 :(得分:3)

pdftotext,可以帮助您从pdf文件中获取标题和作者。然后,您可以使用此谷歌,或自己生成文件名。

答案 1 :(得分:3)

尝试使用pdftotext来提取文本? http://en.wikipedia.org/wiki/Pdftotext

答案 2 :(得分:1)

pdf2xml会为您提供更详细的信息,去年我一直在寻找这样的实用程序,其中,我认为pdf2xml是最好的。