有没有办法从bash中提取pdf的内容? (我有一个很大的学术论文文件夹,遗憾地有像“1010.3423.pdf”这样的标签。我想写一个bash脚本来更明智地命名它们,这涉及到谷歌搜索前几行。)
答案 0 :(得分:3)
有pdftotext,可以帮助您从pdf文件中获取标题和作者。然后,您可以使用此谷歌,或自己生成文件名。
答案 1 :(得分:3)
尝试使用pdftotext来提取文本? http://en.wikipedia.org/wiki/Pdftotext
答案 2 :(得分:1)
pdf2xml会为您提供更详细的信息,去年我一直在寻找这样的实用程序,其中,我认为pdf2xml是最好的。