我有大约10,000个pdf文件(conf文件),我需要从这些文件的某些部分(如实验部分)中提取文本并保存在文件中。 有没有人知道一个java工具或一些python工具可以帮助我做到这一点?
提前致谢
AYUSH
答案 0 :(得分:2)
您是否在发布前研究过您的问题?我只是用Google搜索并找到了这个Apache项目:http://pdfbox.apache.org/
答案 1 :(得分:1)
对于java:看看iText
对于python,我会使用PDFMiner
答案 2 :(得分:0)
由于这些是学术论文,你还应该看看lapdftext
LA-PDFText是一个从基于PDF的文件中提取准确文本的系统 研究文章(以及能够提高绩效的界面) 需要的地方)。该系统是开源的,并提供简单 用于从主要研究文章中提取文本的基线函数 使用开发人员可以自定义的规则。