应用错误收集

自动从pdf中提取许多文件的文本

时间：2013-04-22 17:20:52

标签： java python pdf text

我有大约10,000个pdf文件（conf文件），我需要从这些文件的某些部分（如实验部分）中提取文本并保存在文件中。有没有人知道一个java工具或一些python工具可以帮助我做到这一点？

提前致谢

AYUSH

3 个答案:

答案 0 :(得分：2)

您是否在发布前研究过您的问题？我只是用Google搜索并找到了这个Apache项目：http://pdfbox.apache.org/

答案 1 :(得分：1)

对于java：看看iText

对于python，我会使用PDFMiner

答案 2 :(得分：0)

由于这些是学术论文，你还应该看看lapdftext

LA-PDFText是一个从基于PDF的文件中提取准确文本的系统研究文章（以及能够提高绩效的界面）需要的地方）。该系统是开源的，并提供简单用于从主要研究文章中提取文本的基线函数使用开发人员可以自定义的规则。