如何获取特定的pdf信息?

时间:2014-09-30 14:54:18

标签: java

我有项目进入jav,我需要从Science PDF文档中过滤掉以下信息。 作者,标题和参考文献。 从PDF文档中获取这些特定信息有几个问题。 1.写论文没有特定的方法,所以每篇论文看起来都不一样。 2.对于程序,很难区分名称和实际描述的对象。 还有一些问题,但这会让我们离我的实际问题太远了。 我的问题是,是否可以选择在Pdf Dokument中获取某些信息, 比如这个pdf中使用了哪些字体大小或者使用了哪种不同的字体? 是否有任何方法或编辑器,我可以用可理解的方式查看PDF格式,所以我可以找到我需要的信息的标志性功能。这样我就可以对它们进行适当的提取。 谢谢你的帮助。 我很抱歉我的英语不是我的母语。

1 个答案:

答案 0 :(得分:2)

您可以使用Apache PDFBox等SDK来阅读PDF文件的属性以及其他文件内容。