如何使用java从pdf中提取作者详细信息

时间:2012-05-26 13:31:57

标签: java pdf

我有1000个和1000个PDF文章,我需要从中提取作者姓名及其相关详细信息,如addressemail ID以及PDF中提供的内容(我的意思是内容)。我不想通过获取与PDF元数据相关的详细信息来实现此目的。因为我尝试了最后只有更少的细节,如作者姓名,标题和其他一些我根本不需要的通常细节。

我已经通过互联网上的所有API,但我仍然得到了解决方案。我需要用Java来做。

1 个答案:

答案 0 :(得分:1)

我认为你无法直接从任何图书馆获取它。 将iTest库用于reading pdf。一旦您能够阅读文本,就可以使用正则表达式找到作者。