Pdf解析挑战

时间:2011-05-17 21:19:12

标签: parsing pdf

我有以下问题:我有很多pdf格式的论文,我必须从每一页的第一页中提取信息,然后将其保存到数据库中

我只需要提取标题,摘要,关键词,作者列表,大学列表,电子邮件。我想做一个脚本来为每个文件获取每个字段的字符串。

我该怎么做?有没有人这样做过?你推荐我什么语言和工具? 是否存在已经进行数据库馈送的纸质存储库?

考虑到pdf可以使用不同的编码,我也必须处理这个问题。任何帮助都会很棒。

example of a paper its here

问候!

2 个答案:

答案 0 :(得分:1)

http://pdfbox.apache.org/

你必须检查pdf的安全性,它确实是文本而不是图像。检查pdfbox的命令行应用程序是否有效提取文本,然后您可以使用jar并使用http://pdfbox.apache.org/apidocs/org/apache/pdfbox/examples/util/ExtractTextByArea.html

希望它有所帮助......

顺便说一句,这是java ...

修改。 我没有将它用作jar库http://www.qoppa.com/pdftext/,但是我使用了示例应用程序并且它可以工作,但我决定使用pdfbox ...

答案 1 :(得分:0)