应用错误收集

时间：2011-05-17 21:19:12

标签： parsing pdf

我有以下问题：我有很多pdf格式的论文，我必须从每一页的第一页中提取信息，然后将其保存到数据库中

我只需要提取标题，摘要，关键词，作者列表，大学列表，电子邮件。我想做一个脚本来为每个文件获取每个字段的字符串。

我该怎么做？有没有人这样做过？你推荐我什么语言和工具？是否存在已经进行数据库馈送的纸质存储库？

考虑到pdf可以使用不同的编码，我也必须处理这个问题。任何帮助都会很棒。

问候！

答案 0 :(得分：1)

你必须检查pdf的安全性，它确实是文本而不是图像。检查pdfbox的命令行应用程序是否有效提取文本，然后您可以使用jar并使用http://pdfbox.apache.org/apidocs/org/apache/pdfbox/examples/util/ExtractTextByArea.html

希望它有所帮助......

顺便说一句，这是java ...

修改。我没有将它用作jar库http://www.qoppa.com/pdftext/，但是我使用了示例应用程序并且它可以工作，但我决定使用pdfbox ...

答案 1 :(得分：0)

您需要一个API来阅读您的pdf。