如何从pdf文件中获取数据

时间:2018-04-11 16:28:08

标签: algorithm pdf

我想知道是否有任何方法可以从pdf文件中获取相关数据。假设我们有类似这样的名称:John,所以我们可以自动获取这个字段值,以便将它存储在某个地方,如预定义的数据库或文件?感谢。

1 个答案:

答案 0 :(得分:0)

使用pdftotext从pdf文件中提取文本内容。然后用您喜欢的编程语言解析文本文件。

如果您的pdf不包含真实文本,只包含文本图像,则需要使用光学字符识别软件来提取文本。