从扫描的pdf中读取数据

时间:2013-10-01 03:37:31

标签: pdftotext

我有pdf被扫描,无法转换为文本,甚至无法在文本编辑器中复制和粘贴为文本。

有没有办法可以通过编程方式或手动方式转换TEXT格式的扫描PDF文件?

由于

2 个答案:

答案 0 :(得分:2)

自扫描文档后,您可能只有一张图像可供使用。光学字符识别(或OCR)可能会有一些运气。此方法允许您从图像中提取文本数据。

Tesseract是一个受欢迎的引擎,我在我的项目中使用了很多成功。你可以考虑检查一下。

答案 1 :(得分:0)

如果您愿意手动转换文本并且不是100,000行,您可以自己输入所有数据,也可以与队友一起输入,如果您可以找到繁琐任务的帮助程序。 您可以使用很棒的OCR软件工具来完成这项工作。他们真的走了很长的路。

如果您想以编程方式执行此操作,请查看以前在ProPublica的Dan Nguyen的本指南。

http://www.propublica.org/nerds/item/doc-dollars-guides-collecting-the-data

他通过医生办公室扫描文件的PDF文件了解他们是如何做到这一点的。他使用Ruby on Rails并提供了代码示例,您可以看到他如何提取数据:http://www.propublica.org/nerds/item/turning-pdfs-to-text-doc-dollars-guide

我相信一些ProPublica的代码可以在github上找到,所以你可能想在那里分叉代码。