将图像类型PDF转换为启用OCR的PDF

时间:2011-12-15 17:50:07

标签: image pdf text ocr

我不确定我的标题是否过于描述我正在尝试做的事情,所以我会尽力去做。

我被要求开发一个小应用程序,有人可以将PDF上传到网站。该网站采用ASP经典编码,但我不介意沿着.net的路线。

上传后,代码需要检查PDF是否是基于文本的,如果不是,则需要将文档转换为文本类型PDF。

有没有人知道一个组件可以做这个图像PDF到文本PDF转换?到目前为止,我已经研究过:

我没有过分理解鬼的事情在做什么,而websupergoo解决方案似乎是将图像转换为文本文件?

2 个答案:

答案 0 :(得分:2)

我认为您可以使用多个网站中的一个来上传图片并向您发回OCR数据。试试www.ocrsdk.com,它是ABBYY最近推出的基于云的OCR SDK。它现在处于封闭测试阶段,因此可以完全免费使用。

答案 1 :(得分:1)

如果你能负担商业选择,你可以使用Amyuni PDF Creator .Net和asp.net,或Amyuni PDF Creator ActiveX如果你想继续使用asp-classic。查看OCR module的PDF-Image到PDF文本处理。

通常的免责声明适用