c#将PDF转换为Tiff

时间:2012-08-30 20:40:07

标签: c# ocr

我正在使用ghostscript将PDF转换为使用C $类包装器的Tif,然后使用OCR tessnet2来读取图像文件的内容,但是tif图像几乎不可读,图像很褪,看起来不对OCR引擎无法读取任何内容。是否有任何开源或库会花费我几美元,可以将PDF转换为TIf的高质量?或任何读取PDF文件的开源OCR引擎,因为tessnet2无法读取PDF文件。

3 个答案:

答案 0 :(得分:1)

正如DaNet所说,我不确定是否有任何开源DLL或免费方式。我们使用名为leadtools的第三方工具包,在OCR PDF文档时为我们提供了非常好的结果。您可以使用它对图像进行一些处理(即将其二值化,从图像中删除不需要的点,将其转换为1位黑色和白色,将其保存为TIF图像等),然后将其传递给它们OCR引擎。 我知道他们有一个在线演示,你可以尝试一下。以下是演示的链接: http://demo.leadtools.com/OnlineRecognitionDemo

如果结果符合您的要求,您可以查看本教程: Scanning to Searchable PDF

答案 1 :(得分:0)

我不确定开源OCR,但如果你玩ghostscript生成的分辨率输出tiff你应该没有问题。

尝试将-r150添加到ghostscript包装器的“string args”中以更改分辨率,并希望是一个体面的兆字节文件!

答案 2 :(得分:0)

我不得不将imageMagicNET类输出格式的属性更改为png16m和DPI,因此生成的图像质量高,可读取OCR引擎