从图像中提取java代码(使用tesseract?)

时间:2014-12-11 18:57:09

标签: programming-languages ocr tesseract

我尝试提取存储在PDF文件图像中的Java代码。

我已经尝试过使用Tesseract,但它看起来像* {...的特殊字符与英语不太匹配,因为我的输出文件非常不一致。

实际上,我可以识别Java代码的一些摘录,但大多数情况下,文本已损坏。

所以我想知道你们中间是否有人知道Tesseract的语言扩展,或者其他可以提取我的Java代码的OCR软件。

感谢您的帮助: - )。

1 个答案:

答案 0 :(得分:0)

OCR的质量无疑取决于图像的质量,也取决于所使用的技术,特别是对于不完美的图像。此外,随着图像复杂性的增加(格式化,专用字体,特定文本结构等),OCR软件的强度将进一步受到压力测试。

对于编程语言而言,一些OCR程序具有大量特殊字符和比典型段落文本更复杂的行结构,将具有专门的处理模式。例如,在ABBYY OCR中,您实际上可以选择几种包含的编程语言(C ++,Java等)中的一种来提高识别质量。

对于您的图片,我很乐意通过我已有的软件为您处理它们。私下将您的页面发送给我。我可以通过wisetrend dot com与ilyae联系。这应该需要几分钟的时间。

或者,如果您想免费自己完成并且没有获得任何OCR软件许可证,或者将来可能需要处理更多许可证,您可以使用OCR-IT Web API(www.ocr-it.com)和注册一个免费帐户。它是API,因此需要几行脚本,或者您可以使用Fiddler发出Web请求。语言列表在这里(http://www.ocr-it.com/ocr-cloud-2-0-api/documentation)(参见页面底部),并为您的OCR请求使用“Java”语言。