MODI的准确性

时间:2017-01-19 05:15:28

标签: text-extraction processing-efficiency modi

我正在使用MS Office Document Imaging [MODI]来解析jpeg格式的文本。我需要知道有没有人能够勾勒出MODI从图像中读取文本的能力的限制?

1 个答案:

答案 0 :(得分:0)

由于Windows 10 Microsoft提供了第二个OCR选项:Microsoft.Windows.Ocr。它的MSDN page包含一些有关功能和限制的详细规范:

OCR引擎假定图像上的所有文本都以相同的方向书写,否则可能无法正确识别部分文本。 文本识别的准确性取决于图像的质量。以下可能导致读数不准确:

  • 模糊图像手写或草书文字
  • 艺术字体样式
  • 小文字尺寸(西方语言小于15像素,或小于20 东亚语言的像素)
  • 复杂背景阴影或眩光文字
  • 透视失真
  • 在下标,上标或删除文字开头的大写字母超出或掉落

如果您想自己测试,可以在此处找到Visual Studio C#测试项目:GUI front-end for the Microsoft OCR library.该应用程序还包括对阅读和OCR的PDF文件的支持。