如何以句子形式制作Tesseract OCR输出单词?

时间:2016-02-04 12:07:38

标签: c# tesseract

Sample Image Input

我得到的结果是这样的:   http://i.stack.imgur.com/dM0qG.png

是否有可能让Tesseract以句子/段落的形式提供输出?

  

这是为了证明您已成功通过了2015年1月26日在宿雾市技术大学举行的PHIL-IT通用认证考试,该大学位于菲律宾宿雾市,N。Bacalso大道。

1 个答案:

答案 0 :(得分:2)

由于resultList的{​​{1}},并且每个Tessnet2.Word的文本都存储在Word中,您可以:

  1. 创建仅包含单词(不是完整的item.Text对象)
  2. 的列表
  3. 使用“space”作为分隔符加入此列表
  4. 因此,假设您的结果存储在名为Tessnet2.Word的var中(您执行了操作result)。如果将两个步骤组合在一起,它看起来像这样:

    
    var result = ocr.DoOCR(image, null);

    结果是:

      

    这是为了证明您已成功通过了Phil-lT   一般认证考试于[2015年6月26日在宿务举行   研究所Uf Tedmnlngy·大学,宿务市N. Bacalso大道   6000菲律宾。

    (它有一些检测错误,但这是一个不同的问题)